Nvidia CUDA Toolkit

Nvidia CUDA Toolkit 11.2.1 – Descargar gratis

0
(0)

Características:

  • Compilador C / C ++
  • Analizador visual
  • Biblioteca BLAS acelerada por GPU
  • Biblioteca FFT acelerada por GPU
  • Biblioteca de matriz dispersa acelerada por GPU
  • Biblioteca RNG acelerada por GPU
  • Herramientas y documentación adicionales

Destacar:

  • Portabilidad de aplicaciones más fácil
    • Comparta GPU en varios subprocesos
    • Utilice todas las GPU del sistema al mismo tiempo desde un único hilo de host
    • Anclaje sin copia de la memoria del sistema, una alternativa más rápida a cudaMallocHost ()
    • C ++ nuevo / eliminar y soporte para funciones virtuales
    • Soporte para montaje PTX en línea
    • Biblioteca de empuje de primitivas de rendimiento con plantilla, como ordenar, reducir, etc.
    • Biblioteca de Nvidia Performance Primitives (NPP) para procesamiento de imágenes / video
    • Texturas en capas para trabajar con texturas del mismo tamaño / formato en tamaños más grandes y mayor rendimiento
  • Programación multi-GPU más rápida
    • Direccionamiento virtual unificado
    • Soporte de GPUDirect v2.0 para la comunicación entre pares
  • Herramientas para desarrolladores nuevas y mejoradas
    • Análisis de rendimiento automatizado en Visual Profiler
    • Depuración de C ++ en CUDA-GDB para Linux y MacOS
    • Desensamblador binario de GPU para arquitectura Fermi (cuobjdump)
    • Parallel Nsight 2.0 ahora disponible para desarrolladores de Windows con nuevas funciones de depuración y creación de perfiles.

Qué hay de nuevo:

Esta sección resume los cambios en CUDA 11.2.1 (11.2 Actualización 1) desde la versión 11.2.0 GA.

Compilador CUDA

Problemas resueltos:

  • Anteriormente, al usar versiones recientes del compilador de host VS 2019, una llamada a pow (double, int) o pow (float, int) en el código del host o del dispositivo a veces causaba fallas de compilación. Este problema ha sido resuelto.

coSOLVER

Nuevas características:

  • Se agrega nueva descomposición de valor singular (GESVDR). GESVDR calcula el espectro parcial con muestreo aleatorio, un orden de magnitud más rápido que GESVD.
  • libcusolver.so ya no enlaza libcublas_static.a; en cambio, depende de libcublas.so. Esto reduce el tamaño binario de libcusolver.so. Sin embargo, rompe la compatibilidad con versiones anteriores. El usuario debe vincular libcusolver.so con la versión correcta de libcublas.so.

cuSPARSE

Nuevas características:

  • Nueva matriz dispersa de bloques acelerada por Tensor Core: multiplicación de matrices (cusparseSpMM) e introducción del formato de almacenamiento Blocked-Ellpack.
  • Nuevos algoritmos para CSR / COO Sparse Matrix – Vector Multiplication (cusparseSpMV) con mejor rendimiento.
  • Funciones ampliadas para cusparseSpMV:
  • Soporte para el formato CSC.
  • Soporte para tipos de datos bfloat16 regulares / complejos para cálculos tanto uniformes como de precisión mixta.
  • Compatibilidad con el cálculo de tipos de datos mixtos regulares y complejos.
  • Soporte para cálculo determinista y no determinista.
  • Nuevo algoritmo (CUSPARSE_SPMM_CSR_ALG3) para Sparse Matrix – Matrix Multiplication (cusparseSpMM) con mejor rendimiento especialmente para matrices pequeñas.
  • Nueva rutina para Sampled Dense Matrix – Dense Matrix Multiplication (cusparseSDDMM) que desaprobó cusparseConstrainedGeMM y proporciona un mejor rendimiento.
  • Mejor precisión de cusparseAxpby, cusparseRot, cusparseSpVV para bfloat16 y tipos de datos medio regulares / complejos.
  • Todas las rutinas admiten la anotación NVTX para mejorar la línea de tiempo del generador de perfiles en aplicaciones complejas.

Desuso:

  • cusparseConstrainedGeMM ha quedado obsoleto en favor de cusparseSDDMM.
  • cusparseCsrmvEx ha quedado obsoleto en favor de cusparseSpMV.
  • El formato COO Array of Structure (CooAoS) ha quedado obsoleto, incluido cusparseCreateCooAoS, cusparseCooAoSGet y su compatibilidad con cusparseSpMV.

Problemas conocidos:

  • cusparseDestroySpVec, cusparseDestroyDnVec, cusparseDestroySpMat, cusparseDestroyDnMat, cusparseDestroy con argumento NULL podría causar un error de segmentación en Windows.

Problemas resueltos:

  • cusparseAxpby, cusparseGather, cusparseScatter, cusparseRot, cusparseSpVV, cusparseSpMV ahora admiten matrices de tamaño cero.
  • cusparseCsr2cscEx2 ahora maneja correctamente matrices vacías (nnz = 0).
  • cusparseXcsr2csr_compress ahora usa 2-norm para la comparación de valores complejos en lugar de solo la parte real.
  • Características de NPPNew: se agregaron nuevas API para calcular la transformación de distancia mediante el algoritmo de bandas paralelas (PBA):
  • nppiDistanceTransformPBA_xxxxx_C1R_Ctx () – donde xxxxx especifica la combinación de entrada y salida: 8u16u, 8s16u, 16u16u, 16s16u, 8u32f, 8s32f, 16u32f, 16s32f
  • nppiSignedDistanceTransformPBA_32f_C1R_Ctx ()

Problemas resueltos:

  • Se solucionó el problema por el cual los marcadores de etiqueta agrega cero píxeles como región del objeto.
  • NVJPEG

Nuevas características:

  • El decodificador nvJPEG agregó una nueva API para admitir la decodificación basada en la región de interés (ROI) para el decodificador de hardware por lotes:
  • nvjpegDecodeBatchedEx ()
  • nvjpegDecodeBatchedSupportedEx ()

CuFFT Problemas conocidos:

  • Las funciones de planificación y estimación de planes de cuFFT pueden no restaurar el contexto correcto que afecta a las aplicaciones de la API del controlador CUDA.
  • Los planes con zancadas, primos mayores a 127 en descomposición de tamaño FFT y tamaño total de transformación, incluyendo zancadas mayores a 32 GB, producen resultados incorrectos.

Problemas resueltos:

  • Anteriormente, se observaba un rendimiento reducido de FFT de precisión simple de potencia de 2 en GPU con arquitectura sm_86. Este problema ha sido resuelto.
  • Los factores primos grandes en la descomposición del tamaño y el tipo de FFT de real a complejo o de complejo a real ya no causan fallas en las funciones del plan de cuFFT.
  • Aviso anticipado de CUPTIDeprecations: las siguientes funciones están programadas para dejar de estar disponibles en la versión 11.3 y se eliminarán en una versión futura:
  • NVPW_MetricsContext_RunScript y NVPW_MetricsContext_ExecScript_Begin desde el encabezado nvperf_host.h.
  • cuptiDeviceGetTimestamp del encabezado cupti_events.h

Completo las notas de la versión se pueden encontrar aquí.

Opciones de descarga:

¿Le ha parecido útil este contenido?

¡Haz clic en una estrella para puntuar!

Promedio de puntuación 0 / 5. Recuento de votos: 0

Hasta ahora, ¡no hay votos!. Sé el primero en puntuar este contenido.