La Ăşltima innovaciĂłn de NVIDIA, la plataforma Blackwell, ha marcado un hito importante en el entrenamiento de inteligencia synthetic (IA) al duplicar el rendimiento de los puntos de referencia de entrenamiento de modelos de lenguaje grande (LLM) en MLPerf Coaching v4.1. SegĂşn NVIDIA, este logro subraya el compromiso de NVIDIA de mejorar las capacidades de IA a escala del centro de datos.
Plataforma Blackwell revelada
Presentada en GTC 2024 y ahora en plena producción, la plataforma Blackwell integra siete tipos de chips, incluidos GPU, CPU y DPU, lo que ofrece un salto sustancial en el rendimiento por GPU. Esta plataforma está diseñada para respaldar el desarrollo de LLM de próxima generación al permitir la creación de grupos de IA más grandes.
Mejoras de rendimiento en el entrenamiento MLPerf
En los Ăşltimos puntos de referencia de MLPerf Coaching, la plataforma Blackwell de NVIDIA superĂł a su predecesora, Hopper, en todas las pruebas. Las mejoras notables incluyen un aumento de 2 veces en el rendimiento para el preentrenamiento de GPT-3 y un aumento de 2,2 veces para el ajuste fino de la adaptaciĂłn de rango bajo (LoRA) de Llama 2 70B. Los sistemas presentados para pruebas incluĂan ocho GPU Blackwell, cada una de las cuales funcionaba con una potencia de diseño tĂ©rmico (TDP) de 1000 W.
Mejoras tecnolĂłgicas
La arquitectura Blackwell se beneficia de mejoras tanto en {hardware} como en software program. Esto incluye multiplicaciones de matrices generales (GEMM) optimizadas, mejor superposición de computación y comunicación y mejor utilización del ancho de banda de la memoria. Estos avances permiten una ejecución más eficiente de las cargas de trabajo de IA y demuestran el enfoque de NVIDIA en el codiseño de {hardware} y software program para un rendimiento óptimo.
Impactos en la formaciĂłn LLM
El punto de referencia de preentrenamiento LLM de la suite MLPerf Coaching, basado en el modelo GPT-3, destacó las capacidades de Blackwell, ofreciendo el doble de rendimiento por GPU en comparación con Hopper. Además, la memoria mejorada de gran ancho de banda de Blackwell permite un entrenamiento eficiente con menos GPU, lo que demuestra aún más su eficiencia.
Perspectivas futuras
De cara al futuro, NVIDIA planea aprovechar el sistema GB200 NVL72 para obtener ganancias de rendimiento aĂşn mayores. Se espera que este sistema presente más potencia informática, dominios NVLink ampliados y mayor ancho de banda de memoria, ampliando aĂşn más los lĂmites de las capacidades de entrenamiento de IA.
En conclusiĂłn, la plataforma NVIDIA Blackwell representa un avance importante en la tecnologĂa de entrenamiento de IA, ya que ofrece importantes mejoras de rendimiento con respecto a arquitecturas anteriores. A medida que NVIDIA continĂşa innovando, se espera que las capacidades de los modelos de IA crezcan, permitiendo sistemas más complejos y capaces.
Fuente de la imagen: Shutterstock