La última innovación de NVIDIA, la plataforma Blackwell, ha marcado un hito importante en el entrenamiento de inteligencia synthetic (IA) al duplicar el rendimiento de los puntos de referencia de entrenamiento de modelos de lenguaje grande (LLM) en MLPerf Coaching v4.1. Según NVIDIA, este logro subraya el compromiso de NVIDIA de mejorar las capacidades de IA a escala del centro de datos.
Plataforma Blackwell revelada
Presentada en GTC 2024 y ahora en plena producción, la plataforma Blackwell integra siete tipos de chips, incluidos GPU, CPU y DPU, lo que ofrece un salto sustancial en el rendimiento por GPU. Esta plataforma está diseñada para respaldar el desarrollo de LLM de próxima generación al permitir la creación de grupos de IA más grandes.
Mejoras de rendimiento en el entrenamiento MLPerf
En los últimos puntos de referencia de MLPerf Coaching, la plataforma Blackwell de NVIDIA superó a su predecesora, Hopper, en todas las pruebas. Las mejoras notables incluyen un aumento de 2 veces en el rendimiento para el preentrenamiento de GPT-3 y un aumento de 2,2 veces para el ajuste fino de la adaptación de rango bajo (LoRA) de Llama 2 70B. Los sistemas presentados para pruebas incluían ocho GPU Blackwell, cada una de las cuales funcionaba con una potencia de diseño térmico (TDP) de 1000 W.
Mejoras tecnológicas
La arquitectura Blackwell se beneficia de mejoras tanto en {hardware} como en software program. Esto incluye multiplicaciones de matrices generales (GEMM) optimizadas, mejor superposición de computación y comunicación y mejor utilización del ancho de banda de la memoria. Estos avances permiten una ejecución más eficiente de las cargas de trabajo de IA y demuestran el enfoque de NVIDIA en el codiseño de {hardware} y software program para un rendimiento óptimo.
Impactos en la formación LLM
El punto de referencia de preentrenamiento LLM de la suite MLPerf Coaching, basado en el modelo GPT-3, destacó las capacidades de Blackwell, ofreciendo el doble de rendimiento por GPU en comparación con Hopper. Además, la memoria mejorada de gran ancho de banda de Blackwell permite un entrenamiento eficiente con menos GPU, lo que demuestra aún más su eficiencia.
Perspectivas futuras
De cara al futuro, NVIDIA planea aprovechar el sistema GB200 NVL72 para obtener ganancias de rendimiento aún mayores. Se espera que este sistema presente más potencia informática, dominios NVLink ampliados y mayor ancho de banda de memoria, ampliando aún más los límites de las capacidades de entrenamiento de IA.
En conclusión, la plataforma NVIDIA Blackwell representa un avance importante en la tecnología de entrenamiento de IA, ya que ofrece importantes mejoras de rendimiento con respecto a arquitecturas anteriores. A medida que NVIDIA continúa innovando, se espera que las capacidades de los modelos de IA crezcan, permitiendo sistemas más complejos y capaces.
Fuente de la imagen: Shutterstock