El superordenador Eos de Nvidia ha logrado un impresionante avance en el entrenamiento de modelos de inteligencia artificial (IA), reduciendo drásticamente el tiempo requerido para entrenar GPT-3, que cuenta con 175.000 millones de parámetros, a menos de cuatro minutos.
Lanzado por Nvidia en marzo del año pasado, Eos fue diseñado para convertirse en el sistema de computación de IA más rápido del mundo, aprovechando sus 4.608 GPU DGX H100 y 576 sistemas DGX H100 para lograr un rendimiento de 18,4 exaflops.
En una actualización reciente, Eos ha sido equipado con 10.752 GPU H100 Tensor Core y la red Quantum-2 InfiniBand de Nvidia, lo que le ha permitido superar una prueba de entrenamiento de IA basada en el modelo GPT-3 en un tiempo récord de 3,9 minutos. Esta prueba se había realizado anteriormente cuando el superordenador contaba con 3.584 PGU H100, y el entrenamiento del modelo GPT-3 había llevado 10,9 minutos. La reducción del tiempo de entrenamiento en menos de seis meses es impresionante y demuestra los avances tecnológicos realizados por Nvidia.
Además de la mejora en las GPU, este hito también se logró gracias a la utilización de una plataforma completa de innovaciones en aceleradores, sistemas y software, que se desarrollaron en colaboración con Microsoft Azure, la plataforma de nube de Microsoft.
Nvidia ha destacado que esta aceleración en el tiempo de formación de modelos de IA no solo tiene beneficios en términos de eficiencia y ahorro de energía, sino que también acelera el tiempo de comercialización de soluciones basadas en IA. Es un avance significativo que sin duda revolucionará la forma en que se entrenan y utilizan los modelos de IA.