El entrenamiento de modelos de inteligencia artificial de vanguardia, como el Llama 3 con 70 mil millones de parámetros, representa un significativo desafío para la computación moderna debido a su alta demanda de recursos. Estos modelos requieren sistemas distribuidos que pueden integrar cientos o incluso miles de instancias aceleradas, funcionando de manera continua durante semanas o meses para completar un solo trabajo. Por ejemplo, el pre-entrenamiento del modelo Llama 3 utilizó 15 billones de tokens de entrenamiento, requiriendo 6.5 millones de horas de GPU H100. En un sistema que utiliza 256 instancias de Amazon EC2 P5, cada una equipada con 8 GPUs NVIDIA H100, el tiempo necesario se estima en aproximadamente 132 días.

Los trabajos de entrenamiento distribuidos operan de forma sincrónica, lo que implica que cada paso de entrenamiento exige la finalización conjunta de cálculos por todas las instancias participantes. Este sistema se vuelve vulnerable: cualquier fallo en una sola instancia puede paralizar todo el proceso. Con el crecimiento del tamaño del clúster, aumenta la probabilidad de fallos debido a la gran cantidad de componentes de hardware implicados. Los fallos de hardware no solo causan la pérdida de horas valiosas de GPU, sino que también demandan significativos recursos de ingeniería para identificar y subsanar el problema, provocando paros que retrasan el avance. Para evaluar la fiabilidad del sistema, los equipos de ingeniería recurren a métricas clave como el tiempo medio entre fallos (MTBF), que mide el tiempo promedio de operación entre fallos de hardware.

El registro de fallos de instancia es vital para comprender la MTBF típica en la capacitación de grandes modelos, y se han documentado ejemplos representativos: un caso en el que Meta AI entrenó el modelo OPT-175B con 992 GPUs A100 mostró 35 reinicios manuales y más de 70 reinicios automáticos en dos meses, con una tasa de fallo de 0.0588% por hora. Durante el entrenamiento del Llama 3.1 en 16,000 GPUs H100, se produjeron 417 fallos no programados en 54 días, resultando en una tasa efectiva de aproximadamente 0.0161% por hora. En un entrenamiento diferente de MPT-7B en 440 GPUs A100, se experimentaron cuatro fallos, mostrando una tasa de 0.0319% por hora. Esto sugiere que, durante una hora de entrenamiento distribuido a gran escala, se puede esperar que entre un 0.02% a un 0.06% de las instancias fallen.

Además, el tamaño del clúster afecta significativamente la fiabilidad; a medida que se expande, la complejidad del sistema crece y el MTBF disminuye. Con una tasa de fallo de 0.04% por hora, un sistema de 512 instancias podría experimentar un fallo aproximadamente cada 5 horas. Este aumento en las tasas de fallo con la ampliación de los clústeres supone un considerable desafío para los equipos de ingeniería.

Cuando ocurre un fallo, el proceso de resolución puede ser extenso. Esto involucra un análisis de la causa raíz, seguido por la reparación o el reemplazo del hardware y la recuperación del sistema. La detección rápida de fallos y los tiempos de sustitución más cortos son fundamentales para minimizar el tiempo total de entrenamiento. En este contexto, Amazon SageMaker HyperPod se presenta como una solución resiliente que reduce las interrupciones y minimiza los costos de capacitación en estos entornos complejos. Esta plataforma automatiza la detección y reemplazo de instancias defectuosas, reanudando el entrenamiento desde el último punto guardado, lo que representa una significativa ventaja para la eficiencia operativa.

Datos empíricos indican que SageMaker HyperPod podría reducir el tiempo total de entrenamiento en un 32% en un clúster de 256 instancias sometido a una tasa de fallo del 0.05%, lo que se traduce en un ahorro aproximado de 25 millones de dólares en costos de entrenamiento para un trabajo que requiera 10 millones de horas GPU.

La inherente complejidad y los necesarios recursos para entrenar modelos avanzados subrayan la importancia de que las empresas encuentren soluciones eficientes, permitiéndoles centrar su atención en la innovación en lugar de la gestión de infraestructura. SageMaker HyperPod proporciona a los equipos de inteligencia artificial la confianza para emprender entrenamientos prolongados, asegurando que cualquier fallo de hardware será manejado automáticamente, minimizando las interrupciones en sus operaciones de aprendizaje automático.

Lo último