Optimiza el rendimiento de tu LLM con el contenedor de inferencia de modelos grandes de Amazon SageMaker v15

Hoy se ha anunciado con entusiasmo el lanzamiento de la versión 15 del contenedor de Amazon SageMaker Large Model Inference (LMI), impulsada por la versión 0.8.4 de vLLM y equipada con el motor vLLM V1. Esta actualización marca un hito significativo en el avance de la inteligencia artificial, con soporte para modelos de código abierto de última generación, incluyendo Llama 4 de Meta, Scout y Maverick, Gemma 3 de Google, Qwen de Alibaba, Mistral AI y DeepSeek-R, entre otros.

La nueva versión no solo amplía las capacidades de inferencia en inteligencia artificial generativa para satisfacer la creciente demanda de rendimiento y compatibilidad, sino que también introduce mejoras significativas en el rendimiento. Entre estas, destaca una mayor compatibilidad con modelos multimodales, lo que significa que ahora los sistemas pueden procesar y entender datos en formatos variados, como texto a texto, imágenes a texto y texto a imágenes.

Una de las características más innovadoras es la integración del modo asíncrono con el motor AsyncLLMEngine de vLLM. Esta incorporación permite una gestión más eficiente de las solicitudes, creando un bucle de procesamiento en colas que mejora la capacidad de manejar solicitudes simultáneas y transmisión de resultados, superando a la implementación de lotes secuenciales de la versión anterior.

El motor vLLM V1 introduce mejoras que permiten un aumento del rendimiento hasta un 111% sobre el motor V0 en contextos de alta concurrencia y modelos pequeños. Esto es posible gracias a la optimización de los caminos de ejecución y un uso más eficiente de los recursos de CPU. Aunque el motor V1 es ahora el predeterminado, los usuarios pueden optar por regresar al V0 si lo requieren mediante configuraciones específicas.

La actualización también amplía el soporte de esquemas de API para facilitar una integración sin complicaciones con patrones de API populares. Las optimizaciones implementadas para modelos de visión y lenguaje incluyen un sistema de almacenamiento en caché multiplataforma, que mejora aún más el rendimiento en el manejo de modelos complejos.

El espectro de modelos soportados por LMI v15 es amplio, abarcando desde los más innovadores como Llama 4 y Gemma 3 hasta otros aún en desarrollo. Los beneficios del motor V1 se reflejan en pruebas comparativas, mostrando mejoras de rendimiento que varían entre el 24% y el 111% dependiendo del modelo.

Este avance en la tecnología de contenedores de Amazon SageMaker LMI subraya un progreso crucial en la capacidad para la inferencia de modelos de lenguaje a gran escala. Con la introducción del nuevo motor vLLM V1 y soporte ampliado para modelos, los usuarios pueden experimentar una flexibilidad y rendimiento inigualables al desplegar modelos de inteligencia artificial generativa de vanguardia. Se extiende la invitación a los desarrolladores y empresas a explorar estas innovaciones para optimizar sus propias implementaciones de modelos de IA.

Lo último