Amazon ha lanzado una innovadora función de «prompt caching» en su plataforma Amazon Bedrock, diseñada para aumentar la eficiencia en la generación de respuestas de modelos avanzados como Claude 3.5 Haiku y Claude 3.7 Sonnet. Esta característica, ahora disponible de manera general, tiene el potencial de reducir la latencia de respuesta en un 85% y disminuir los costos operativos hasta en un 90% mediante el almacenamiento en caché de los «prompts» utilizados frecuentemente a través de múltiples llamadas a la API.
El «prompt caching» permite que los usuarios identifiquen partes específicas de sus solicitudes, conocidas como «prompt prefixes», para almacenarlas en caché. Cuando una solicitud incluye un «prompt prefix» previamente almacenado, el modelo es capaz de acceder a la caché y omitir los pasos adicionales de computación, lo que resulta en un procesamiento más rápido y un uso más eficiente del hardware, traduciéndose en ahorros significativos para los usuarios.
Este nuevo componente de Amazon Bedrock mejora el procesamiento de tokens de entrada, crucial en el funcionamiento de modelos de lenguaje a gran escala. Mediante puntos de control de caché, los desarrolladores pueden estructurar mejor sus «prompts», aumentando las coincidencias en la memoria caché y mejorando el rendimiento general del sistema.
La función es especialmente útil para aplicaciones que implican «prompts» de contexto prolongado y repetido, como asistentes de chat y programación. Para maximizar sus beneficios, se recomienda estructurar las solicitudes de modo que la información estática, como instrucciones y ejemplos, se incluya al principio, dejando el contenido dinámico para el final.
Los desarrolladores pueden seguir métricas sobre el uso de la memoria caché, como el número de tokens leídos y escritos, a través de la API, lo que les permitirá manejar mejor sus estrategias de caché y mejorar la capacidad de respuesta. No obstante, en escenarios con «prompts» muy largos y dinámicos, la efectividad del «prompt caching» puede disminuir, lo que exigirá una cuidadosa evaluación de la estructura de los «prompts» para asegurar el máximo rendimiento.
Además, la función de «prompt caching» se combina con la inferencia interregional de Amazon Bedrock, que optimiza la selección de la región de AWS más apropiada para procesar solicitudes, asegurando una disponibilidad de recursos más efectiva incluso durante períodos de alta demanda.