Las organizaciones que están adoptando aplicaciones de inteligencia artificial generativa enfrentan el desafío de evaluar el rendimiento y la fiabilidad de sus sistemas. En el evento AWS re:Invent 2024, se presentó una solución innovadora para este desafío: las capacidades mejoradas de evaluación de modelos de lenguaje (LLMaJ) y generación aumentada por recuperación (RAG) de Amazon Bedrock. Aunque inicialmente estas capacidades estuvieron disponibles en una versión previa pública, sus usuarios demandaron mayor flexibilidad para adaptar sus modelos a diversos entornos más allá de los proporcionados por Bedrock.
Ahora, estas funciones han avanzado y están disponibles de manera general en Amazon Bedrock Evaluations, brindando mejoras que las hacen más adaptables a cualquier ambiente. Una de las características clave introducidas es la posibilidad de «traer tus propias respuestas de inferencia» (bring your own inference responses, BYOI) para las evaluaciones de RAG y del modelo. Esto significa que los sistemas RAG o modelos, independientemente de si operan en Amazon Bedrock, otras plataformas de nube o localmente, pueden ser evaluados siempre que los datos estén en el formato requerido.
Adicionalmente, se han incorporado métricas de citación a las evaluaciones RAG para medir con más precisión la exactitud y cobertura de citaciones de un sistema RAG. Estas nuevas métricas son fundamentales para evaluar cómo se maneja la información recuperada, promoviendo una mayor calidad y relevancia en las salidas generadas.
Estas características avanzadas permiten a los equipos optimizar el rendimiento y asegurar la calidad en sus desarrollos de inteligencia artificial generativa, ya sea utilizando Amazon Bedrock o plataformas diversas. Las ampliaciones en la capacidad de evaluación facilitan la adaptación para sistemas RAG alojados en múltiples localizaciones, gracias a la BYOI, abriendo la puerta a evaluar una gama más amplia de modelos base y sistemas RAG personalizados.
El formato necesario para las evaluaciones también ha mejorado, ahora incluyendo identificadores de bases de conocimiento y campos de metadatos adicionales. La inclusión de métricas de citación, una de las novedades más destacadas, permite un análisis más profundo sobre la precisión en las citas utilizadas por un sistema RAG, identificando posibles inexactitudes o irrelevancias en las citaciones.
Estas capacidades mejoradas no solo permiten un mejor análisis comparativo de distintas implementaciones, sino que también fomentan decisiones más informadas basadas en los datos obtenidos durante las evaluaciones. Las empresas ahora pueden implementar evaluaciones regulares para refinar continuamente sus modelos y sistemas RAG, garantizando resultados de alta calidad adaptados a usos específicos.