Un laboratorio nacional en Estados Unidos ha dado un paso decisivo hacia la modernización del acceso a su vasto archivo de documentos históricos, con la implementación de una nueva plataforma de procesamiento de documentos impulsada por inteligencia artificial. Esta iniciativa busca resolver los problemas de accesibilidad y localización que han plagado a estas instituciones durante mucho tiempo. Aunque guardan una cantidad inmensa de conocimiento, la falta de metadatos consistentes y un etiquetado ineficaz han mantenido esta información valiosa prácticamente inaccesible mediante métodos tradicionales de búsqueda basados en palabras clave, que a menudo exigen laboriosas revisiones manuales.
La solución innovadora combina el reconocimiento de entidades nombradas (NER, por sus siglas en inglés) y modelos de lenguaje de gran escala dentro del entorno de Amazon SageMaker. Este enfoque transforma el acceso a los registros archivados al automatizar el enriquecimiento de metadatos, clasificar documentos y generar resúmenes. La tecnología subyacente utiliza el modelo Mixtral-8x7B para la creación de resúmenes y títulos, junto con un modelo NER basado en BERT, optimizando así la organización y recuperación de documentos escaneados.
Diseñada con una arquitectura sin servidor, la plataforma garantiza la eficiencia y escalabilidad a través de la gestión dinámica de endpoints de SageMaker, lo que resulta en una utilización de recursos optimizada. Las avanzadas tecnologías de procesamiento de lenguaje natural (NLP) y los modelos de lenguaje de gran escala (LLM) mejoran la precisión de los metadatos, lo que permite una búsqueda más precisa y una gestión documental más eficaz. Esto no solo respalda la transformación digital de dichos archivos, sino que también asegura que el conocimiento almacenado se utilice de manera efectiva en investigaciones, desarrollo de políticas y la preservación del conocimiento institucional.
Denominada NER & LLM Gen AI Application, la solución ofrece una automatización del análisis documental a gran escala mediante un enfoque modular que aborda desde resúmenes extractivos hasta la extracción de autores de los documentos. Su activación se inicia con la detección de documentos en el bucket de extracciones, lo que evita operaciones redundantes mediante la creación y manejo eficiente de endpoints de modelo, procesando documentos en lotes para asegurar eficiencia.
Este sistema no solo sobresale en rendimiento, sino que también destaca por su capacidad de procesar 100,000 documentos en tan solo 12 horas, subrayando su efectividad en términos de costo y rendimiento. Al implementar resúmenes extractivos como primer paso, se logra una reducción de la carga de trabajo de entre el 75% y el 90%, lo que se traduce en un procesamiento más rápido y un menor costo operativo. Esta plataforma se erige como una respuesta eficaz a las crecientes demandas de un procesamiento documental eficiente dentro del ámbito de la investigación y la gestión del conocimiento.