¿Cuánta memoria tienen realmente los modelos de inteligencia artificial? Un nuevo estudio cuestiona las promesas de las grandes tecnológicas

En los últimos años, los modelos de inteligencia artificial (IA) que generan texto, como ChatGPT o Gemini, han logrado avances sorprendentes. Una de sus promesas más llamativas es su capacidad para “recordar” y trabajar con textos cada vez más largos en una sola conversación. Pero, ¿realmente cumplen con lo que dicen?

Un nuevo estudio, titulado RULER: ¿Cuál es el verdadero tamaño de contexto de los modelos de lenguaje?, pone a prueba estas afirmaciones y revela una realidad menos espectacular de lo que muchas compañías tecnológicas promocionan.


¿Qué es la «ventana de contexto»?

La ventana de contexto es un término técnico que se refiere a la cantidad de texto que una inteligencia artificial puede “tener en mente” al mismo tiempo. Esto incluye tanto lo que tú le escribes como lo que el propio modelo ha dicho antes en una conversación.

Cuanto mayor sea esta ventana, más largo puede ser el texto que la IA analiza sin olvidar detalles importantes. Esto es clave para que pueda ayudarte con documentos extensos, análisis complejos o mantener una conversación coherente durante más tiempo.

Por ejemplo, GPT-4 (de OpenAI) dice que puede manejar hasta 128.000 «tokens» (unidades de texto, similares a palabras), lo que equivale a unas 300 páginas de texto.


¿Y qué ha descubierto el estudio RULER?

El equipo de investigadores de NVIDIA y otras instituciones quiso comprobar si los modelos de IA realmente rinden bien cuando se les da todo ese texto prometido. Para ello, diseñaron pruebas específicas con tareas más complejas que las típicas preguntas simples.

Los resultados muestran que muchos modelos comienzan a fallar mucho antes de alcanzar el límite de texto que afirman poder manejar. Aunque dicen procesar hasta un millón de palabras, en la práctica su capacidad útil es mucho menor.


¿Cuáles son los modelos que mejor se comportan?

Entre los más destacados del estudio se encuentran:

ModeloLímite declaradoLímite real eficazCalidad media en pruebas (%)
Jamba-1.5-large256.000 tokensMás de 128.00096,0 %
Gemini 1.5 Pro1.000.000 tokensMás de 128.00095,8 %
GPT-4 Turbo128.000 tokens64.000 tokens91,6 %
Llama 3.1 (70B)128.000 tokens64.000 tokens89,6 %

Otros modelos que aseguran tener ventanas de contexto enormes apenas rinden bien una vez se les da más de 16.000 o 32.000 tokens.


¿Por qué esto importa?

Si estás usando un modelo de IA para tareas sencillas, como redactar correos o resumir textos breves, esto puede no ser un problema. Pero si tu trabajo depende de analizar documentos largos, textos legales, código de programación o múltiples informes, la diferencia entre el límite teórico y el rendimiento real sí importa.

Este tipo de pruebas ayuda a empresas, desarrolladores e instituciones a elegir mejor qué modelo usar, especialmente en sectores donde la precisión es clave, como la medicina, el derecho o la educación.


¿Cómo se hizo el estudio?

Los investigadores no se limitaron a preguntarle cosas simples a los modelos. Les dieron tareas más difíciles, como seguir el rastro de conceptos a lo largo de todo el texto, combinar ideas dispersas o encontrar datos escondidos. Es decir, probaron si la IA realmente entendía y no solo “recordaba” texto.

La herramienta que desarrollaron se llama RULER (en inglés: regla), y actúa como una “cinta métrica” para ver hasta dónde puede llegar de verdad cada modelo.


Conclusión

Aunque los avances en inteligencia artificial son impresionantes, no todo lo que brilla es oro. Este estudio demuestra que hay una diferencia importante entre lo que los modelos prometen y lo que realmente hacen bien cuando se enfrentan a tareas con textos muy largos.

En lugar de guiarnos solo por cifras impactantes como «un millón de tokens», es importante mirar el rendimiento real en el uso diario. La IA todavía tiene límites, y entenderlos es clave para aprovecharla mejor.

Fuente: GitHub RULER y Noticias inteligencia artificial

Lo último