La Wikipedia se adapta a la era de la inteligencia artificial: publica su contenido estructurado en Kaggle para frenar el colapso por bots

La Fundación Wikimedia ha dado un paso significativo para proteger la sostenibilidad técnica de Wikipedia frente al creciente asedio de bots de inteligencia artificial. A partir de este mes, gran parte de su contenido estará disponible en Kaggle en un nuevo dataset estructurado, con el objetivo de evitar el colapso de su infraestructura ante el tráfico masivo e indiscriminado de robots automatizados que descargan su información a gran escala.

Desde enero, el tráfico hacia Wikipedia ha aumentado un 50 %, un incremento que no se debe al interés humano, sino a los bots que “escrapean” artículos completos para alimentar y entrenar modelos de lenguaje como los utilizados por ChatGPT, Claude o Gemini. Si bien la enciclopedia más grande del mundo mantiene su política de acceso libre al conocimiento, sus responsables advierten que este aumento en las solicitudes está comprometiendo gravemente la estabilidad de sus servidores.

“El contenido es gratis, pero la infraestructura no”

Así lo resume la propia fundación en su blog, donde explica que si bien la información publicada en Wikipedia es de acceso libre y gratuito, mantener la infraestructura que la soporta tiene un alto coste. Su modelo de funcionamiento, basado en donaciones y sin publicidad, depende de un delicado equilibrio que los bots están amenazando.

A diferencia de los usuarios humanos, que suelen acceder a contenidos populares o de actualidad —como biografías de personajes relevantes en momentos clave—, los bots descargan sin discriminación todos los artículos, incluso aquellos que rara vez se consultan. Esto fuerza una carga constante sobre los servidores centrales, pues buena parte de esos datos no se encuentra en las cachés locales de los centros de datos distribuidos, que normalmente optimizan las consultas más frecuentes.

El resultado es preocupante: el 65 % del tráfico de archivos pesados como vídeos proviene de bots, y esa demanda ya está afectando la velocidad de navegación de los usuarios humanos. Según la fundación, “no podemos permitirnos invertir en cientos de servidores nuevos solo para alimentar a robots que ni siquiera aportan una donación”.

La solución: un dataset estructurado en Kaggle

Lejos de intentar prohibir o limitar el acceso de las IA —algo que iría en contra del espíritu abierto de Wikipedia—, la Fundación Wikimedia ha optado por una solución más pragmática: ofrecer un dataset oficial en Kaggle, especialmente pensado para ser utilizado por desarrolladores e investigadores de inteligencia artificial.

Este conjunto de datos, lanzado en versión beta el 15 de abril de 2025, incluye contenido de Wikipedia en inglés y francés ya preprocesado y estructurado en formato JSON. Contiene resúmenes, descripciones breves, datos tipo infobox, enlaces a imágenes y secciones claramente segmentadas. Es decir, todo lo necesario para entrenar modelos de lenguaje, realizar análisis exploratorios o diseñar pipelines de procesamiento de texto, sin tener que saturar los servidores de Wikipedia.

Todo el contenido está disponible bajo licencias libres (CC-BY-SA 4.0 y GFDL), y la comunidad de Kaggle podrá interactuar, comentar y proponer mejoras directamente en la plataforma.

“Kaggle es uno de los lugares de referencia para encontrar datos abiertos, y pocos conjuntos tienen tanto impacto como los de la Fundación Wikimedia”, afirma Brenda Flynn, responsable de alianzas en Kaggle.

Un punto de inflexión en la relación entre IA y conocimiento libre

Este movimiento marca un antes y un después en la relación entre la inteligencia artificial y las fuentes de conocimiento abierto. Wikipedia, uno de los pilares de la cultura digital y de la web libre, ha demostrado que se puede encontrar un punto medio entre mantener el acceso abierto y proteger la viabilidad técnica de sus operaciones.

Lejos de enfrentarse a la IA, la enciclopedia colaborativa por excelencia opta por integrarla en su ecosistema de forma responsable, canalizando su uso mediante herramientas adaptadas, como Kaggle, que permiten una interacción ordenada, legal y sostenible.

Al mismo tiempo, esta estrategia pone de manifiesto un fenómeno preocupante: el apetito de las inteligencias artificiales por el contenido de calidad está provocando impactos tangibles en proyectos sin ánimo de lucro. Wikipedia ha dado una solución ejemplar, pero otras plataformas podrían no tener los recursos o la flexibilidad para hacer lo mismo.

Acceso al dataset

El conjunto de datos de Wikipedia en Kaggle está disponible públicamente aquí:
➡️ Wikipedia Structured Content Dataset en Kaggle

Lo último