llms.txt: Una propuesta para facilitar el acceso de modelos de lenguaje a contenido web

La propuesta de Jeremy Howard para introducir el archivo estándar /llms.txt busca revolucionar la interacción de los modelos de lenguaje con sitios web, facilitando el acceso a información relevante de manera estructurada y eficiente.

Con el auge de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), como GPT o Claude, se ha generado una creciente necesidad de adaptar los sitios web para que estas herramientas puedan acceder rápidamente a contenido clave. El archivo /llms.txt está diseñado para cumplir este objetivo al proporcionar un formato estandarizado que permita a los LLMs interpretar y utilizar información relevante de forma precisa y concisa.

¿Qué es llms.txt?

El archivo /llms.txt es un documento en formato Markdown que recopila información clave sobre un sitio web o proyecto, estructurándola para que sea legible tanto por humanos como por LLMs. Este archivo incluye enlaces a otros documentos Markdown, que contienen explicaciones detalladas o guías útiles para tareas específicas.

La propuesta busca abordar problemas comunes al utilizar sitios web como fuentes de información para LLMs:

  • Complejidad del HTML: Navegar entre menús, anuncios y otros elementos dificulta la extracción de información relevante.
  • Ventanas de contexto limitadas: Los LLMs tienen restricciones en la cantidad de datos que pueden procesar simultáneamente, lo que exige resúmenes concisos.
  • Estructura inconsistente: Los sitios suelen carecer de un formato estandarizado para LLMs.

Formato y Estructura

El archivo /llms.txt sigue un formato específico para garantizar la consistencia:

  1. Título (H1): El nombre del proyecto o sitio web.
  2. Resumen en bloque de cita: Breve descripción del proyecto.
  3. Secciones opcionales: Información detallada sobre el proyecto.
  4. Listas de archivos: Enlaces a recursos relevantes en formato Markdown, organizados bajo encabezados H2.
  5. Sección “Opcional” (si se incluye): Enlaces secundarios que pueden omitirse en contextos más breves.

Ejemplo de Formato

markdownCopiar código# MiProyecto

> MiProyecto es una biblioteca para crear aplicaciones web rápidas con Python.

Notas importantes:
- Compatible con bibliotecas JS nativas.
- No compatible con React, Vue o Svelte.

## Documentación

- [Guía rápida](https://miproyecto.com/guia-rapida.md): Introducción a las principales funcionalidades.
- [Referencia de API](https://miproyecto.com/api.md): Descripción detallada de métodos y parámetros.

## Ejemplos

- [Aplicación CRUD](https://github.com/miproyecto/crud-ejemplo.md): Guía paso a paso para implementar un sistema CRUD.

## Opcional

- [Documentación avanzada](https://github.com/miproyecto/avanzada.md): Recursos adicionales para desarrolladores avanzados.

Casos de Uso

El archivo /llms.txt tiene aplicaciones en una amplia gama de sectores:

  • Bibliotecas de software: Proporciona una visión general estructurada de la documentación, facilitando a los desarrolladores encontrar ejemplos de uso o características específicas.
  • Empresas: Resume la estructura organizativa, políticas o productos clave.
  • E-commerce: Destaca categorías de productos y políticas de devolución.
  • Educación: Enumera cursos y recursos disponibles en instituciones educativas.
  • Sitios personales: Ayuda a responder preguntas sobre individuos, como portfolios o CVs.

Beneficios del llms.txt

  1. Acceso Rápido y Eficiente: Los LLMs pueden identificar rápidamente información relevante.
  2. Compatibilidad Estándar: El uso de Markdown asegura legibilidad y fácil procesamiento con herramientas comunes.
  3. Flexibilidad: Puede adaptarse a diversos dominios, desde bibliotecas de software hasta sitios corporativos.
  4. Colaboración con Estándares Existentes: Complementa archivos como robots.txt y sitemap.xml, enfocándose en contenido útil para inferencias.

Implementación y Siguientes Pasos

Para adoptar esta propuesta, se recomienda:

  1. Crear el archivo /llms.txt: Usar un lenguaje claro y conciso, evitar jerga innecesaria y estructurar el contenido siguiendo la especificación.
  2. Probar con LLMs: Evaluar cómo los modelos responden a preguntas basadas en el contenido.
  3. Participar en la Comunidad: Contribuir con comentarios y mejoras en el repositorio GitHub dedicado.

Conclusión
La implementación de /llms.txt podría cambiar la forma en que los LLMs interactúan con los sitios web, optimizando el acceso a información relevante y mejorando la experiencia tanto para usuarios como para desarrolladores. La propuesta está abierta a la comunidad para retroalimentación y perfeccionamiento, marcando un paso hacia un futuro más conectado entre humanos y máquinas.

Scroll al inicio