EleutherAI publica el mayor conjunto de texto con licencia para entrenar modelos de IA
EleutherAI presentó Common Pile v0.1, un dataset de 8 TB creado junto a startups y universidades, con el que busca demostrar que los modelos pueden alcanzar alto rendimiento sin usar datos con derechos de autor.
EleutherAI, organización de investigación en inteligencia artificial, lanzó Common Pile v0.1, una colección de texto abierta y con licencia destinada al entrenamiento de modelos de lenguaje. El conjunto, que tardó dos años en completarse, fue desarrollado en colaboración con Poolside, Hugging Face y diversas instituciones académicas, incluido el University of Toronto.
El anuncio llega en un momento en que la industria enfrenta múltiples demandas por el uso de material con derechos de autor para entrenar modelos de IA. Empresas como OpenAI, Anthropic o Google han sido señaladas por recurrir a textos y obras protegidas obtenidas del web scraping, práctica que ha puesto en debate los límites del “uso justo” (fair use) en la era de los grandes modelos de lenguaje (LLM).
This dataset was previewed at the Datasets Convening we co-hosted with @mozilla to consult with leading experts in open datasets.
— EleutherAI (@AiEleuther) June 6, 2025
Read more about the event: https://t.co/LtgS7yE32T
And the paper distilling the best practices participants identified: https://t.co/qPApKjJrgo
El Common Pile v0.1, disponible públicamente en Hugging Face y GitHub, fue elaborado bajo asesoría legal y reúne fuentes verificadas y de libre uso, como 300.000 libros de dominio público digitalizados por la Library of Congress y el Internet Archive. También incluye transcripciones obtenidas con Whisper, el modelo de reconocimiento de voz de OpenAI.
EleutherAI utilizó este corpus para entrenar dos nuevos modelos: Comma v0.1-1T y Comma v0.1-2T, ambos con 7 mil millones de parámetros. Según la organización, estas versiones alcanzan resultados comparables con modelos como el Llama original de Meta en tareas de programación, matemáticas y comprensión de imágenes.
En una publicación en el blog de Hugging Face, Stella Biderman, directora ejecutiva de EleutherAI, señaló que las demandas por copyright han reducido drásticamente la transparencia de las empresas de IA, afectando la investigación abierta:
“Las demandas no han cambiado significativamente las prácticas de obtención de datos, pero sí han disminuido la transparencia con que las compañías publican su trabajo”, escribió Biderman.
El proyecto busca probar que es posible entrenar modelos competitivos sin recurrir a material no autorizado. EleutherAI sostiene que el rendimiento no depende de usar texto sin licencia, sino de la calidad y diversidad de los datos abiertos disponibles.
A medida que la comunidad científica y las empresas presionan por marcos legales más claros sobre el uso de datos, Common Pile v0.1 representa un intento de ofrecer una alternativa viable y ética al entrenamiento opaco de los grandes modelos comerciales.
Perspectiva
El enfoque de EleutherAI se alinea con una tendencia creciente: reconstruir la infraestructura de datos de la IA sobre bases éticas y transparentes. En un momento en que la creación de modelos se enfrenta al dilema entre innovación y propiedad intelectual, Common Pile v0.1 demuestra que el conocimiento compartido sigue siendo un motor potente para la evolución tecnológica.
Más allá de su dimensión técnica, este proyecto simboliza una vuelta a los principios fundacionales de la investigación abierta: cooperación, legalidad y acceso público. Si prospera, podría marcar un precedente en cómo se construyen los futuros modelos de lenguaje, reduciendo la dependencia de fuentes opacas y reforzando la confianza en la IA abierta y verificable.