- QVAC Genesis II amplía el entrenamiento abierto de IA a 148 mil millones de tokens en 19 campos académicos.
- El conjunto de datos entrena modelos para explicar elecciones y mejorar el razonamiento más allá de la superficie .
- Tether Data publica el conjunto de datos abiertamente para apoyar a investigadores fuera de sistemas de IA cerrados.
Tether Data ha lanzado QVAC Genesis II, ampliando su conjunto de datos educativos sintéticos abiertos para inteligencia artificial a 148 mil millones de tokens en 19 dominios académicos. La actualización suma 107 mil millones de tokens a la versión anterior Genesis I y posiciona este conjunto de datos como el recurso educativo sintético de acceso público más grande del mundo para el pre-entrenamiento de IA.
QVAC, la división de investigación en inteligencia artificial de Tether Data, afirmó que el objetivo del conjunto de datos es fortalecer el razonamiento, la explicación y la toma de decisiones en los modelos de IA, en lugar de limitarse al aprendizaje superficial de patrones. El lanzamiento llega en un contexto donde muchos conjuntos de datos avanzados de entrenamiento permanecen restringidos dentro de sistemas propietarios, lo que limita el acceso para investigadores independientes e instituciones académicas.
Escala del Conjunto de Datos y Cobertura Académica
El conjunto de datos ampliado abarca 19 dominios académicos y apunta a la profundidad en el razonamiento educativo a través de tareas de razonamiento estructurado. QVAC indicó que el aumento de escala respalda un entrenamiento más consistente para modelos que requieren salidas basadas en explicaciones en lugar de solo predicción probabilística de texto.
Como resultado, el conjunto de datos se enfoca en la claridad y causalidad en las preguntas y respuestas utilizadas durante el pre-entrenamiento. El conjunto de datos sigue estando disponible abiertamente para investigadores, universidades y desarrolladores independientes que trabajan fuera de plataformas cerradas.
QVAC publicó Genesis II bajo una licencia Creative Commons Attribution–NonCommercial 4.0, continuando el enfoque de licenciamiento utilizado para Genesis I. La organización señaló que la licencia respalda el uso para investigación mientras preserva la atribución y los límites de uso no comercial. El conjunto de datos y los modelos relacionados están disponibles a través de Hugging Face, junto con documentación detallada y herramientas de acceso.
Nueva Metodología de Razonamiento a Nivel de Opción
En el centro de Genesis II se encuentra un nuevo método de generación de datos llamado Razonamiento a Nivel de Opción. El método evalúa cada opción de respuesta en una pregunta de opción múltiple, incluyendo las opciones correctas y los conceptos erróneos comunes.
En lugar de tratar las respuestas correctas como resultados finales, el enfoque examina por qué cada opción tiene éxito o falla. QVAC indicó que este proceso refuerza el razonamiento válido mientras aborda directamente las suposiciones incorrectas dentro de los datos de entrenamiento.
El método se basa en el marco de análisis de fallos introducido en Genesis I. Juntas, ambas técnicas forman una canalización de doble método que garantiza que cada elemento generado aporte valor instructivo.
Evaluaciones independientes citadas por QVAC muestran que los modelos entrenados con datos de Genesis II logran mayor precisión en el razonamiento y entregan respuestas más claras de manera consistente. Como resultado, el conjunto de datos orienta el entrenamiento hacia una comprensión estructurada en lugar de solo la fluidez.
Relacionado: Tether presenta propuesta para adquirir Juventus Football Club
Investigación Abierta y Objetivos de IA Descentralizada
QVAC señaló que el lanzamiento está alineado con su esfuerzo más amplio para apoyar el desarrollo local y descentralizado de IA. La iniciativa busca habilitar el entrenamiento y despliegue de modelos sin depender de plataformas centralizadas en la nube.
Al expandir las bases de entrenamiento abiertas, Tether Data apunta a eliminar las barreras estructurales que enfrentan los grupos de investigación más pequeños. “La mayoría del entrenamiento de IA hoy optimiza la fluidez, no la comprensión”, dijo Paolo Ardoino, CEO de Tether.
“Con este lanzamiento, estamos yendo más allá del volumen hacia la estructura, el razonamiento y la claridad”, afirmó Ardoino. Agregó que el acceso abierto brinda a los investigadores herramientas para desarrollar sistemas de IA que sigan siendo explicables y confiables.
El artículo técnico, titulado QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training, está disponible en el blog de investigación de QVAC. QVAC también publicó una FAQ detallada y material de apoyo en su sitio web oficial.
A medida que los sistemas de IA se expanden en la educación, la ciencia y los servicios financieros, incluidas las aplicaciones fintech, ¿pueden los conjuntos de datos estructurados transformar la forma en que los sistemas inteligentes aprenden y operan?


