- QVAC Genesis IIは、19の学術分野にわたり1480億トークンにオープンAIトレーニングを拡大。
- このデータセットは、選択肢の説明や表面的な学習を超えた推論力の向上を目的としてモデルをトレーニング。
- Tether Dataは、クローズドAIシステム外の研究者を支援するためにデータセットをオープンに公開。
Tether Dataは、人工知能向けのオープンな合成教育データセット「QVAC Genesis II」をリリースし、19の学術分野にわたり1480億トークンへと拡大しました。このアップデートにより、従来のGenesis Iリリースに1070億トークンが追加され、AI事前学習用として世界最大規模の公開合成教育リソースとなりました。
QVAC(Tether DataのAI研究部門)は、このデータセットがAIモデルにおいて表面的なパターン学習ではなく、推論・説明・意思決定能力の強化を目指していると述べています。リリースは、多くの高度なトレーニングデータセットがプロプライエタリシステム内に制限され、独立系研究者や学術機関のアクセスが制限されている状況下で発表されました。
データセットの規模と学術的カバレッジ
拡張されたデータセットは19の学術分野にまたがり、構造化された推論タスクにおける教育的推論の深さを重視しています。QVACによれば、この規模の拡大により、確率的なテキスト予測だけでなく、説明に基づく出力を必要とするモデルの一貫したトレーニングが可能になります。
その結果、データセットは事前学習中に使用される質問と回答において、明確さと因果関係に重点を置いています。データセットは、クローズドプラットフォーム外で活動する研究者、大学、独立系開発者にも引き続きオープンに提供されています。
QVACはGenesis IIをCreative Commons Attribution–NonCommercial 4.0ライセンスの下でリリースし、Genesis Iで採用されたライセンス方針を継続しています。組織は、このライセンスが帰属と非商用の制限を維持しつつ、研究利用をサポートすると述べています。データセットおよび関連モデルは、Hugging Faceを通じて詳細なドキュメントやアクセスツールとともに提供されています。
新しい選択肢レベル推論手法
Genesis IIの中心には、「選択肢レベル推論」と呼ばれる新しいデータ生成手法があります。この手法は、複数選択式問題のすべての選択肢(正解と一般的な誤解を含む)を評価します。
正解を最終出力として扱うのではなく、各選択肢がなぜ成功または失敗するのかを検証します。QVACによれば、このプロセスは有効な推論を強化し、トレーニングデータ内の誤った仮定にも直接対応します。
この手法は、Genesis Iで導入された失敗分析フレームワークを基盤としています。両手法を組み合わせることで、生成される各アイテムが教育的価値を持つようにする二重手法パイプラインを形成しています。
QVACが引用した独立評価によると、Genesis IIデータでトレーニングされたモデルは、より高い推論精度を達成し、より一貫して明確な回答を提供できるとのことです。その結果、データセットは流暢さだけでなく、構造化された理解にトレーニングの焦点を移しています。
関連:TetherがJuventus Football Clubの買収提案を提出
オープンリサーチと分散型AIの目標
QVACは、このリリースがローカルおよび分散型AI開発を支援するというより広範な取り組みと一致していると述べています。このイニシアチブは、中央集権型クラウドプラットフォームに依存せずにモデルのトレーニングと展開を可能にすることを目指しています。
オープンなトレーニング基盤を拡大することで、Tether Dataは小規模な研究グループが直面する構造的障壁の排除を目指しています。「現在のAIトレーニングのほとんどは流暢さの最適化であり、理解ではありません」とTetherのCEO、Paolo Ardoinoは述べています。
「今回のリリースで、私たちはボリュームを超え、構造・推論・明確さに踏み込んでいます」とArdoino氏は語ります。オープンアクセスにより、研究者が説明可能で信頼性の高いAIシステムを開発するためのツールを得られるとも付け加えました。
「QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training」と題された技術論文は、QVACのリサーチブログで公開されています。QVACはまた、公式ウェブサイトで詳細なFAQやサポート資料も公開しています。
AIシステムが教育、科学、金融サービス(フィンテックアプリケーションを含む)へと拡大する中、構造化データセットは知能システムの学習と運用方法を再構築できるのでしょうか?


