Bitget App
交易「智」變
快速買幣市場交易合約理財廣場更多
Tether Data擴展QVAC Genesis II至1480億枚AI代幣

Tether Data擴展QVAC Genesis II至1480億枚AI代幣

CryptotaleCryptotale2025/12/23 08:44
顯示原文
作者:Cryptotale
  • QVAC Genesis II 將開放式 AI 訓練擴展至 1480 億個 token,涵蓋 19 個學術領域
  • 該數據集訓練模型解釋選擇並提升推理能力,而不僅僅停留於表層
  • Tether Data 公開釋出數據集,支持封閉 AI 系統之外的研究人員

Tether Data 發布了 QVAC Genesis II,將其開放式合成教育數據集擴展至 1480 億個 token,涵蓋 19 個學術領域。此次更新在 Genesis I 的基礎上新增了 1070 億個 token,使該數據集成為全球最大、公開可用的 AI 預訓練合成教育資源。

QVAC 是 Tether Data 的人工智慧研究部門,該部門表示,這個數據集旨在加強 AI 模型的推理、解釋和決策能力,而不是僅僅學習表層模式。此次發布正值許多先進訓練數據集仍受限於專有系統之內,限制了獨立研究人員和學術機構的訪問權限。

數據集規模與學術覆蓋範圍

擴展後的數據集涵蓋 19 個學術領域,並針對結構化推理任務中的教育推理深度進行設計。QVAC 表示,規模的提升有助於為需要基於解釋輸出的模型提供更一致的訓練,而不僅僅是機率性文本預測。

因此,該數據集在預訓練過程中,著重於問題與答案的清晰性與因果關係。該數據集仍對研究人員、大學及在封閉平台之外工作的獨立開發者開放。

Tether Releases QVAC Genesis II, Expanding the World’s Largest Synthetic Educational Dataset to 148 Billion Tokens

Follow @qvac_tether and read more:https://t.co/FhKgwZEKCr

— Tether (@Tether_to) December 22, 2025

QVAC 以 Creative Commons Attribution–NonCommercial 4.0 授權條款發布 Genesis II,延續了 Genesis I 的授權方式。該組織表示,這一授權支持研究用途,同時保留署名和非商業限制。數據集及相關模型可通過 Hugging Face 獲取,並附有詳細文件及訪問工具。

全新選項級推理方法

Genesis II 的核心是一種名為「選項級推理」的新數據生成方法。該方法評估多選題中的每一個答案選項,包括正確選項和常見誤解。

該方法並非將正確答案視為最終輸出,而是分析每個選項為何正確或錯誤。QVAC 表示,這一過程強化了有效推理,同時直接針對訓練數據中的錯誤假設。

這一方法是在 Genesis I 引入的失敗分析框架基礎上構建的。兩種技術結合,形成雙重方法流程,確保每個生成項目都能帶來教學價值。

根據QVAC引用的獨立評估,基於 Genesis II 數據訓練的模型在推理準確性上表現更佳,並能更一致地給出清晰答案。因此,該數據集將訓練重點從流暢性轉向結構化理解。

相關閱讀:Tether 提交收購 Juventus Football Club 的提案

開放研究與去中心化 AI 目標

QVAC 表示,此次發布符合其支持本地及去中心化 AI 發展的更廣泛努力。該計劃旨在實現模型訓練與部署,無需依賴中心化雲端平台。

通過擴展開放訓練基礎,Tether Data 希望消除小型研究團隊面臨的結構性障礙。Tether 執行長 Paolo Ardoino 表示:「當前大多數 AI 訓練優化的是流暢性,而非理解能力。」

「透過這次發布,我們正推動訓練重心從數量轉向結構、推理與清晰度,」Ardoino 補充道。他指出,開放存取讓研究人員能夠開發可解釋且可靠的 AI 系統。

技術論文《QVAC Genesis II:擴展最大且最高品質多領域教育合成數據集以用於預訓練》已發佈於 QVAC 研究部落格。QVAC 亦在其官方網站上發布了詳細的常見問題解答及相關資料。

隨著 AI 系統擴展至教育、科學及金融服務(包括金融科技應用),結構化數據集能否重塑智慧系統的學習與運作方式?

0
0

免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX: 鎖倉獲得新代幣空投
不要錯過熱門新幣,且APR 高達 10%+
立即參與
© 2025 Bitget