Coral Protocol 憑藉其 AI 微型模型的頂級 GAIA 基準測試,超越微軟 34%
簡單來說 Coral Protocol 的多代理系統在 GAIA 基準測試中比微軟支援的 Magnetic-UI 高出 34%,表明小型模型的智慧編排可以與傳統的大規模 AI 方法相媲美或超越。
協作人工智慧的分散基礎設施, 珊瑚協議 報告稱,其多智能體系統在 GAIA 基準測試中的表現比微軟支持的 Magnetic-UI 高出 34%——這一前所未有的結果表明,水平擴展可能比擴展模型參數更有效。該協定的系統利用跨多個智能體的智慧編排,而非僅專注於增加模型大小。
這一表現標誌著使用微型代理的 GAIA 基準測試中的最高驗證分數,支持 NVIDIA 的前提是,協調良好的小型模型可能在未來的人工智慧中發揮關鍵作用。 Coral 的開發人員表示,這項結果反映了人工智慧可擴展性概念的轉變,而非單純的系統效能提升。
Coral 作為一種開放協議,透過支援全球專業代理之間的協調,而非依賴中心化的通用模型,從而促進 AI 能力的擴展。其架構允許代理之間進行並行、安全的交互,從而增強各種規模的語言模型在需要高級推理、規劃和解決問題的任務中的功能。
Coral 技術長 Caelum Forder 在書面聲明中表示:「這項突破標誌著人工智慧基礎設施的轉折點。」他補充說:「這證明橫向擴展不僅可行,而且切實可行,而 Coral 是實現這一目標的最有效途徑。代理互聯網 (Internet of Agents) 現已成為現實。如果您是代理開發者,只需將其應用程式設計者,只需將其應用程式設計者
Coral 榮登 GAIA 基準測試榜首,驗證了小型機型在高階代理系統中的強大功能
在開發高階代理系統日益激烈的競爭中,人們的注意力主要集中在擴展模型以應對日益增長的任務複雜性。 Coral 近期的表現挑戰了這種主流方法,這與 NVIDIA 最近的一項研究結果相符,該研究表明,小型系統可以在不影響速度、安全性或效率的情況下提供高效能。 GAIA 基準測試是一套針對高階人工智慧的綜合評估套件,旨在評估系統處理現實世界任務的能力,這些任務通常需要人類專家投入大量的時間和技能。此基準測試包含 450 個複雜的問題,用於測試研究、分析和推理能力,是評估通用大型語言模型 (LLM) 代理有效性的關鍵行業指標。
基準測試中使用的 Coral GAIA 代理系統是基於 Coral 協議,並藉鑒了 CAMEL OWL 的設計原則。它整合了專門的代理來執行一系列任務,包括研究、分析、評論、規劃和網路導航,所有這些任務都透過 Coral 的 MCP 伺服器基礎設施進行通訊。
Coral 在 GAIA 基準測試小型模型排名中名列前茅,顯示其具備透過基於圖的結構擴展 AI 系統功能的潛力。這一結果也表明,可以使用較小的模型創建高性能、輕量級的代理,從而促進更廣泛的數據處理、更順暢的生態系統整合以及增強的代理間通訊。
Caelum Forder 表示:“小型模型在代理系統中的作用迄今為止一直被低估,但形勢正在開始好轉。我們已經證明,這類模型可以超越其先前已知的極限,並超越現有模型。我相信,它們將在代理人工智能的未來中發揮核心作用。”
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
GHO HodlerYield 活動規則
Bitget 發布 2025 年 7 月保護基金估值報告
Bitget 現貨槓桿新增 TOWNS/USDT!
【首發上架】GHO(GHO)將於 Bitget 創新區上架
加密貨幣價格
更多








