Gensyn 發布用於協作強化學習的 RL Swarm 框架,計劃於 3 月啟動測試網
簡單來說 Gensyn 推出了 RL Swarm 來促進協作強化學習,並宣布將於 3 月啟動測試網,讓更多人參與開放機器智慧的發展。
機器智慧網絡, 根生 推出了 RL Swarm,這是一種去中心化的點對點系統,旨在促進互聯網上的協作強化學習。下個月,該計畫打算啟動一個測試網,讓更廣泛的參與推動開放機器智慧的發展。
RL Swarm 是一個完全開源的平台,支援強化學習模型在分散式系統之間進行集體訓練。它作為研究成果的即時演示,表明利用 RL 的模型在作為協作群體的一部分而不是孤立地進行訓練時可以提高其學習效率。
操作群體節點可以啟動新的群體或使用公共位址連接到現有群體。在每個群體中,模型作為集體參與強化學習,利用基於 Hivemind 的分散式通訊協定來促進知識共享和模型改進。透過運行提供的客戶端軟體,參與者可以加入群體,觀察共享更新,並在本地訓練模型,同時受益於集體智慧。展望未來,我們將引入更多的實驗,鼓勵更廣泛地參與推進這項技術。
歡迎個人加入 RL Swarm 親身體驗該系統。可以透過標準消費硬體和更先進的基於雲端的 GPU 資源來參與。
RL Swarm 如何運作?
根生 長期以來一直設想未來機器學習將去中心化並分佈在龐大的設備網路中。這種方法不依賴大型的集中式模型,而是將模型分解為相互連接、協同運作的較小元件。作為這一願景研究的一部分,Gensyn 探索了實現分散學習的各種途徑,並最近觀察到,當模型相互交流並提供回饋時,強化學習(RL)後訓練特別有效。
具體而言,實驗表明,當 RL 模型作為協作群體的一部分而不是獨立進行訓練時,它們的學習效率會提高。
在這種設定中,每個群體節點運行 Qwen 2.5 1.5B 模型,並透過結構化的三階段過程參與解決數學問題(GSM8K)。在第一階段,每個模型獨立地嘗試解決給定的問題,並以指定的格式產生其推理和答案。在第二階段,模型會審查同儕的反應並提供建設性的回饋。在最後階段,每個模型都會對其預測的大多數人會認為的最佳答案進行投票,然後相應地改進其回應。透過這些迭代交互,模型共同增強了其解決問題的能力。
實驗結果表明,該方法加速了學習過程,使模型能夠以更少的訓練迭代對未見的測試資料產生更準確的反應。
使用 TensorBoard 的資料視覺化說明了參與群體節點中觀察到的主要趨勢。由於在協作訓練輪次之間發生週期性的“重置”,這些圖呈現出週期性模式。所有圖中的 x 軸表示節點加入群體以來經過的時間,而 y 軸則表示不同的效能指標。從左到右,圖表分別代表:共識正確性獎勵,用於衡量模型正確格式化其回應並產生數學上準確的答案的實例;總獎勵,基於規則的評估(例如格式、數學準確性和邏輯連貫性)的加權總和;訓練損失,反映模型如何根據獎勵訊號進行調整以優化其學習過程;以及回應完成長度,它追蹤回應中使用的標記數量 - 表明當模型收到同行批評時,它們會變得更加簡潔。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
Arcium 在測試網上推出暗池演示,增強安全的鏈上交易
簡單來說 Arcium 在公共測試網路上推出了其暗池交易系統的演示版本,使用戶能夠在 Solana 區塊鏈上進行私人交易。

Curve Finance 證實智能合約未受破壞,DNS攻擊後用戶資金仍安全
簡單來說 Curve Finance 報告稱,curve[.]fi 網域在 DNS 層級遭到入侵,但此次入侵並未影響任何智慧合約或內部系統,該協議仍然完全可運作且安全。


巴黎警方追捕武裝嫌疑犯,因加密貨幣企業家的女兒和孫子遭遇綁架未遂
簡要概述 一家法國加密貨幣公司的首席執行官的兩名親屬在週二早上幾乎在巴黎街頭光天化日之下被綁架。這則新聞標誌著自今年年初以來法國已知的第五起“扳手攻擊”,其中包括高調的Ledger聯合創始人David Balland的綁架和酷刑事件。

加密貨幣價格
更多








