Gensyn veröffentlicht RL Swarm Framework für kollaboratives Reinforcement Learning und plant Testnet-Start im März

Bitget App

Trade smarter

MPOST2025/02/27 19:22

Von:MPOST

In Kürze Gensyn hat RL Swarm eingeführt, um kollaboratives bestärkendes Lernen zu erleichtern, und hat für März den Start eines Testnetzes angekündigt, um eine breitere Beteiligung an der Weiterentwicklung offener maschineller Intelligenz zu ermöglichen.

Netzwerk für maschinelle Intelligenz, Gensyn , hat RL Swarm vorgestellt, ein dezentrales Peer-to-Peer-System, das kollaboratives Reinforcement Learning über das Internet ermöglichen soll. Nächsten Monat will das Projekt ein Testnetz starten, das eine breitere Beteiligung an der Weiterentwicklung offener maschineller Intelligenz ermöglicht.

RL Swarm ist eine vollständig quelloffene Plattform, die es ermöglicht, Reinforcement-Learning-Modelle gemeinsam über verteilte Systeme hinweg zu trainieren. Sie dient als Echtzeitdemonstration von Forschungsergebnissen, die darauf hinweisen, dass Modelle, die RL nutzen, ihre Lerneffizienz verbessern können, wenn sie als Teil eines kollaborativen Schwarms und nicht isoliert trainiert werden.

Der Betrieb eines Schwarmknotens bietet die Möglichkeit, entweder einen neuen Schwarm zu initiieren oder sich über eine öffentliche Adresse mit einem bestehenden zu verbinden. Innerhalb jedes Schwarms nehmen die Modelle kollektiv am Verstärkungslernen teil und nutzen dabei ein dezentrales Kommunikationsprotokoll – basierend auf Hivemind – um den Wissensaustausch und die Modellverbesserung zu erleichtern. Durch Ausführen der bereitgestellten Client-Software können Teilnehmer einem Schwarm beitreten, gemeinsame Updates beobachten und Modelle lokal trainieren und dabei von der kollektiven Intelligenz profitieren. In Zukunft werden zusätzliche Experimente eingeführt, um ein breiteres Engagement bei der Weiterentwicklung dieser Technologie zu fördern.

Einzelpersonen sind eingeladen, RL Swarm beizutreten, um das System aus erster Hand zu erleben. Die Teilnahme ist sowohl über Standard-Consumer-Hardware als auch über fortgeschrittenere Cloud-basierte GPU-Ressourcen möglich.

Das Netzwerk für maschinelle Intelligenz

Vor zwei Jahren haben wir unsere Vision für ein Computerprotokoll für maschinelles Lernen dargelegt. Eines, das alle Geräte der Welt zu einem offenen Netzwerk für maschinelle Intelligenz verbindet, ohne Gatekeeper oder künstliche Grenzen.

Diese Woche werden wir … pic.twitter.com/W9WGJHiJPI
— gensyn (@gensynai) 26. Februar 2025

Wie funktioniert RL Swarm?

Gensyn hat sich schon lange eine Zukunft vorgestellt, in der maschinelles Lernen dezentralisiert und über ein riesiges Netzwerk von Geräten verteilt ist. Anstatt sich auf große, zentralisierte Modelle zu verlassen, würde dieser Ansatz bedeuten, Modelle in kleinere, miteinander verbundene Komponenten aufzuteilen, die zusammenarbeiten. Im Rahmen seiner Forschung zu dieser Vision hat Gensyn verschiedene Wege zum dezentralen Lernen erkundet und kürzlich festgestellt, dass bestärkendes Lernen (RL) nach dem Training besonders effektiv ist, wenn die Modelle miteinander kommunizieren und sich gegenseitig Feedback geben.

Insbesondere zeigen Experimente, dass RL-Modelle ihre Lerneffizienz verbessern, wenn sie als Teil eines kollaborativen Schwarms und nicht unabhängig trainiert werden.

In diesem Setup führt jeder Schwarmknoten das Modell Qwen 2.5 1.5B aus und versucht, mathematische Probleme (GSM8K) in einem strukturierten, dreistufigen Prozess zu lösen. In der ersten Phase versucht jedes Modell unabhängig, das gegebene Problem zu lösen, indem es seine Argumentation und Antwort in einem bestimmten Format generiert. In der zweiten Phase überprüfen die Modelle die Antworten ihrer Kollegen und geben konstruktives Feedback. In der letzten Phase stimmt jedes Modell darüber ab, was seiner Vorhersage nach die Mehrheit als die beste Antwort betrachten wird, und verfeinert dann seine Antwort entsprechend. Durch diese iterativen Interaktionen verbessern die Modelle gemeinsam ihre Problemlösungsfähigkeiten.

Versuchsergebnisse deuten darauf hin, dass diese Methode den Lernprozess beschleunigt und es Modellen ermöglicht, mit weniger Trainingsiterationen genauere Antworten auf unbekannte Testdaten zu generieren.

Datenvisualisierungen mit TensorBoard veranschaulichen wichtige Trends, die in einem teilnehmenden Schwarmknoten beobachtet werden. Diese Diagramme weisen zyklische Muster aufgrund periodischer „Resets“ auf, die zwischen Runden des kollaborativen Trainings auftreten. Die x-Achse in allen Diagrammen stellt die vergangene Zeit dar, seit der Knoten dem Schwarm beigetreten ist, während die y-Achse verschiedene Leistungsmesswerte vermittelt. Von links nach rechts zeigen die Diagramme: Consensus Correctness Reward, der Fälle misst, in denen ein Modell seine Antwort korrekt formatiert und eine mathematisch genaue Antwort produziert hat; Total Reward, eine gewichtete Summe regelbasierter Bewertungen (wie Formatierung, mathematische Genauigkeit und logische Kohärenz); Training Loss, der widerspiegelt, wie sich das Modell basierend auf Belohnungssignalen anpasst, um seinen Lernprozess zu optimieren; und Response Completion Length, die die Anzahl der in Antworten verwendeten Token verfolgt – was darauf hindeutet, dass Modelle prägnanter werden, wenn sie Kritik von Kollegen erhalten.

Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.

PoolX: Locked to Earn

APR von bis zu 10%. Mehr verdienen, indem Sie mehr Lockedn.

Jetzt Lockedn!

Das könnte Ihnen auch gefallen

Blum-Mitbegründer, Ex-Binance-Manager Vladimir Smerkis in Moskau wegen Betrugsvorwürfen festgenommen

Kurze Zusammenfassung Ein prominenter Mitbegründer der beliebten Telegram Mini App Blum, Vladimir Smerkis, wurde am Freitag in Moskau wegen des Vorwurfs des großangelegten Betrugs festgenommen, wie lokale Medien berichten. Smerkis leitete zuvor die Geschäfte von Binance in Russland und der GUS. Blum erklärte, dass Smerkis zurückgetreten sei und nicht mehr an der Entwicklung des Projekts beteiligt sei, obwohl die Verhaftung einige Nutzer hinsichtlich eines geplanten bevorstehenden Airdrops skeptisch macht.

The Block•2025/05/18 22:23

Blum-Mitbegründer, Ex-Binance-Manager Vladimir Smerkis in Moskau wegen Betrugsvorwürfen festgenommen

Bitcoin-Transaktionsgebühren erreichen 2025 Höchststände, während der BTC-Preis das jüngste Hoch von 106.000 $ herausfordert

Kurze Zusammenfassung Die durchschnittliche Transaktionsgebühr auf der Bitcoin-Blockchain ist seit Anfang Mai um etwa 1 US-Dollar gestiegen, laut Daten von The Block, und erreichte damit ihr höchstes Niveau im Jahr 2025. Der Bitcoin-Preis fiel am Sonntag leicht, nachdem er sein jüngstes Hoch von etwa 106.000 US-Dollar vom 12. Mai erreicht hatte.

The Block•2025/05/18 22:23

Bitcoin-Transaktionsgebühren erreichen 2025 Höchststände, während der BTC-Preis das jüngste Hoch von 106.000 $ herausfordert

XRP unter Druck: SEC-Vergleich gescheitert, Kurs schwankt zwischen Unsicherheit und Chancen

Zusammenfassung des Artikels Die Ablehnung des Vergleichs zwischen SEC und Ripple sorgt für anhaltende Unsicherheit rund um den XRP-Coin, beeinflusst Kurs und Investorenstimmung spürbar.

Kryptomagazin•2025/05/18 17:22

XRP unter Druck: SEC-Vergleich gescheitert, Kurs schwankt zwischen Unsicherheit und Chancen

Solana vor Ausbruch: Chartanalyse, innovative Projekte und neue Chancen für Investoren

Zusammenfassung des Artikels Solana steht vor einem möglichen Ausbruch über 200 US-Dollar, während innovative Projekte wie Solaxy und Ruvi AI das Ökosystem mit neuen Coins und Wallets stärken.

Kryptomagazin•2025/05/18 17:22