DeepSeek veröffentlicht neues Paper von Liang Wenfeng: Vorstellung der neuen mHC-Architektur zur Verbesserung der Trainingsstabilität großer Modelle
PANews, 1. Januar – Laut einem Bericht von Golden Ten Data hat DeepSeek ein neues Paper veröffentlicht, in dem eine neue Architektur namens Manifold-Constrained Hyperconnection (mHC) vorgestellt wird. Diese zielt darauf ab, Probleme der Hyperconnection-Netzwerk (HC)-Technologie zu lösen, wie etwa Trainingsinstabilität und eingeschränkte Skalierbarkeit, die durch die Beeinträchtigung der Identitätsabbildungseigenschaft verursacht werden. Die Architektur stellt die Identitätsabbildungseigenschaft wieder her, indem sie den Residualverbindungsraum von HC auf eine bestimmte Mannigfaltigkeit abbildet und gleichzeitig strenge Infrastruktur-Optimierungen kombiniert, um Effizienz zu gewährleisten. Dadurch werden signifikante Leistungsverbesserungen und eine überlegene Skalierbarkeit erreicht. DeepSeek erwartet, dass mHC als flexible und praktische Erweiterung von HC dazu beitragen wird, das Verständnis für das Design topologischer Architekturen zu vertiefen und vielversprechende Richtungen für die Weiterentwicklung von Basismodellen aufzuzeigen. Das Paper wurde gemeinsam von Zhenda Xie, Yixuan Wei und Huanqi Cao als Erstautoren verfasst, auch Wenfeng Liang ist unter den Autoren.
Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.
