Alibaba lance un modèle d'intelligence artificielle Qwen3-Next plus performant
Selon un rapport de Jinse Finance, Tongyi Qianwen, filiale d'Alibaba, a publié la nouvelle architecture de modèle de base Qwen3-Next et a open-sourcé la série de modèles Qwen3-Next-80B-A3B basée sur cette architecture. Par rapport à la structure MoE du Qwen3, cette nouvelle architecture apporte les améliorations clés suivantes : un mécanisme d'attention hybride, une structure MoE à haute sparsité, une série d'optimisations favorisant la stabilité de l'entraînement, ainsi qu'un mécanisme de prédiction multi-token améliorant l'efficacité de l'inférence. Basé sur la structure du modèle Qwen3-Next, Alibaba a entraîné le modèle Qwen3-Next-80B-A3B-Base, qui possède 80 milliards de paramètres tout en n'activant que 3 milliards de paramètres. Ce modèle de base atteint des performances similaires, voire légèrement supérieures, à celles du modèle dense Qwen3-32B, tout en nécessitant moins d'un dixième du coût d'entraînement (en heures GPU) du Qwen3-32B. De plus, pour des contextes supérieurs à 32k, le débit d'inférence est plus de dix fois supérieur à celui du Qwen3-32B, réalisant ainsi un rapport coût-efficacité optimal pour l'entraînement et l'inférence.
Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.
Vous pourriez également aimer
Une adresse ETH 1CO transfère près de 120 millions de dollars d’ETH vers un nouveau portefeuille après 10 ans
