2026-03-17 07:47:27

Quel rapport a même fait trouver Musk incroyable ?

Moonshot AI（l'équipe Kimi）a récemment publié un rapport technique explosif : « Attention Residuals », qui améliore directement les connexions résiduelles (Residual Connections) utilisées depuis près de 10 ans dans les Transformers. Même Elon Musk n'a pas pu s'empêcher de commenter, trouvant cela incroyable (niveau d'étonnement « unbelievable »).

Le cœur du rapport en une phrase :
« Arrêtez de laisser chaque couche additionner stupidement à poids égal les informations de toutes les couches précédentes, laissez le modèle apprendre à utiliser l'attention pour choisir quels signaux des couches précoces sont vraiment utiles ! »

Dans le Transformer traditionnel (structure PreNorm), la sortie de chaque couche est :
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)

C'est simple et brutal : peu importe si les informations des 100 couches précédentes sont utiles ou non, on les ajoute toutes. Plus on va en profondeur, plus les signaux importants précoces sont dilués par les innombrables couches suivantes (ils appellent ce phénomène PreNorm dilution ou representational dilution).

L'équipe Kimi a simplement remplacé le signe « + » par une attention cross-layer légère (depth-wise attention) :

La nouvelle formule ressemble à peu près à ceci (version simplifiée) :
x_l = Attention( Q=x_l^{pre}, K=résumé de toutes les couches précédentes, V=valeurs correspondantes ) + autres

La mise en œuvre plus pratique qu'ils appellent Block AttnRes : tous les quelques étages (par exemple 8-16 couches), créer un résumé key/value, puis utiliser l'attention pour sélectionner ces résumés, plutôt que de calculer l'attention à chaque couche. De cette façon, la mémoire et la quantité de calcul augmentent très peu (latence d'inférence <2%), mais l'effet est impressionnant.

Leurs résultats expérimentaux (utilisant leur propre série Kimi Linear, 48B total / 3B active) :
• À FLOPs égaux, l'amélioration de performance équivaut à un avantage de puissance de calcul de 1,25x
• Les améliorations sont évidentes dans les tâches d'inférence sur longues séquences et de raisonnement complexe multi-étapes
• La magnitude (norme) de l'état caché est plus stable, contrairement aux résidus traditionnels qui explosent ou s'atténuent en profondeur
• La propagation du gradient est plus uniforme, les couches profondes sont plus faciles à entraîner

⚠️⚠️

Maintenant, pourquoi Musk a-t-il une si grande réaction ?

« Les connexions résiduelles se sont reposées pendant huit ans, enfin quelqu'un ose les modifier, et de manière si élégante, avec de si bons résultats?! »

Pourquoi cela mérite-t-il attention ? Parce que les connexions résiduelles sont pratiquement la seule bouée de sauvetage qui permet aux Transformers de s'entraîner à 100+ couches, voire des milliers de couches, et tout le monde pensait que c'était déjà optimal et qu'on ne pouvait pas l'améliorer. Le résultat : Kimi utilise le mécanisme d'attention le plus familier pour résoudre les problèmes du résidu lui-même, ce qui revient à porter à un nouveau niveau la phrase « l'attention est tout ce dont vous avez besoin ».

Maintenant, il y a déjà des implémentations en Rust (basées sur le framework burn), diverses visualisations explicatives qui inondent X, et certains disent que c'est, après le mHC de DeepSeek, une autre véritable innovation architecturale qui peut entrer dans la prochaine génération de grands modèles open-source/propriétaires.

Si vous travaillez sur de grands modèles ou entraînez vos propres LLM, ce rapport vaut la peine d'être lu toute la nuit en version originale + code (déjà open-source sur GitHub).

Rapport :
Préparez-vous à être impressionné 🚀

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime