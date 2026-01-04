tfpsly

Pour ceux qui voudraient en savoir plus, une thread sur Xwitter : https://x.com/akshay_pachaar/status/2007091548312543429

Notamment une bonne explication du pourquoi les HC (Hyper-Connections) - qui ont été créées pour pouvoir avoir un grand nombre de couche de neurones (auparavant, le signal se perdait trop vite en chemin, les couches trop lointaines des entrées n’en recevaient plus rien, pas possible d’entraîner pratiquement un réseau profond) :

When deep learning took off, researchers hit a wall. You can’t just stack layers endlessly. >Signals either explode or vanish. Training deep networks was nearly impossible. ResNets solved this in 2016 with residual connections:

output = input + what the layer learned That « + » creates a direct highway for information. This is why we can now train networks with hundreds of layers.

C’est un peu mal dit, le output = input + what was learned est ResNet (comme le dit l’article de Clubic). Une Hyperconnection connecte la couche actuelle à toutes les autres couches (précédentes et suivantes), pas seulement celle immédiatement avant et celle immédiatement après.

Puis ils ont voulu avoir plusieurs HC dans un même réseau. Ce qui ne fonctionne pas bien :

Recently, researchers asked: what if we had multiple highways instead of one?

Hyper-Connections (HC) expanded that single lane into 4 parallel lanes with learnable matrices that mix information between streams.

The performance gains were real. But there was a problem:

Those mixing matrices compound across layers. A tiny 5% amplification per layer becomes 18x after 60 layers. The paper measured amplification reaching 3000x. Training collapses.

The usual fixes? Gradient clipping. Careful initialization. Hoping things work out.

These are hacks. And hacks don’t scale.

La solution apportée par DeekSeek :

The answer was sitting in a 1967 paper: the Sinkhorn-Knopp algorithm

The results: 3000x instability reduced to 1.6x

Stability guaranteed by math, not luck

Only 6.7% additional training overhead No hacks. Just math.

Wiki :

A simple iterative method to approach the double stochastic matrix is to alternately rescale all rows and all columns of A to sum to 1. Sinkhorn and Knopp presented this algorithm and analyzed its convergence.[3] This is essentially the same as the Iterative proportional fitting algorithm, well known in survey statistics.

Le papier de DeepSeek :

https://www.alphaxiv.org/abs/2512.24880

Usage ? Pas les LLMs, plutôt tout ce qui est lié au computer vision : classification, détection, peut-être génération.