Oui, c’est vrai dans ce cas particulier. Dans le cas des 40xx vs les 30xx, ça ne s’applique pas vraiment : il n’y a pas de nouveau type d’unité de traitement spécialisée.

Oui, mais encore une fois, tu ne peux pas traduire ça en gain d’efficacité… Ce n’est pas parce que tu met 2.8x plus de transistors dans la même surface que tu multiplies forcément l’efficacité par 2.8… La consommation ne dépend pas que de la surface d’une puce indépendamment de la finesse de gravure et les performances ne sont pas strictement proportionnelles au nombre de transistors. Et tous les transistors d’une même puce n’ont pas la même contribution à la consommation et à la performance totales.

Et d’ailleurs, la densité elle même, elle ne dépend pas que du processus de gravure. Elle dépend AUSSI de l’architecture… Car toutes les parties d’un circuit ne peuvent pas atteindre la même densité.

Quelques exemples, sur le CPU Poulson d’Intel, gravé en 32nm :

On a donc, sur un même die, et donc forcément le même processus de gravure, une densité qui varie d’un facteur 20 entre différents blocs (et en découpant en blocs plus petits, on constaterait probablement des variations de densité encore plus grande).

Et du coup, forcement, avec le même processus, une puce avec une plus grande quantité de cache va avoir une densité plus élevée, alors qu’à l’inverse une puce avec plus d’I/O (par exemple, une version prévue pour fonctionner en quad CPU vs une version mono CPU) va avoir une densité plus faible.

Ça n’a absolument aucun sens de faire ce type de comparaison. Parce que les transistors n’ont pas tous le même apport de performances (ni le même impact sur la consommation) selon l’endroit où ils sont utilisés…

Typiquement, cette nouvelle architecture a, comme je l’ai expliqué plus haut, beaucoup plus de cache que l’ancienne. Le cache, ça consomme beaucoup de transistors, tout en apportant relativement peu en performances. Mais c’est pas pour autant qu’une architecture avec plus de cache est plus mal optimisée…

ll est possible également que des transistors supplémentaires aient été rendus nécessaire pour faciliter la montée en fréquence : il n’y a pas que la finesse de gravure qui joue sur la capacité à monter en fréquence, l’architecture joue beaucoup également (exemple chez Intel, les derniers Pentium D montaient beaucoup plus haut en fréquence que les premiers Core 2 Duo, malgré l’utilisation du même processus de gravure : 3.7 GHz pour les Pentium D, 2.67 GHz pour les Core 2 Duo).

Si pour faire une puce de ~28 GT nVidia fait simplement une réduction proportionnelle de toutes les unités, elle aura le même ratio performances/T qu’une 4090 et sera sans doute moins performantes qu’une 3090, mais en ayant moins de transistors « de calcul » qu’une 3090…

Si à l’inverse nVidia fait quelque chose de non proportionnel, en taillant plus fortement dans le cache par exemple, les peformances/T seront sans doute meilleures que sur la 4090. C’est pas pour autant qu’on pourra considérer cette variante comme disposant d’une architecture « mieux optimisée ». L’architecture étant strictement la même… Comme entre un 5800X et un 5800X3D : l’architecture est la même, mais le second offre deux fois moins de performances/T… Tout en atteignant des performances que le 5800X n’est pas capable d’atteindre…

Utiliser des indicateurs comme les perfs/T pour juger de l’efficacité d’une architecture a d’autant moins de sens que dans le domaine des puces, comme dans le sport, plus les performances sont élevées, plus les gains sont difficiles à obtenir… À part en parallélisant bêtement, ce qui ne marche que avec des workloads qui se parallélisent bien, doubler le nombre de transistors ne va jamais doubler les performances, tout comme un sportif qui passe de 8 à 16h d’entrainement par semaine ne va pas doubler ses performances…