20 TFLOPS FP16 / 10 TFLOPS FP32

30 TFLOPS FP16 / 30 TFLOPS FP32 ?

Tous les cœurs dans chaque partition SM traitent la même instruction à tout moment, mais puisque les unités INT/FP peuvent fonctionner indépendamment, l’architecture Ampere peut gérer jusqu'à 128 calculs en FP32 par cycle, ou bien 64 opérations en FP32 et 64 en INT32 simultanément. Dans l’architecture Turing (RTX 2X), seule la seconde option était possible.

Ainsi, le nouveau GPU a potentiellement le double de la capacité de calcul en FP32 par rapport à son prédécesseur. Pour les charges de travail de calcul, notamment dans les applications professionnelles, c’est un grand pas en avant ; mais pour les jeux, les bénéfices seront bien plus limités.



120 FP16 / 60 FP32

En effet, les WGP sont toujours présents et combinent toujours bien 2 CU dual-issue soit 4 SIMD32 dual-issue, au passage chacune gonflée d’un accélérateur d’IA. Cependant, le doublement du débit FP32 de ces CU n’est, en fait, pas valable pour toutes les opérations : si les FMA (fused multiply-add) ont bien droit à deux unités au sein des nouveaux CU, tel n’est pas le cas des instructions faisant usage de l’accélérateur d’IA (dont toutes celles faisant partie de l’extension DP4a), des Rapid Packed Math (opérations vectorielles en FP16 à quadruple vitesse) ni les opérations de calcul entier 15/24/32 bits.

Comme avant chaque sortie de console, c’est toujours le combat des TFLOPS et le concours de ki(ki) à la plus grosse ?La sortie de la PS5 Pro réveille les passions chez certains qui défendent cœurs et âmes leur paroisse.La PS5 Pro, c’est d’abord une fréquence GPU un poil décevante (2.18 GHz), ce qui impact les TFLOPS (16.7). Ca semble peu sur le papier malgré les attentes.Mais aussi on parle de dual-issue (elle serait en réalité à 33 TFLOPS, qui croire ?). J’ai même vu quelqu’un dire que Nvidia “trichait” avec le dual-issue aussi et qu’il fallait diviser les TFLOPS par 2non non non.... il n'y a pas de dual-issue chez Nvidia.Alors oui, depuis la génération Ampere (RTX 3X), Nvidia “triche” à sa manière sur les TFLOPS, mais ça n’a rien à voir avec la solution d’AMD.Aviez vous remarqué qu'une RTX 2080 c'est :Alors qu'une RTX 3080 c'est :Etonnant cette parité FP16 FP32 non? Mais alors pourquoi la 3080 à 3x de TFLOPS qu'une 2080 en FP32 mais 'seulement' 50% en FP16?Cette différence d'architecture vous trouverez des explications par exemple ici :et notamment sur cette image :Au delà de l'intérêt purement technique de pouvoir doubler les calculs flottant en simple précision (FP32), elle permet aussi au marketing d'avancer des chiffres plus flatteurs.Bien que réels, ils sont un peu trompeurs car le nombre de Cuda Cores n'a pas doublé, simplement l'unité INT32 est devenue plus polyvalente et peut faire du FP32.D'abord on peut dire qu'AMD n'a pas adopté cette stratégie d'uniformisation des unités de calcul :Le GPU flagship 7900XTX c'est :On est bien sur du 2:1 FP16 vs FP32 contrairement a Nvidia qui est sur du 1:1 comme montré au dessus.Alors le dual-issue dans tout ça?Il permet de réaliser 2 instructions au lieu d'une sur un jeu limité d'instruction lors du même cycle.Ce qui permet de doubler les TFLOPS sur ce type d'instruction uniquement.Comme on peut le voir ici :Donc l'un (Nvidia) uniformise ses unités de calcul pour plus de flexibilité et pour jusqu'a doubler le FP32, l'autre (AMD) double la capacité de calcul de certaines instructions.Chacune à ses pros and cons.En tout cas le service marketing des 2 ne se gênent pas pour gonfler la réalité.C'est une donnée de plus en plus difficile à exploiter car elle est devenue très marketing (y'a qua voir le ras de marré à l'annonce des TFLOPS de la PS5 Pro), et c'est une donnée parmi d'autres (la quantité de VRAM, la bande passante sont extremement determinantes pour les résolutions elevées par exemple).En parallèle, il y a le ray tracing, il y a l'interpolation d'image intermédiaire (frame generation), ou la reconstruction d'image avec ou sans IA (checkboard rendering, DLSS, FSR, PSSR, XeSS...) qui changent complètement la donne.Sur un meme GPU, avec l'aide du DLSS, on peut offrir la même qualité d'image en gagnant 50% de perf sinon plus, et on peut presque doubler encore l'affaire avec du FG, bref tout dépend de ce qu'on veut comparer, la puissance intrinsèque d'un GPU ou la fidélité visuelle qu'il est capable de produire peu importe les techniques, les optimisations employées?Il en sera de même avec cette PS5 Pro, aidé par le PSSR, donc il ne faut pas tellement se focaliser sur les 16.7 TFLOPS annoncé, le gap sera certainement au moins aussi fort que de la PS4 vers la PS4 Pro sur les jeux patchésBref, la réalité des benchmarks, c'était, c'est et ça sera toujours le meilleur indicateur de la capacité d'une machine.PS: sur ce bonne soirée et bon jeu, c'est la seule chose vraiment importante