Espace membre :
flechePublicité

20 messages
Filtrer ok

NVIDIA annonce Hyper-Q, CUDA 5 et les Tesla K10 / K20

Grosse actualité pour NVIDIA qui profite de la GTC, son forum dédié au GPU Computing, pour dévoiler ses plans en matière de calcul générique avec sa nouvelle architecture Kepler. C'est Jen-Hsun Huang, co-fondateur et président directeur général de NVIDIA qui a relayé ce soir les annonces les plus importantes lors du keynote d'ouverture de la semaine du GPU Computing.

Jusqu'à présent, la firme au caméléon s'était montrée particulièrement discrète au sujet des capacités de calcul en GPU Computing de son architecture Kepler. On savait bien sûr que le nouvel agencement des blocs de calcul, sous forme de SMX et non plus de SM offrait un rapport performance/watt trois fois supérieur à l'architecture Fermi (voir notre test de la GeForce GTX 680). Pour le marché du HPC, autrement dit du High Performance Computing, Kepler introduit l'Hyper-Q une fonctionnalité assez fondamentale. Avec Fermi, l'exécution des tâches était limitée par le processeur : une seule tâche MPI pouvait être traitée à la fois. Kepler permet dorénavant l'exécution simultanée de 32 tâches MPI, chaque tâche pouvant être contrôler par l'un des cœurs de l'un des processeurs animant le rack. Cela devrait permettre de maximiser l'utilisation de la puce graphique tout en réduisant les temps d’inactivité du processeur. L'architecture Kepler introduit également la notion de parallélisme dynamique où la puce graphique s'adapte aux données en lançant elle-même de nouveaux threads. Cela évite des allers/retours permanents entre CPU et GPU avec les gains que l'on peut imaginer notamment en terme de temps de latence par exemple.



Seulement voilà, ces deux nouvelles fonctions assez fondamentales ne seront disponibles que sur les puces... GK110 attendues pour le quatrième trimestre 2012. Du coup NVIDIA qui profite de la GTC pour annoncer sa première carte Tesla K10 à base d'architecture Kepler et à destination des supercalculateurs se voit contraint d'annoncer dans la foulée l'arrivée de la K20 pour la quatrième trimestre 2012 avec prise en charge des fonctions Hyper-Q et Dynamic Parallelism.



Avec la Tesla K10, NVIDIA propose une carte munie de deux puces GK104 et offrant 3 fois les performances en simple précision de la précédente Tesla M2090 et 1,8 fois la bande passante mémoire, la carte dispose de 8 Go de mémoire, chaque GPU étant doté de 4 Go. La Tesla K20 est annoncée comme offrant trois fois les performances en double précision.



Du côté des outils de développement, NVIDIA annonce pèle mêle l'arrivée de Nsight pour Linux & Mac, la sortie de CUDA 5 et aussi l'implémentation de la fonctionnalité GPU Direct. Cette dernière permet l'échange de données entre la mémoire de chacune des puces graphiques sans passer par le processeur. L'architecture Kepler implémente cette fonctionnalité exploitable par le biais de CUDA 5. Dans le cadre de serveurs, cet échange de données se fait également de serveur à serveur par la connexion réseau. Et comme ce n'est pas tout, CUDA 5 introduit la possibilité pour les développeurs de faire appel à des bibliothèques de code tierces.
 
 
K20 pas avant Q4 ... J' adore comme ils mettent 3x Single precsion Floating Point, alors que c' est sur 2 cores GK104 ) et que les performances en DP du GK104 sont justes misérables...

Alors oui en SP, le GK104 gagne plus ou moins 150% ( 64 vs 94 pour Fermi), ce qui leur donne 300%.
 
 
Les performances de Kepler sont justes pitoyables en GPU computing, en version Geforce du moins. J'en possède une et regrette amèrement mon achat. Ils ont carrément brider les capacités des versions Geforce par rapport Fenmi, pourtant sur la feuille il possède le double de CUDA cores.

Bref si vous voulez utiliser les capacités CUDA attendez les 110 ( en priant)
 
 
puré il faut être du milieu pour vous comprendre.
 
 
Contacter le membreVoir profil
Inu
Parfaitement raison... je n'ai rien compris à ce qu'ils ont dit...
 
 
Je pense qu'il y a une bride logiciel, les gars.
 
 
non c'est une bride physique très bien expliqué chez hfr et sur d'autre site (pas lu celui du clubic en entier). Lounge si tu te tenais un peu au courant de l'architecture tu n'aurais pas été surpris...
 
 
@minidow
oauis j'avoue mais en même temps j'étais trop impatient pour effectuer des simulations physiques et j'utilise aussi blender pour son nouveau moteur de rendu Cycle unbiased ( rendu photo réaliste)
 
 
Ludo_0 a écrit:
puré il faut être du milieu pour vous comprendre.

Je comprends surtout que pour bénéficier de la puissance de CUDA avec Kepler, il faut prendre une carte "pro" et pas une Gforce, ce qui n'était pas le cas avec Fermi. C'est pas une bonne nouvelle pour réaliser en amateur des simulations physiques, car le prix n'est pas le même. Voilà pourquoi lougne est dégoûté, et il a raison je pense. Pour bénéficier de CUDA en Gforce il faut rester en Fermi actuellement.
 
 
@lougne
de mes piètres connaissances, les radeon HD sont plus performantes en GPU computing que les geforce
tu n'as pas (eu) l'occasion de tester une HD 7xxx en opencl sous blender ?
ou ton moteur est basé sur cuda ?
 
 
Moteur fortement basé sur CUDA, mais il y a une version OpenCL qui est presque finalisé aussi. IL faut savoir que les performances de CUDA par rapport à OpenCL sont largement au dessus de 15% voir même plus. Aussi à OpenCl il lui manque énormément de fonction avancé qui augmente la difficulté du codage, la qualité du code et surtout les filtres graphiques Opti.

Nvidia aussi offre une Panoplie d'outils excellents pour la gestion des CUDA ( OpenCl est très pauvre en ce moment). Ceux que j'utilise : CUDA toolKit 4.2, Nvidia Compute profiling, Nvidia parallel Nsight ( intégré à visual studio). Pour ce dernier la même en OpenCl et j'envisage sérieusement de l'utiliser, surtout que la programmation est exactement la même à un ou deux détail près.

@yamahbe
Effectivement tu as totalement raison. Mais faut savoir que même les pro utilisaient des Geforce car les petits studio de développement ne peuvent se permettre le coût des Tesla. J'explique:

déjà ce qui est épatant et c'est connu, en terme de puissance brute au niveau des fermi du moins ils sont plus rapide que les tesla mais ces derniers ont une grande quantité de ram ( 6 Go) et son faits pour endurer les pires situations pour un GPU. Mais une GTX 580 coûte 450$ alors que une tesla ayant le même GPU coûte 1500$. Donc les développeurs comme moi utilisent Deux GTX 590 et on a 4 GPU 580 alors que en Tesla (Nvidia même là ne sait pas compté), si on veut la même puissance de calcul il faut raquer pas moins de 8000$ voilà
 
 
En complément d'info ça c'est des GPU monopost, je vous parle même pas des versions serveurs
 
 
merci lougne pour les détails et les infos
 
 
Message supprimé le 16/05/2012 à 20:44.
 
@legawe
petite coquille c'est Kepler par rapport à fermi
 
 
legawe a écrit:
Geforce par rapport Fenmi, pourtant sur la feuille il possède le double de CUDA cores.

Oui, mais ils sont bridés sur Gforce Kepler alors qu'en Fermi pas de bridage. Bref ils veulent palper les 8000$ au lieu des 1500$ dont parle lougne plus haut.
De quoi bien relancer l'intérêt d'OpenCL en effet...
 
 
Bon! c'est pas la fête, 3x plus avec 2 puces, ca veut dire 150% par puces, c'est mieu qu'une 680 face a une 580, mais c'est pas encore ça. Le "best bank for your bucks" pour le moment reste des 580, avec 3GB pour les trouve pour 350e (sans vat) dans les pays voisins...
Maintenant, OpenCL à plusieurs generations de retard sur CUDA. Ils ont encore bcp de travaille à fournir pour se mettre au niveau.
 
 
Bah je vais donner les chiffres ca sera plus simple a comprendre:

Nvidia Tesla K10 = 2x GK104 sur une carte ( sans sortie vidéo, carte dédiée au serveur )

K10 = 2x GK104 = 4.58Tflops en SP et 0.2 Tflops en DP ( soit 2.29Tflops et 0,1 Tflops par core GK104 )

2x HD 7970 = 7.58Tflops en SP et 2.0 Tflops en DP ( soit 10x la puissance de la K10 en DP )

1x HD7970 = 3.79Tflops SP et 1.0 Tflops en DP ...

Alors évidemment une versions Pro de la 7970 sera moins rapide au niveau du core, et la mémoire avec le ECC perd un peu en bande passante, mais la 7970 pour le gaming qu' on trouve dans le commerce a un Double FLoating Point ( DP ) fixé a 1/4 des performances SP ( 1.0 Tflops ), alors que la version pro sera a un 1/2 ( Half rate ) .. autrement dit les 1Tflops se transforme déjà en 2Tflops pour celle ci ( autrement dit le double ).

Le problème des GK104 n' est pas qu' elle est bridée, elle ne comporte pas physiquement ce qui lui permet de faire du DP a une vitesse intéressante... le GK104 n' a jamais été crée pour cela .

La K10 me donne vraiment l' impression d' être une espéce de roue de secours en attendant la K20.

Alors ca sera une carte excellente comme accélerateur notamment en CUDA . Pas de doute, les DP ne sont pas une necéssité pour tout les codes... mais ca pose quand même quelques problèmes de limitations, surtout face aux anciennes Tesla Fermi .. et Nvidia essaie de vendre cela comme un nouveau marché.



la future K20 basée sur le GK110 ( qui ne sortira pas avant Q4 2012, en vente en 2013 ) = 1.0 Tlflops en DP ..


@TXraph ... l' implantation de OpenCL a du retard sur Cuda dans les université etc.. Nvidia a beaucoup axé sa politique la dedans en proposant des systèmes. Il est clair que OpenCL a encore du travail niveau relation avec le public visé, quoi qu' il suffit de voir une conférence sur le sujet pour comprendre que beaucoup passe a OpenCL (le nombre de recrutement pour coder en OpenCL a d'ailleurs dépassé ceux capable de coder en CUDA depuis un certain temps déjà ) ...
OpenCL étant un language une librairie qui évolue sans la marque ( Nvidia ), il faut avouer que la relation avec le public est différente ..
Au niveau performance, OpenCL a rattrapé CUDA en computing depuis longtemps et est même maintenant en avance a ce niveau .. ( tests réalisé sur Tesla M2209 avec évidemment les drivers OpenCL de nvidia qui sont encore en 1.2 quand OpenCL est en version 2.1 , Nvidia n'étant pas forcément pressé de mettre a jour et faire évoluer OpenCL plus que nécessaire )
Edité le 17/05/2012 à 09:10
 
 
Moteur fortement basé sur CUDA, mais il y a une version OpenCL qui est presque finalisé aussi. IL faut savoir que les performances de CUDA par rapport à OpenCL sont largement au dessus de 15% voir même plus.
 
 
lanek a écrit:


Au niveau performance, OpenCL a rattrapé CUDA en computing depuis longtemps et est même maintenant en avance a ce niveau .. ( tests réalisé sur Tesla M2209 avec évidemment les drivers OpenCL de nvidia qui sont encore en 1.2 quand OpenCL est en version 2.1 , Nvidia n'étant pas forcément pressé de mettre a jour et faire évoluer OpenCL plus que nécessaire )

Archi totalement Faux en général. OpenCL rattrape son retard en test synthétique c'est indéniable, mais en test réel pour les développeurs comme moi et surtout en cherchant à optimiser le code c'est pas pareil pour les moteurs de rendu (imagerie). Dans le physique les tests sont extrêmement proches

Voici un petit lien pour les test synthétique. et voici encore un autre Codding gorrilla

Dans le forum de blender si tu prends un peu de temps pour le lire BlenderArtist il y a une section qui compare opencl et Cuda. Pour le moment il y a un probléme au niveau du Kernel d'opencl qui prends trop de temps. J'ai pas encore réussi à trouver quoi c'est vrai mais même l'armée de développeurs mondiaux ne comprennent pas encore le pourquoi exactement. On planche sur un pb avec les drivers nvidia et AMD mais ce n'est que suppositions

J'utilises les deux langages depuis 3 ans déjà je me permet de préciser si cela peut être utile.
Edité le 18/05/2012 à 11:18
 
 
     
20 messages
Filtrer ok
Vous devez être connecté pour écrire un message !

BE GEEK ! Avec

flechePublicité