Le blog "IA Décodée" de cette semaine est consacré aux optimisations de l'IA que NVIDIA TensorRT apporte aux plus de 100 millions de PC et stations de travail RTX sous Windows en local.
Le nouveau benchmark Procyon AI Image Generation d'UL Solutions est désormais disponible. Il mesure les performances réelles du matériel pour la génération d'images IA. Nos tests internes ont démontré une accélération de 50 % sur un GPU GeForce RTX 4080 SUPER par rapport à l'implémentation non-TensorRT la plus rapide.
Avant de nous plonger dans les actualités, voici un bref rappel :
- Les Tensor Cores sont les accélérateurs d'IA dédiés sur les GPU RTX qui fournissent efficacement une IA locale de haute performance.
- NVIDIA TensorRT est un ensemble d'outils - c'est-à-dire un kit de développement logiciel (SDK) - qui permet aux développeurs d'accéder au matériel pour fournir des expériences d'IA entièrement optimisées.
- NVIDIA TensorRT-LLM est une bibliothèque open-source qui permet aux LLM de comprendre et de répondre aux demandes plus rapidement et plus efficacement. ChatRTX s'appuie sur TensorRT-LLM pour optimiser les performances sur les GPU RTX, et tout le monde peut expérimenter des modèles optimisés par TensorRT-LLM dans les modèles de la NVIDIA AI Foundation.
De plus, l'extension TensorRT pour Stable Diffusion WebUI multiplie les performances jusqu'à 2 fois, rationalisant ainsi considérablement les flux de travail de Stable Diffusion.
Avec la dernière mise à jour de l'extension, les optimisations TensorRT s'étendent aux ControlNets, un ensemble de modèles d'IA qui aident à guider la sortie d'un modèle de diffusion en ajoutant des conditions supplémentaires. Avec TensorRT, les ControlNets sont 40 % plus rapides.