NVIDIA Blackwell Ultra établit de nouveaux records d’inférence lors de ses débuts dans MLPerf

Par Nicolas Neight
10 septembre 2025 5 min de lecture

Alors que les grands modèles de langage (LLM) deviennent de plus en plus volumineux, ils gagnent en intelligence. Les modèles open source des principaux développeurs comptent désormais des centaines de milliards de paramètres. Parallèlement, les modèles actuels les plus performants sont également capables de raisonnement, ce qui signifie qu’ils génèrent de nombreux tokens de raisonnement intermédiaires avant de fournir une réponse finale à l’utilisateur.

Cette combinaison de deux tendances – des modèles plus grands qui « réfléchissent » en utilisant davantage de tokens – nécessite des performances de calcul considérablement plus élevées.

MLPerf Inference v5.1 : de nouveaux défis

MLPerf Inference v5.1 est la dernière version du benchmark de référence industriel MLPerf Inference. Avec des évaluations organisées deux fois par an, ce benchmark comprend de nombreux tests de performance d’inférence IA et est régulièrement mis à jour avec de nouveaux modèles et scénarios. Cette édition présente :

  • DeepSeek-R1 – un modèle de raisonnement populaire de 671 milliards de paramètres de type mixture-of-experts (MoE), développé par DeepSeek
  • Llama 3.1 405B – MLPerf Inference v5.1 ajoute un nouveau scénario interactif pour le plus grand des modèles de la série Llama 3.1
  • Llama 3.1 8B – un membre de 8 milliards de paramètres de la série Llama 3.1 avec des scénarios hors ligne, serveur et interactif
  • Whisper – un modèle populaire de reconnaissance vocale qui a récemment enregistré près de 5 millions de téléchargements en un mois sur HuggingFace

Blackwell Ultra bat tous les records

Lors de cette édition, NVIDIA a soumis les premiers résultats utilisant la nouvelle architecture Blackwell Ultra, annoncée en mars dernier. Cela s’est produit seulement six mois après que Blackwell ait fait ses débuts dans la catégorie disponible de MLPerf Inference v5.0.

La plateforme NVIDIA a établi de nouveaux records de performance sur tous les benchmarks nouvellement ajoutés cette fois – DeepSeek-R1, Llama 3.1 405B, Llama 3.1 8B et Whisper – et continue de détenir les records de performance par GPU sur tous les autres benchmarks d’inférence MLPerf.

Records de performance impressionnants

Par rapport aux soumissions GB200 NVL72, le système GB300 NVL72 a fourni jusqu’à 45% de performance supérieure par GPU, établissant la norme sur le nouveau benchmark DeepSeek-R1. Comparé aux résultats non vérifiés collectés sur un système basé sur Hopper, Blackwell Ultra a fourni environ 5 fois plus de débit par GPU.

Technologies clés derrière ces performances

Utilisation intensive de NVFP4

Le modèle DeepSeek-R1 de base intègre des poids stockés en précision FP8. En utilisant une recette de quantification développée par NVIDIA, la majorité des poids DeepSeek-R1 ont été quantifiés avec succès vers NVFP4, un format en virgule flottante à quatre bits développé par NVIDIA.

Cache clé-valeur FP8

Dans le modèle DeepSeek-R1 de base, le cache clé-valeur est stocké au format BF16. En utilisant les bibliothèques TensorRT Model Optimizer et TensorRT-LLM, le cache KV a été quantifié en précision FP8, réduisant significativement son empreinte mémoire.

Nouvelles techniques de parallélisme

L’architecture unique du modèle DeepSeek-R1 nécessitait des techniques de parallélisation innovantes. NVIDIA a développé l’Attention Data Parallelism Balance (ADP Balance), une technique qui distribue intelligemment les requêtes contextuelles pour optimiser à la fois le débit global et la latence du premier token.

Service désagrégé pour Llama 3.1 405B

Le nouveau scénario interactif pour le benchmark Llama 3.1 405B introduit des contraintes plus strictes de temps jusqu’au premier token (TTFT) et de tokens par seconde par utilisateur (TPS/utilisateur) par rapport au scénario serveur.

Pour répondre à ces exigences tout en offrant un débit maximal, les soumissions NVIDIA utilisant le système GB200 NVL72 ont également employé le service désagrégé. Cette implémentation a contribué de manière significative à une augmentation du débit par GPU de près de 1,5 fois par rapport au service agrégé traditionnel.

Le service désagrégé découple les phases de contexte et de génération sur des GPU ou nœuds séparés, permettant une optimisation indépendante pour chaque phase. Cette approche permet différentes techniques de parallélisme et une allocation flexible des GPU, améliorant l’efficacité globale du système.

Perspectives d’avenir

NVIDIA continue de démontrer des performances d’inférence de pointe sur une large gamme de modèles et scénarios IA. La soumission de début du système GB300 NVL72 basé sur l’architecture GPU Blackwell Ultra a fourni une amélioration importante pour l’inférence de raisonnement, seulement six mois après la première soumission de la catégorie disponible du GB200 NVL72 basé sur Blackwell.

Pour accélérer davantage les performances d’inférence, NVIDIA a également dévoilé Rubin CPX – un processeur spécialement conçu pour accélérer le traitement de contextes longs, optimisé pour les charges de travail de contexte d’un million de tokens.

Source de cette information : NVIDIA Newsroom

Vous avez aimé ce contenu ? Partagez-le !

Vous avez aimé cet article ? Vous aimeriez nos formations !

Trouvez une veille quotidienne, des formateurs passionnés et curieux, les meilleurs niveaux sur des cas concrets. Cette passion qui nous anime nous permet de vous proposer LA formation qui répondra à VOS besoins.

Ces formations en lien avec cet article pourraient vous intéresser :

Aucune formation directement liée pour le moment.