OpenAI franchit une nouvelle étape dans l’évaluation de l’intelligence artificielle avec le lancement de GDPval, un système d’évaluation révolutionnaire qui mesure les performances des modèles IA sur des tâches professionnelles concrètes et économiquement importantes.
Qu’est-ce que GDPval ?
GDPval est un nouveau système d’évaluation conçu pour mesurer la capacité des modèles d’IA à effectuer des tâches du monde réel qui ont une valeur économique. Le nom fait référence au Produit Intérieur Brut (PIB), car les tâches sont tirées des principales professions dans les secteurs qui contribuent le plus au PIB américain.
Contrairement aux évaluations académiques traditionnelles, GDPval se concentre sur des situations professionnelles authentiques : rédaction de documents juridiques, plans d’ingénierie, conversations de support client, ou encore plans de soins infirmiers.
Une évaluation plus réaliste
GDPval couvre actuellement 44 professions réparties dans 9 secteurs industriels majeurs, avec un total de 1 320 tâches spécialisées (220 dans l’ensemble open source). Chaque tâche a été conçue et vérifiée par des professionnels expérimentés ayant en moyenne plus de 14 ans d’expérience.
Ce qui rend GDPval unique :
- Réalisme : Les tâches incluent des fichiers de référence et du contexte
- Diversité : Documents, présentations, diagrammes, tableurs et multimédia
- Authenticity : Basé sur de vrais produits de travail existants
Des résultats prometteurs
Les premiers résultats montrent que les meilleurs modèles actuels approchent déjà la qualité du travail produit par des experts industriels. Dans des évaluations à l’aveugle, les professionnels ont comparé les résultats de plusieurs modèles leaders (GPT-4o, o4-mini, OpenAI o3, GPT-5, Claude Opus 4.1, Gemini 2.5 Pro, et Grok 4) avec du travail humain.
Les découvertes clés :
- Claude Opus 4.1 excelle particulièrement en esthétique (formatage, mise en page)
- GPT-5 se distingue par sa précision dans les connaissances spécialisées
- Les performances ont plus que doublé entre GPT-4o (printemps 2024) et GPT-5 (été 2025)
- Les modèles peuvent accomplir les tâches 100 fois plus vite et 100 fois moins cher que les experts
Impact sur l’avenir du travail
GDPval révèle que l’IA peut déjà prendre en charge certaines tâches répétitives et bien définies, permettant aux professionnels de se concentrer sur les aspects créatifs et nécessitant du jugement. Cette complémentarité pourrait se traduire par une croissance économique significative.
L’objectif d’OpenAI est de maintenir tout le monde dans « l’ascenseur montant » de l’IA en démocratisant l’accès à ces outils, en soutenant les travailleurs dans cette transition, et en construisant des systèmes qui récompensent une contribution large.
Limitations et perspectives
GDPval n’est qu’un premier pas. Les limitations actuelles incluent :
- Évaluations à coup unique (pas de révisions multiples)
- Tâches clairement définies (pas de navigation dans l’ambiguïté)
- Couverture limitée à 44 professions
Les versions futures incluront plus d’interactivité, de contexte, et une meilleure mesure de la complexité du travail intellectuel réel.
Participation communautaire
OpenAI invite les experts industriels et les clients à contribuer au développement de GDPval. Cette participation communautaire est essentielle pour construire une évaluation qui reflète vraiment la diversité et la complexité du travail professionnel moderne.
GDPval marque une évolution importante dans l’évaluation de l’IA, passant des tests académiques aux applications pratiques qui comptent vraiment dans l’économie réelle.
Source de cette information : OpenAI News