Google vient d’annoncer des améliorations majeures pour les sorties structurées dans son API Gemini, une technologie qui permet aux intelligences artificielles de générer des réponses organisées selon un format précis et prévisible.
Qu’est-ce que les sorties structurées ?
Imaginez que vous demandiez à une IA de vous donner des informations sur un produit. Sans structure, elle pourrait vous répondre de façon désorganisée. Avec les sorties structurées, l’IA génère des réponses qui respectent un modèle prédéfini, comme un formulaire à remplir. C’est essentiel pour des tâches comme l’extraction de données ou l’alimentation de bases de données.
Cette organisation est également cruciale pour faire communiquer plusieurs IA entre elles : la réponse de l’une devient l’information d’entrée formatée de l’autre, permettant la création de systèmes complexes multi-agents sans avoir besoin de traduction.
Support étendu du JSON Schema : plus de flexibilité
Google a maintenant ajouté le support complet du JSON Schema à tous ses modèles Gemini actifs. Concrètement, cela signifie que des bibliothèques populaires comme Pydantic (Python) ou Zod (JavaScript/TypeScript) fonctionnent désormais directement avec l’API Gemini.
Cette mise à jour inclut des fonctionnalités très demandées :
- anyOf pour les structures conditionnelles
- $ref pour les schémas récursifs
- minimum et maximum pour contraindre les valeurs numériques
- additionalProperties et support du type ‘null’
- prefixItems pour les tableaux de type tuple
Organisation implicite des propriétés : l’ordre compte
Une innovation importante : l’API préserve maintenant l’ordre des clés tel qu’il apparaît dans le schéma. Cette fonctionnalité est disponible pour tous les modèles Gemini 2.5 et versions ultérieures, et s’applique également à l’API de compatibilité OpenAI.
Voici un exemple pratique avec la modération de contenu utilisant Pydantic :
from google import genai
from pydantic import BaseModel, Field
from typing import Union, Literal
class SpamDetails(BaseModel):
"""Détails pour le contenu classé comme spam."""
reason: str = Field(description="La raison pour laquelle le contenu est considéré comme spam.")
spam_type: Literal["phishing", "arnaque", "promotion non sollicitée", "autre"]
class ModerationResult(BaseModel):
"""Le résultat de la modération de contenu."""
decision: Union[SpamDetails, NotSpamDetails]
Applications concrètes dans le monde réel
Les sorties structurées font partie des outils les plus utilisés par les développeurs créant des applications IA réelles.
Agentic Users : 6 fois moins d’appels API
Cette plateforme d’agents autonomes pour le web utilise les sorties structurées principalement pour l’extraction de données. Selon Luis Vega, fondateur et PDG :
« Les sorties structurées ont réduit les appels API jusqu’à 6 fois dans certains flux de travail et ont complètement éliminé les réponses JSON défaillantes qui nécessitaient auparavant des vérifications supplémentaires. »
Alkimi AI : fiabilité et efficacité
Cette entreprise crée des assistants IA pour les entreprises et institutions éducatives. Grâce au JSON Schema, ils peuvent faire transiter des données de façon fiable à travers leur pipeline multi-étapes.
Dillon Uzar, fondateur d’Alkimi AI, explique :
« Pour nous, les sorties structurées signifient fiabilité, rapidité et efficacité économique. En forçant le LLM à fournir un format prévisible et lisible par machine, nous pouvons créer des fonctionnalités plus robustes plus rapidement, réduire les erreurs et utiliser des modèles moins coûteux. »
Disponibilité immédiate
Ces améliorations sont disponibles dès aujourd’hui dans l’API. Cette évolution marque une étape importante vers des interactions plus fiables et structurées avec l’intelligence artificielle, ouvrant la voie à des applications plus sophistiquées et efficaces.
Source de cette information : Blog Google