Une nouvelle ère de la génération vidéo par intelligence artificielle
OpenAI vient de lancer Sora 2, sa nouvelle version du modèle de génération vidéo et audio qui marque un tournant majeur dans l’industrie de l’IA créative. Cette mise à jour représente ce que l’entreprise considère comme « le moment GPT-3.5 pour la vidéo », une référence à l’évolution marquante qu’avait représentée GPT-3.5 pour le traitement du langage.
Des capacités physiques révolutionnaires
Contrairement aux modèles précédents qui avaient tendance à « déformer la réalité » pour exécuter les instructions, Sora 2 respecte désormais les lois de la physique. Par exemple :
- Si un basketteur rate son tir, le ballon rebondira naturellement sur le panneau au lieu de se téléporter magiquement dans le panier
- Les mouvements complexes comme les figures de patinage artistique, les saltos sur paddle ou les routines de gymnastique olympique sont reproduits avec une précision saisissante
- La dynamique de la flottabilité, la rigidité des matériaux et autres propriétés physiques sont correctement modélisées
Une application sociale innovante
OpenAI lance également une nouvelle application iOS appelée simplement « Sora » qui révolutionne la façon dont nous pourrions communiquer à l’avenir. L’application propose une fonctionnalité unique appelée « camées » qui permet aux utilisateurs de s’insérer directement dans n’importe quelle scène générée par Sora avec une fidélité remarquable.
Cette fonctionnalité nécessite un simple enregistrement vidéo et audio ponctuel dans l’application pour vérifier l’identité et capturer l’apparence de l’utilisateur. Les premiers retours internes d’OpenAI suggèrent que cette fonctionnalité aide même les collègues à tisser de nouveaux liens au sein de l’entreprise.
Un contrôle créatif sans précédent
Sora 2 excelle dans le contrôle précis des instructions complexes, capable de suivre des directives sophistiquées sur plusieurs plans tout en maintenant la cohérence de l’environnement virtuel. Le modèle maîtrise particulièrement bien :
- Les styles réalistes et cinématographiques
- L’animation de style anime
- La création d’ambiances sonores sophistiquées
- La génération de dialogues et d’effets sonores réalistes
Une approche responsable du déploiement
Conscient des enjeux liés aux réseaux sociaux traditionnels, OpenAI a développé une approche unique pour son application :
Contrôle utilisateur
- Algorithmes de recommandation contrôlables par langage naturel
- Mécanismes de vérification périodique du bien-être des utilisateurs
- Priorité donnée au contenu des personnes suivies plutôt qu’à la maximisation du temps passé
Protection des adolescents
- Limites par défaut sur le nombre de générations visibles par jour
- Permissions strictes pour les camées
- Contrôles parentaux intégrés via ChatGPT
- Équipes de modération humaine pour traiter rapidement les cas de harcèlement
Contrôle de l’image personnelle
Les utilisateurs gardent un contrôle total sur leur ressemblance : ils décident qui peut utiliser leur camée, peuvent révoquer l’accès à tout moment et supprimer toute vidéo les incluant.
Disponibilité et tarification
L’application Sora iOS est disponible dès maintenant au téléchargement, avec un système d’invitation progressive commençant par les États-Unis et le Canada. L’expansion vers d’autres pays est prévue rapidement.
Le service sera initialement gratuit avec des limites généreuses, bien que ces limites restent soumises aux contraintes de calcul. Les utilisateurs de ChatGPT Pro auront accès à Sora 2 Pro, une version expérimentale de meilleure qualité.
L’avenir de la simulation du monde réel
Selon OpenAI, Sora 2 représente un progrès significatif vers des simulateurs universels et des agents robotiques qui pourraient fondamentalement remodeler la société. Bien que le modèle soit encore loin d’être parfait et commette de nombreuses erreurs, il valide l’hypothèse qu’augmenter l’échelle des réseaux de neurones sur les données vidéo nous rapproche de la simulation de la réalité.
Cette évolution marque potentiellement le début d’une nouvelle ère pour les expériences co-créatives, où la frontière entre création de contenu digital et interaction social devient de plus en plus floue.
Source de cette information : OpenAI News