Google commence à activer les capacités vidéo en direct de son IA Gemini

Dans cet article () Intelligence Artificielle publié le , nous aborderons les sujets suivants : ,

Imaginez un instant : vous êtes face à un meuble IKEA dont les instructions semblent avoir été rédigées par un adepte de l’art abstrait. Au lieu de vous arracher les cheveux, vous pointez simplement votre téléphone vers ce chaos de vis et de planches, et une voix bienveillante vous guide pas à pas. Ce n’est pas de la science-fiction, c’est la nouvelle réalité que Google vient de déployer avec Gemini Live.

La vision s’invite dans la conversation

Google vient de franchir un cap majeur dans l’évolution de son assistant IA. Gemini Live, déjà reconnu pour ses capacités conversationnelles, s’enrichit désormais de la vision artificielle en temps réel. L’assistant peut désormais « voir » à travers l’écran de votre smartphone ou via sa caméra, puis interagir avec vous sur ce qu’il observe. Une petite révolution qui matérialise enfin le fameux « Project Astra » dévoilé par Google il y a près d’un an.

Ces nouvelles fonctionnalités commencent leur déploiement progressif auprès des abonnés Gemini Advanced (via le forfait Google One AI Premium). Un utilisateur Reddit a d’ailleurs été parmi les premiers à repérer et partager cette nouveauté sur son téléphone Xiaomi, avec une démonstration vidéo montrant comment Gemini peut désormais analyser et commenter ce qui s’affiche sur son écran.

Des yeux numériques aux usages multiples

La lecture d’écran représente la première facette de cette évolution visuelle. Concrètement, Gemini peut maintenant observer ce que vous faites sur votre téléphone et interagir avec ce contenu. Vous naviguez sur un site en langue étrangère ? Gemini peut le traduire. Vous tombez sur un graphique complexe ? L’assistant peut l’analyser et le vulgariser.

Mais le véritable bond en avant réside dans la vision par caméra en temps réel. Dans une vidéo de démonstration publiée par Google, on voit un utilisateur solliciter l’aide de Gemini pour choisir la couleur idéale pour sa poterie fraîchement émaillée. L’assistant observe l’objet à travers la caméra, analyse ses caractéristiques et suggère des options de couleurs adaptées.

Les possibilités semblent infinies : identifier des plantes lors d’une randonnée, obtenir des informations sur un monument historique, recevoir des conseils pour ajuster la composition d’une photo, ou même obtenir de l’aide pour réparer un objet du quotidien. _C’est comme avoir un expert polyvalent dans votre poche, qui voit le monde à travers vos yeux_.

Une longueur d’avance dans la course à l’IA

Cette avancée positionne Google en leader incontesté dans le domaine des assistants IA avancés. Pendant qu’Amazon prépare le lancement en accès limité de son Alexa Plus et qu’Apple a repoussé la mise à jour majeure de Siri, Gemini déploie déjà ses capacités de vision artificielle auprès du grand public.

Samsung, bien que disposant toujours de son assistant Bixby, a d’ailleurs fait de Gemini l’assistant par défaut sur ses téléphones – un aveu de la suprématie technologique de Google dans ce domaine.

Cette avance technologique n’est pas anodine. Elle marque une transition fondamentale : les assistants IA ne sont plus limités au texte et à la voix, ils commencent à comprendre visuellement notre environnement. Cette capacité à contextualiser les conversations en fonction de ce que nous voyons transforme radicalement notre façon d’interagir avec la technologie.

Vers un avenir où l’IA voit notre monde

Nous assistons aux premiers pas d’une nouvelle génération d’assistants numériques qui ne se contentent plus d’écouter et de parler, mais qui observent et comprennent visuellement notre environnement. Les possibilités qui s’ouvrent sont vertigineuses, des applications dans l’accessibilité pour les personnes malvoyantes à l’assistance technique instantanée.

Alors que Gemini apprend à voir notre monde, une question se pose : jusqu’où ira cette fusion entre nos perceptions humaines et celles de l’intelligence artificielle ? Une chose est sûre, l’ère des assistants qui comprennent notre monde visuel a commencé, et Google vient d’en ouvrir la porte en grand.

Vous aimez ce contenu ? Pensez à vous abonner !

Vous aimez cet article ? Vous allez adorer nos formations !

Avec une veille quotidienne, des formateurs professionnels actifs et des formations basées sur des cas concrets, cette passion qui nous anime nous permet de vous proposer LA formation qui répondra à VOS besoins.

Ces formations en lien avec cet article pourraient vous intéresser :