La semaine dernière, OpenAI a lancé ChatGPT Atlas, une nouvelle façon de naviguer sur le web avec ChatGPT à vos côtés. Au-delà d’être un navigateur web complet, Atlas offre un aperçu de l’avenir : un monde où vous pouvez emmener ChatGPT partout sur internet pour poser des questions, obtenir des suggestions et accomplir des tâches pour vous.
Le défi : réinventer l’architecture d’un navigateur
Faire de ChatGPT un véritable copilote pour le web signifiait repenser entièrement l’architecture d’un navigateur. L’équipe d’OpenAI devait séparer Atlas du moteur Chromium traditionnel, tout en gardant ses avantages : sécurité robuste, performances établies et compatibilité web inégalée.
Les objectifs étaient ambitieux :
- Démarrage instantané du navigateur
- Réactivité même avec des centaines d’onglets ouverts
- Fondation solide pour les cas d’usage avec intelligence artificielle
- Interface utilisateur moderne avec des animations riches
La solution révolutionnaire : OWL (OpenAI’s Web Layer)
OpenAI a développé une nouvelle couche architecturale appelée OWL : OpenAI’s Web Layer. Le principe ? Faire fonctionner le processus navigateur de Chromium à l’extérieur du processus principal d’Atlas.
Pensez-y ainsi : si Chromium a révolutionné les navigateurs en déplaçant les onglets dans des processus séparés, OpenAI va plus loin en déplaçant Chromium lui-même hors du processus principal de l’application, dans une couche de service isolée.
Les avantages concrets de cette approche
🚀 Une application plus simple et moderne
Atlas est construit presque entièrement en SwiftUI et AppKit. Un langage, une pile technologique, un code propre.
⚡ Démarrage ultra-rapide
Chromium démarre de manière asynchrone en arrière-plan. Atlas n’attend pas – les pixels s’affichent quasi instantanément.
🛡️ Isolation des problèmes
Si le thread principal de Chromium se bloque, Atlas continue de fonctionner. S’il plante, Atlas reste opérationnel.
🔧 Développement accéléré
La plupart des ingénieurs n’ont jamais besoin de compiler Chromium localement. OWL est livré en interne comme un binaire pré-construit, réduisant les temps de compilation de heures à minutes.
Comment fonctionne OWL concrètement
L’architecture repose sur deux composants principaux :
- OWL Client : le navigateur Atlas
- OWL Host : le processus navigateur Chromium
Ces deux composants communiquent via IPC (Inter-Process Communication), en utilisant spécifiquement Mojo, le système de passage de messages de Chromium. OpenAI a même créé des liaisons Swift et TypeScript personnalisées pour Mojo.
Des défis techniques uniques
La fonction de navigation autonome d’Atlas pose des défis particuliers. Le modèle d’IA attend une image unique de l’écran en entrée, mais certains éléments d’interface (comme les menus déroulants) s’affichent en dehors des limites de l’onglet. En mode agent, ces éléments sont recomposés dans l’image principale de la page aux bonnes coordonnées.
Pour la navigation autonome, chaque session peut fonctionner dans un contexte éphémère « déconnecté », utilisant l’infrastructure StoragePartition de Chromium pour créer des magasins isolés en mémoire. Chaque session d’agent démarre à zéro et, quand elle se termine, tous les cookies et données de site sont supprimés.
Une nouvelle façon d’utiliser le web
Cette architecture révolutionnaire n’aurait pas été possible sans le travail incroyable de la communauté mondiale Chromium. OWL s’appuie sur cette fondation d’une nouvelle manière : en découplant le moteur de l’application, en mélangeant une plateforme web de classe mondiale avec des frameworks natifs modernes.
En repensant la façon dont un navigateur intègre Chromium, OpenAI crée l’espace pour de nouveaux types d’expériences : des démarrages plus fluides, une interface utilisateur plus riche, une intégration plus étroite avec le reste du système d’exploitation, et une boucle de développement qui avance à la vitesse des idées.
Source de cette information : OpenAI News