Imaginez un instant votre bibliothèque municipale préférée, envahie par des robots aspirateurs qui photocopient frénétiquement toutes les pages de tous les livres, sans jamais s’arrêter. Les visiteurs humains, eux, doivent patienter ou renoncer à consulter leurs ouvrages favoris. C’est exactement ce qui arrive à Wikipédia et ses projets frères en ce moment même !
Quand les robots d’IA vident les réservoirs de Wikimedia
La Fondation Wikimedia, l’organisation qui chapeaute Wikipédia et une douzaine d’autres projets de connaissances collaboratives, vient de tirer la sonnette d’alarme. Depuis janvier 2024, la consommation de bande passante pour les téléchargements multimédias depuis Wikimedia Commons a explosé de 50%. La raison ? Non pas un soudain regain d’intérêt des humains pour le savoir, mais des robots automatisés assoiffés de données qui aspirent massivement ce contenu pour entraîner des modèles d’intelligence artificielle.
« Notre infrastructure est conçue pour supporter des pics de trafic humain lors d’événements majeurs, mais le volume généré par ces robots est sans précédent et présente des risques et des coûts croissants », alerte la Fondation dans un récent billet de blog. Wikimedia Commons, rappelons-le, est un trésor de fichiers multimédias accessibles gratuitement sous licences ouvertes.
Le buffet à volonté qui tourne au cauchemar
Les chiffres sont éloquents : 65% du trafic le plus « coûteux » en ressources provient désormais de ces robots, alors qu’ils ne représentent que 35% des visites totales. Pourquoi cette disproportion ? C’est simple : les humains consultent généralement les mêmes pages populaires, qui restent facilement accessibles dans la mémoire cache des serveurs. Les robots, eux, dévorent méthodiquement tout le contenu, même le plus obscur, forçant les serveurs à aller chercher des données rarement consultées dans les centres de données principaux – une opération bien plus gourmande en ressources.
Pour faire une analogie, c’est comme si dans un buffet à volonté, les humains se servaient principalement des plats en début de ligne, tandis que les robots vidaient systématiquement tous les plats jusqu’au fond du restaurant, obligeant le personnel à courir constamment en cuisine pour réapprovisionner.
La menace silencieuse qui transforme internet
Cette situation n’est pas isolée. Partout sur le web, les créateurs de contenu font face à ce phénomène dévorant. Drew DeVault, ingénieur logiciel et défenseur de l’open source, déplore que les robots d’IA ignorent délibérément les fichiers « robots.txt » censés limiter le trafic automatisé – l’équivalent numérique d’un panneau « Entrée interdite » allègrement piétiné.
L’infrastructure du web ouvert, conçue pour partager librement la connaissance, se retrouve prise en otage. Et la riposte s’organise : certains développeurs déploient des pièges ingénieux pour ralentir ces robots gourmands. Cloudflare a même lancé « AI Labyrinth », qui génère du contenu factice par IA pour égarer les robots trop voraces dans un labyrinthe sans fin.
Vers la fin de l’internet ouvert ?
Ce jeu du chat et de la souris pourrait avoir des conséquences dramatiques. Pour se protéger, de nombreux sites envisagent de se réfugier derrière des connexions sécurisées et des murs payants – sonnant potentiellement le glas de l’internet ouvert que nous connaissons.
La Fondation Wikimedia, gardienne d’un des derniers grands bastions de la connaissance libre, se voit contrainte de consacrer un temps précieux à bloquer ces aspirateurs numériques pour préserver l’expérience des utilisateurs humains, tout en voyant ses coûts d’infrastructure grimper en flèche.
L’ironie est mordante : les géants de l’IA, qui promettent de démocratiser le savoir grâce à leurs modèles, sont en train d’asphyxier les sources mêmes de ce savoir. Si rien ne change, nous pourrions assister à la plus grande privatisation de la connaissance humaine depuis l’invention de l’imprimerie.