Face au pillage des sites web par les géants de l'IA, la fronde s'organise

IA intelligence artificielle

De nombreux sites, à l'image du réseau social Reddit, ne veulent plus que les entreprises de l'intelligence artificielle pillent leurs données sans rien offrir en contrepartie. Alors ils tentent de bloquer les robots chargés d'aspirer leur contenu, une tâche plus difficile qu'il n'y paraît.

Publié le 03-08-2024 par François Manens

La gronde contre les géants de l'intelligence artificielle s'intensifie. En cause : OpenAI, Anthropic, Google et bien d'autres aspirent en continu les textes des millions de pages web, sans trop se soucier de l'avis de leurs propriétaires. La raison ? Les grands modèles d'IA qu'ils développent ont besoin de volumes de données toujours plus grands afin de produire des résultats toujours plus performants. Des articles de presse, aux recettes de cuisine, en passant par les sous-titres des vidéos YouTube, tout y passe : les ingénieurs font ingurgiter aux IA du contenu trouvé aux quatre coins d'Internet.

Mais les propriétaires de sites web sont de plus en plus nombreux à tenter d'arrêter ce pillage, d'autant plus que certains parviennent à tirer des millions d'euros dans le cadre d'accords officiels, à l'image de ceux du Monde avec OpenAI ou de Google avec le réseau social Reddit. Empêcher l'aspiration systématique des données passe par le blocage des robots scraper qu'utilisent les géants de l'IA. Ces petits programmes informatiques automatisés parcourent le web et téléchargent tout ce qu'ils trouvent. Mais les arrêter n'est pas si simple...

Lire aussiAprès la levée de boucliers, les médias commencent à ouvrir leurs portes à l'IA

Robot.txt, le panneau d'entrée des sites web

Les chercheurs de la Data Provenance Initiative, un collectif de spécialistes de l'IA, ont récemment publié une étude dans laquelle ils mesurent le nombre de sites qui bloquent expressément les scrapers des e

Lire la suite

Voir la suite...

Les dernières actualités