Les garde-fous des IA génératives ne servent pas à grand-chose

Sans grande surprise, le premier rapport de l'AI Safety Institute, une organisation visant à rendre l'intelligence artificielle plus sûre, montre qu'il est facile de contourner les règles des grands modèles de langage comme ChatGPT.
Publié le 13-02-2024 par Marine Protais
« Je suis désolée mais je ne peux pas vous aider à mener des activités illégales ». C'est le type de réponse décevante que vous obtiendrez de ChatGPT si vous lui demandez de l'aide pour mener une cyberattaque ou toute autre action malveillante. Le grand modèle de langage d'OpenAI, comme Llama 2 de Meta et Bard de Google, est doté d'un certain nombre de garde-fous. Ces derniers limitent son utilisation. Ils évitent à ces LLM (« large language models ») de donner des informations dangereuses, de tenir des propos racistes et sexistes, de décrire des scènes pornographiques ou d'amplifier la désinformation.
Mais ces barrières seraient aisément contournables, conclut un premier rapport de l'AI Safety Institute, un organisme rattaché au gouvernement britannique créé fin 2023. L'AI Safety Institute (AISI) s'est donné pour mission d'évaluer les grands modèles de langage « les plus avancés » - sans préciser lesquels. On sait toutefois qu'en novembre dernier Google DeepMind, Microsoft, Meta et OpenAI avaient accepté d'être audités par l'organisme britannique, rapporte le Financial Times. Le but est de comprendre à quel point ces modèles peuvent être détournés pour produire des contenus illicites, mener des cyberattaques ou encore désinformer.
Des techniques de piratage accessibles aux utilisateurs lambda
Leurs premières conclusions, publiées le 9 février, sont peu rassuran
Les dernières actualités
Publié le 13/09/2025 à 10:44:42
De dinosaure de la tech à géant de l’IA : comment Oracle a su remonter la pentePublié le 13/09/2025 à 10:44:34
Automobile : les constructeurs chinois devraient remporter 30 % du marché mondial en 2030Publié le 13/09/2025 à 10:44:33
Lutte contre la pédocriminalité : pourquoi le règlement Chat Control divise tant l'EuropePublié le 13/09/2025 à 10:44:32
Budget 2026 : ces chiffres qui plaident pour demander un effort aux retraitésPublié le 13/09/2025 à 10:44:24
Aux États-Unis, l'affaire des émetteurs radio chinois dissimulés près des routesPublié le 13/09/2025 à 10:44:23
Bitcoin : des data centers « flexibles », la grande promesse de l’américain Mara pour séduire les énergéticiens européensPublié le 13/09/2025 à 10:44:14
Dissuasion nucléaire : la France lance une nouvelle version du missile balistique M51Publié le 13/09/2025 à 10:44:12
Fitch dégrade à A+ la France, qui sort du club des dettes « haute qualité »Publié le 12/09/2025 à 10:44:40
KNDS Deutschland gagne une nouvelle commande de char Leopard 2 A8Publié le 12/09/2025 à 10:44:39
Financement de l'adaptation de la France à +4° C : les trois scénarios sur la tablePublié le 12/09/2025 à 10:44:34
Batteries : dans son usine de production pour Stellantis, ACC peine à monter en cadencePublié le 12/09/2025 à 10:44:34
🔴 Notation de Fitch, Microsoft, Danemark... L'essentiel de l'actualité ce vendredi 12 septembre 2025Publié le 12/09/2025 à 10:44:34
Dette de la France : l’agence de notation Fitch ouvre le balPublié le 12/09/2025 à 10:44:29
Data centers : en Norvège, l'efficacité énergétique poussée à son maximumPublié le 12/09/2025 à 10:44:24
Fitch, Moody's, S&P : la lente dégradation de la note de la dette françaisePublié le 12/09/2025 à 10:44:23
Pesticides : les viticulteurs et leurs riverains dans l'attente d'une étude crucialePublié le 12/09/2025 à 10:44:18
Méga-fusion dans le spatial : Airbus, Leonardo et Thales entrent dans le « money time »Publié le 12/09/2025 à 10:44:10
« Les marchés ont déjà anticipé » : treize ans de déni face aux agences de notationPublié le 11/09/2025 à 10:44:45
L'iPhone Air d'Apple, un chamboulement pour les opérateurs télécomsPublié le 11/09/2025 à 10:44:41
« L’heure des cryptos a sonné » : Paul Atkins (SEC) trace le futur de la finance