Les garde-fous des IA génératives ne servent pas à grand-chose

Sans grande surprise, le premier rapport de l'AI Safety Institute, une organisation visant à rendre l'intelligence artificielle plus sûre, montre qu'il est facile de contourner les règles des grands modèles de langage comme ChatGPT.
Publié le 13-02-2024 par Marine Protais
« Je suis désolée mais je ne peux pas vous aider à mener des activités illégales ». C'est le type de réponse décevante que vous obtiendrez de ChatGPT si vous lui demandez de l'aide pour mener une cyberattaque ou toute autre action malveillante. Le grand modèle de langage d'OpenAI, comme Llama 2 de Meta et Bard de Google, est doté d'un certain nombre de garde-fous. Ces derniers limitent son utilisation. Ils évitent à ces LLM (« large language models ») de donner des informations dangereuses, de tenir des propos racistes et sexistes, de décrire des scènes pornographiques ou d'amplifier la désinformation.
Mais ces barrières seraient aisément contournables, conclut un premier rapport de l'AI Safety Institute, un organisme rattaché au gouvernement britannique créé fin 2023. L'AI Safety Institute (AISI) s'est donné pour mission d'évaluer les grands modèles de langage « les plus avancés » - sans préciser lesquels. On sait toutefois qu'en novembre dernier Google DeepMind, Microsoft, Meta et OpenAI avaient accepté d'être audités par l'organisme britannique, rapporte le Financial Times. Le but est de comprendre à quel point ces modèles peuvent être détournés pour produire des contenus illicites, mener des cyberattaques ou encore désinformer.
Des techniques de piratage accessibles aux utilisateurs lambda
Leurs premières conclusions, publiées le 9 février, sont peu rassuran
Les dernières actualités
Publié le 10/05/2025 à 10:44:50
Guerre en Ukraine : Macron, Starmer, Merz et Tusk en réunion avec ZelenskyPublié le 10/05/2025 à 10:44:49
Droits de douane : Genève, théâtre d'une désescalade sino-américaine incertainePublié le 10/05/2025 à 10:44:42
Gréves : faute de résultats en mai, la CGT-Cheminots menace la SNCF d'un mois de juin très difficilePublié le 10/05/2025 à 10:44:34
A Wall Street, des bonus de plus en plus sous pressionPublié le 10/05/2025 à 10:44:27
Arnaques en ligne : pourquoi votre IBAN se retrouve dans des mails de phishingPublié le 10/05/2025 à 10:44:19
L’UE veut durcir les contrôles des investissements étrangersPublié le 10/05/2025 à 10:44:11
Négociations commerciales : les atouts cachés de la Chine face aux États-UnisPublié le 10/05/2025 à 10:44:01
Et si tous les milliardaires n'étaient pas trumpistes...Publié le 10/05/2025 à 10:43:48
Contournement ou effet à retardement des droits de douane : pourquoi les exportations chinoises grimpentPublié le 10/05/2025 à 10:43:45
OPINION. « La guerre de l'IA entre la Chine et l'Amérique est déclarée »Publié le 09/05/2025 à 10:44:12
Nouvelles alliances commerciales : le Royaume-Uni scelle un accord controversé avec l’IndePublié le 09/05/2025 à 10:44:06
Pourquoi le démantèlement de Google inquiète jusqu'à ses concurrentsPublié le 09/05/2025 à 10:44:00
Pour les marchés privés, la fin d’une croissance à deux chiffresPublié le 09/05/2025 à 10:43:54
Logiciel espion Pegasus : Pourquoi la condamnation de NSO ne chamboulera pas cet obscur marchéPublié le 09/05/2025 à 10:43:54
🔴Exportations chinoises, IAG, Bourses... L’essentiel de l’actualité ce vendredi 9 maiPublié le 09/05/2025 à 10:43:47
Débranchée avec pertes et fracas en 2014, l'écotaxe revientPublié le 09/05/2025 à 10:43:38
Michel Aglietta, l'héritage capital d'un penseur des crises économiquesPublié le 08/05/2025 à 10:44:28
La Fed maintient inchangé ses taux directeursPublié le 08/05/2025 à 10:44:23
Guerre commerciale : l'Europe avance sa riposte, Trump répliquePublié le 08/05/2025 à 10:44:19
Avec le conflit au Cachemire, l'Inde et le Pakistan jouent gros au niveau économique