La Chatbot Arena, arbitre officieux de la course à l'intelligence artificielle
Quand il s'agit de désigner le leader de la course à l'intelligence artificielle générative entre OpenAI, Google, Anthropic ou encore Mistral, les yeux se tournent vers la Chatbot Arena. Ce classement, alimenté en permanence par des contributions humaines prend de plus en plus de place, principalement en raison de l'insuffisance des méthodes d'évaluation traditionnelles.
Publié le 17-04-2024 par François Manens
Quel est le meilleur modèle d'intelligence artificielle ? Pour répondre à ce casse-tête, la Large Model Systems Organization (LMSYS), composée d'étudiants et de chercheurs américains, a lancé en mai 2023 un système d'évaluation innovant, la Chatbot Arena. Plutôt que d'essayer à tout prix de mesurer précisément la performance des intelligences artificielles, l'Arena les fait s'affronter dans des duels arbitrés par des humains.
Concrètement, le système propose à des contributeurs bénévoles (pas d'inscription nécessaire, il suffit d'aller sur leur page !) d'avoir une discussion en simultané avec deux modèles d'IA dont ils ne connaissent pas l'identité. Après avoir eu une conversation d'une longueur suffisante à leurs yeux, ils votent : pour un vainqueur, pour une égalité, ou pour indiquer que les deux sont mauvais. Les modèles révèlent alors leur identité au testeur, puis les résultats alimentent un système de classement par Elo comme aux échecs ou dans certains jeux vidéo compétitifs, qui pondère le score en fonction du classement de l'adversaire.
Crise de l'évaluation des modèles d'IA
Rapidement, la Chatbot Arena s'est imposée comme le classement de performance le plus commenté et le plus suivi de l'écosystème, notamment grâce à sa mise en avant sur Hugging Face. Au point qu'une des voix les plus écoutées de l'IA, Andrej Karpathy (cofondateur d'OpenAI et ancien directeur de l'IA de Tesla), le désignait comme le seul système d'évaluation de confiance. Et pour cause : la Chatbot
Lire la suiteLes dernières actualités
Publié le 29/04/2024 à 11:02:46
Le dérèglement climatique au menu d'un très attendu sommet du G7 à TurinPublié le 29/04/2024 à 10:43:20
Affaire des respirateurs défectueux: aux Etats-Unis, Philips va payer 1,1 milliard de dollars aux plaignantsPublié le 29/04/2024 à 10:43:16
Atos cherche beaucoup plus d’argent pour s’en sortirPublié le 29/04/2024 à 10:43:15
Les 5 infos business à retenir ce lundi matin (Atos, EDF, HCSF, Yen, Boeing)Publié le 29/04/2024 à 10:43:11
Conditions d'octroi des crédits immobiliers : la réforme du Haut Conseil de stabilité financière (HSCF) discutée à l'AssembléePublié le 29/04/2024 à 10:43:10
Nucléaire : après 12 ans de retard, EDF va enfin mettre en service l’EPR de FlamanvillePublié le 29/04/2024 à 10:43:05
Frédéric Valletoux : « La révolution qu'il faut opérer en santé, c'est de faire confiance aux acteurs de terrain »Publié le 29/04/2024 à 10:42:58
Batteries reconditionnées : Volt-R annonce deux levées de fonds de plusieurs dizaines de millions d'eurosPublié le 28/04/2024 à 11:02:55
Cause palestinienne : le désaccord de trop pour la gauche françaisePublié le 28/04/2024 à 11:02:50
Guerre en Ukraine : des pourparlers de paix sont actuellement inenvisageables, selon MoscouPublié le 28/04/2024 à 10:43:36
Allemagne : Maximilian Krah, le visage sulfureux de l’AfDPublié le 28/04/2024 à 10:43:31
Tunnel sous la Manche : Getlink se transforme à grande vitessePublié le 28/04/2024 à 10:43:31
Le « Make Europe Great Again » de MacronPublié le 28/04/2024 à 10:43:31
Budget : Bruno Le Maire face aux doutesPublié le 28/04/2024 à 10:43:26
Les jeunes, nouveaux invisibles de la RépubliquePublié le 28/04/2024 à 10:43:21
En Italie, 40 ans de lutte sanglante contre la mafiaPublié le 28/04/2024 à 10:43:17
Bonnes feuilles : la Cour européenne des droits de l’homme, des juges bien mal aimésPublié le 28/04/2024 à 10:43:16
Marseille, laboratoire de la lutte antidroguePublié le 28/04/2024 à 10:43:11
Éric Dupond-Moretti : « Nous allons créer un véritable statut de repenti »Publié le 28/04/2024 à 10:43:09
Michel Barnier : « Emmanuel Macron n’est pas le seul à défendre l’Europe »