La Chatbot Arena, arbitre officieux de la course à l'intelligence artificielle

Quand il s'agit de désigner le leader de la course à l'intelligence artificielle générative entre OpenAI, Google, Anthropic ou encore Mistral, les yeux se tournent vers la Chatbot Arena. Ce classement, alimenté en permanence par des contributions humaines prend de plus en plus de place, principalement en raison de l'insuffisance des méthodes d'évaluation traditionnelles.
Publié le 17-04-2024 par François Manens
Quel est le meilleur modèle d'intelligence artificielle ? Pour répondre à ce casse-tête, la Large Model Systems Organization (LMSYS), composée d'étudiants et de chercheurs américains, a lancé en mai 2023 un système d'évaluation innovant, la Chatbot Arena. Plutôt que d'essayer à tout prix de mesurer précisément la performance des intelligences artificielles, l'Arena les fait s'affronter dans des duels arbitrés par des humains.
Concrètement, le système propose à des contributeurs bénévoles (pas d'inscription nécessaire, il suffit d'aller sur leur page !) d'avoir une discussion en simultané avec deux modèles d'IA dont ils ne connaissent pas l'identité. Après avoir eu une conversation d'une longueur suffisante à leurs yeux, ils votent : pour un vainqueur, pour une égalité, ou pour indiquer que les deux sont mauvais. Les modèles révèlent alors leur identité au testeur, puis les résultats alimentent un système de classement par Elo comme aux échecs ou dans certains jeux vidéo compétitifs, qui pondère le score en fonction du classement de l'adversaire.
Crise de l'évaluation des modèles d'IA
Rapidement, la Chatbot Arena s'est imposée comme le classement de performance le plus commenté et le plus suivi de l'écosystème, notamment grâce à sa mise en avant sur Hugging Face. Au point qu'une des voix les plus écoutées de l'IA, Andrej Karpathy (cofondateur d'OpenAI et ancien directeur de l'IA de Tesla), le désignait comme le seul système d'évaluation de confiance. Et pour cause : la Chatbot
Lire la suiteLes dernières actualités
Publié le 17/09/2025 à 11:03:58
Après des années de crise, les feux repassent au vert pour le bioPublié le 17/09/2025 à 10:44:56
« Je pense qu’il va jouer l’apaisement » : l’exemption de TVA des microentrepreneurs suspendue à la décision de LecornuPublié le 17/09/2025 à 10:44:56
🔴Bourses, Fed, grève du 18 septembre, taxe Zucman ... L'essentiel de l'actualité ce mercredi 17 septembrePublié le 17/09/2025 à 10:44:51
Maya Noël (France Digitale) : « La taxe Zucman, c’est se tirer une balle dans le pied »Publié le 17/09/2025 à 10:44:46
Le scénario d’une perte d’indépendance de la Fed se dessine peu à peuPublié le 17/09/2025 à 10:44:42
iPhone 17 : la riposte d’Apple face aux logiciels espionsPublié le 17/09/2025 à 10:44:37
18 septembre : une grève d'ampleur se confirme dans les transportsPublié le 17/09/2025 à 10:44:32
Au cœur de la mer du Nord, la plateforme de gaz danoise Tyra entend assurer la sécurité énergétique de l'EuropePublié le 17/09/2025 à 10:44:27
La Fed s'engage prudemment sur le chemin de la baisse des tauxPublié le 17/09/2025 à 10:44:22
Immobilier : la reprise en trompe-l'oeil du marché des maisons neuvesPublié le 17/09/2025 à 10:44:14
Taxe Zucman : tout comprendre à cet impôt au centre des débatsPublié le 16/09/2025 à 11:03:54
Lactalis va investir un milliard d’euros en France à horizon cinq ansPublié le 14/09/2025 à 10:44:58
Budget : le Medef menace en cas de hausse des impôts sur les entreprisesPublié le 14/09/2025 à 10:44:53
L’Ukraine, l’exemple à suivre pour combattre les drones ?Publié le 14/09/2025 à 10:44:48
Pour Sébastien Lecornu, « nous payons l’instabilité » : la classe politique réagit à la dégradation de la note FitchPublié le 14/09/2025 à 10:44:43
Sébastien Lecornu : « J'ai décidé de retirer la suppression de deux jours fériés »Publié le 14/09/2025 à 10:44:38
L'onde de choc de la dégradation de la dette françaisePublié le 14/09/2025 à 10:44:33
BAROMÈTRE EXCLUSIF. Lecornu à seulement 16% d'opinions favorables, Macron au plus basPublié le 14/09/2025 à 10:44:28
Thierry Breton sur la dégradation de la note Fitch : « La France vient de changer de division »Publié le 14/09/2025 à 10:44:27
L’édito éco de Lucie Robequain. Budget, la rupture impossible