La Chatbot Arena, arbitre officieux de la course à l'intelligence artificielle

Quand il s'agit de désigner le leader de la course à l'intelligence artificielle générative entre OpenAI, Google, Anthropic ou encore Mistral, les yeux se tournent vers la Chatbot Arena. Ce classement, alimenté en permanence par des contributions humaines prend de plus en plus de place, principalement en raison de l'insuffisance des méthodes d'évaluation traditionnelles.
Publié le 17-04-2024 par François Manens
Quel est le meilleur modèle d'intelligence artificielle ? Pour répondre à ce casse-tête, la Large Model Systems Organization (LMSYS), composée d'étudiants et de chercheurs américains, a lancé en mai 2023 un système d'évaluation innovant, la Chatbot Arena. Plutôt que d'essayer à tout prix de mesurer précisément la performance des intelligences artificielles, l'Arena les fait s'affronter dans des duels arbitrés par des humains.
Concrètement, le système propose à des contributeurs bénévoles (pas d'inscription nécessaire, il suffit d'aller sur leur page !) d'avoir une discussion en simultané avec deux modèles d'IA dont ils ne connaissent pas l'identité. Après avoir eu une conversation d'une longueur suffisante à leurs yeux, ils votent : pour un vainqueur, pour une égalité, ou pour indiquer que les deux sont mauvais. Les modèles révèlent alors leur identité au testeur, puis les résultats alimentent un système de classement par Elo comme aux échecs ou dans certains jeux vidéo compétitifs, qui pondère le score en fonction du classement de l'adversaire.
Crise de l'évaluation des modèles d'IA
Rapidement, la Chatbot Arena s'est imposée comme le classement de performance le plus commenté et le plus suivi de l'écosystème, notamment grâce à sa mise en avant sur Hugging Face. Au point qu'une des voix les plus écoutées de l'IA, Andrej Karpathy (cofondateur d'OpenAI et ancien directeur de l'IA de Tesla), le désignait comme le seul système d'évaluation de confiance. Et pour cause : la Chatbot
Lire la suiteLes dernières actualités
Publié le 01/08/2025 à 11:03:56
L'alpinisme et la randonnée mis à l'épreuve par la hausse des températuresPublié le 01/08/2025 à 10:44:36
Le départ de Ryanair, un premier coup de semonce pour les aéroports régionauxPublié le 01/08/2025 à 10:44:31
Une cyberattaque cible le Muséum national d'Histoire naturelle, la recherche française affectéePublié le 01/08/2025 à 10:44:31
Comment ces entreprises françaises s'adaptent aux taxes TrumpPublié le 01/08/2025 à 10:44:30
Renault revoit ses priorités : le plan Futurama reporté à 2026Publié le 01/08/2025 à 10:44:30
Hausse de la TVA sur l’électricité : la facture n’augmentera pas pour une grande majorité des FrançaisPublié le 01/08/2025 à 10:44:25
L’ascenseur social est bloqué pour les indépendants, alerte l'InseePublié le 01/08/2025 à 10:44:19
Immobilier : le projet de foncière d'État vire déjà au casse-têtePublié le 01/08/2025 à 10:44:19
🔴 Axa rachète un concurrent, facture salée pour Apple, Trump… L'essentiel de l'actualité ce vendredi 1er aoûtPublié le 01/08/2025 à 10:44:18
Armement : pourquoi la technologie française peut être une aide cruciale pour l'UkrainePublié le 01/08/2025 à 10:44:10
Décimé par les sécheresses, le piment d'Espelette passe à l'irrigationPublié le 31/07/2025 à 10:44:26
Royaume-Uni, Japon... Les pays qui limitent la casse face aux menaces de TrumpPublié le 31/07/2025 à 10:44:26
Accord transatlantique : l’Union européenne et les États-Unis présentent deux versions contradictoiresPublié le 31/07/2025 à 10:44:21
Nissan a fait perdre 11,6 milliards d’euros à Renault au premier semestrePublié le 31/07/2025 à 10:44:20
« Dépendance européenne » : ces secteurs où l'influence des États-Unis est déjà croissantePublié le 31/07/2025 à 10:44:15
En France, l'énergie solaire trois fois plus gaspillée que l'an dernierPublié le 31/07/2025 à 10:44:15
🔴 La Fed maintient ses taux, taxes sur le Brésil, usine Safran en France… L'essentiel de l'actualité ce jeudi 31 juilletPublié le 31/07/2025 à 10:44:14
Immobilier : un député macroniste vole au secours des diagnostiqueursPublié le 31/07/2025 à 10:44:09
Pourquoi les auberges de jeunesse font leur grand retourPublié le 31/07/2025 à 10:44:01
A Creil, chaque clou a son histoire