La Chatbot Arena, arbitre officieux de la course à l'intelligence artificielle

IA intelligence artificielle

Quand il s'agit de désigner le leader de la course à l'intelligence artificielle générative entre OpenAI, Google, Anthropic ou encore Mistral, les yeux se tournent vers la Chatbot Arena. Ce classement, alimenté en permanence par des contributions humaines prend de plus en plus de place, principalement en raison de l'insuffisance des méthodes d'évaluation traditionnelles.

Publié le 17-04-2024 par François Manens

Quel est le meilleur modèle d'intelligence artificielle ? Pour répondre à ce casse-tête, la Large Model Systems Organization (LMSYS), composée d'étudiants et de chercheurs américains, a lancé en mai 2023 un système d'évaluation innovant, la Chatbot Arena. Plutôt que d'essayer à tout prix de mesurer précisément la performance des intelligences artificielles, l'Arena les fait s'affronter dans des duels arbitrés par des humains.

Concrètement, le système propose à des contributeurs bénévoles (pas d'inscription nécessaire, il suffit d'aller sur leur page !) d'avoir une discussion en simultané avec deux modèles d'IA dont ils ne connaissent pas l'identité. Après avoir eu une conversation d'une longueur suffisante à leurs yeux, ils votent : pour un vainqueur, pour une égalité, ou pour indiquer que les deux sont mauvais. Les modèles révèlent alors leur identité au testeur, puis les résultats alimentent un système de classement par Elo comme aux échecs ou dans certains jeux vidéo compétitifs, qui pondère le score en fonction du classement de l'adversaire.

Crise de l'évaluation des modèles d'IA

Rapidement, la Chatbot Arena s'est imposée comme le classement de performance le plus commenté et le plus suivi de l'écosystème, notamment grâce à sa mise en avant sur Hugging Face. Au point qu'une des voix les plus écoutées de l'IA, Andrej Karpathy (cofondateur d'OpenAI et ancien directeur de l'IA de Tesla), le désignait comme le seul système d'évaluation de confiance. Et pour cause : la Chatbot

Lire la suite

Voir la suite...

Les dernières actualités