Die KI-Branche ist besessen von Chatbot Arena, aber es könnte nicht der beste Maßstab sein

In den letzten Monaten haben Tech-Execs wie Elon Musk die Leistung ihrer KI-Modelle auf einem bestimmten Benchmark gepriesen: Chatbot Arena.

Gepflegt von einer gemeinnützigen Organisation namens LMSYS, hat sich Chatbot Arena zu einer Art Branchenbesessenheit entwickelt. Beiträge über Updates zu den Modellranglisten erhalten Hunderte von Aufrufen und Wiederfreigaben auf Reddit und X, und der offizielle LMSYS X-Account hat über 54.000 Follower. Millionen von Menschen haben allein im letzten Jahr die Website der Organisation besucht.

Dennoch bleiben einige Fragen offen, ob Chatbot Arena uns wirklich zeigt, wie \"gut\" diese Modelle sind.

Auf der Suche nach einem neuen Maßstab

Bevor wir eintauchen, nehmen wir uns einen Moment Zeit, um zu verstehen, was LMSYS genau ist und wie es so beliebt wurde.

Die gemeinnützige Organisation wurde erst im letzten April als ein von Studenten und Dozenten der Carnegie Mellon, des SkyLab der UC Berkeley und der UC San Diego geleitetes Projekt gestartet. Einige der Gründungsmitglieder arbeiten heute bei Google DeepMind, Musks xAI und Nvidia; heute wird LMSYS hauptsächlich von SkyLab-affilierten Forschern betrieben.

LMSYS hatte nicht die Absicht, eine virale Modellrangliste zu erstellen. Die Gründungsmission der Gruppe war es, Modelle (speziell generative Modelle à la OpenAIs ChatGPT) zugänglicher zu machen, indem sie sie gemeinsam entwickelt und Open Source gemacht hat. Aber kurz nach der Gründung von LMSYS sahen die Forscher, unzufrieden mit dem Stand des KI-Benchmarkings, den Wert darin, ein eigenes Testwerkzeug zu schaffen.

„Aktuelle Benchmarks erfüllen nicht angemessen die Anforderungen von State-of-the-Art-Modellen, insbesondere bei der Bewertung von Benutzerpräferenzen“, schrieben die Forscher in einem im März veröffentlichten technischen Papier. „Deshalb besteht ein dringender Bedarf an einer offenen, Live-Evaluationsplattform auf der Grundlage menschlicher Präferenz, die die realweltliche Nutzung genauer widerspiegeln kann.“

In der Tat haben wir bereits geschrieben, dass die heute am häufigsten verwendeten Benchmarks schlecht darin sind, wie der durchschnittliche Mensch mit Modellen interagiert. Viele der Fähigkeiten, die die Benchmarks abfragen – wie das Lösen von Mathematikaufgaben auf Doktoratsniveau – werden für die Mehrheit der Personen, die beispielsweise Claude benutzen, selten relevant sein.

Die Schöpfer von LMSYS fühlten ähnlich und entwickelten daher eine Alternative: Chatbot Arena, ein crowdsourceter Benchmark, der darauf abzielt, die „nuancierten“ Aspekte von Modellen und deren Leistung bei offenen, realen Aufgaben festzuhalten.

Chatbot Arena ermöglicht es jedem im Internet, eine Frage (oder Fragen) an zwei zufällig ausgewählte anonyme Modelle zu stellen. Sobald eine Person den Nutzungsbedingungen zustimmt, die ihre Daten für zukünftige Forschungsprojekte von LMSYS, Models und verwandten Projekten ermöglichen, können sie für ihre bevorzugten Antworten von den beiden duellierenden Modellen abstimmen (sie können auch ein Unentschieden erklären oder sagen „beide sind schlecht“), woraufhin die Identitäten der Modelle offenbart werden.

Dieser Ablauf liefert eine „vielfältige Palette“ von Fragen, die ein typischer Benutzer an jedes generative Modell stellen könnte, schrieben die Forscher in dem im März veröffentlichten Papier. „Bewaffnet mit diesen Daten nutzen wir eine Suite leistungsstarker statistischer Techniken [...] um das Ranking über Modelle so zu schätzen, dass es so zuverlässig und stichproben-effizient wie möglich ist“, erklärten sie.

Seit der Einführung von Chatbot Arena hat LMSYS dutzende offene Modelle zu seinem Testwerkzeug hinzugefügt und Partnerschaften mit Universitäten wie der Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) sowie Unternehmen wie OpenAI, Google, Anthropic, Microsoft, Meta, Mistral und Hugging Face geschlossen, um ihre Modelle für Tests zur Verfügung zu stellen. Chatbot Arena umfasst jetzt mehr als 100 Modelle, darunter multimodale Modelle (Modelle, die Daten jenseits von nur Text verstehen können) wie OpenAIs GPT-4o und Anthropics Claude 3.5 Sonnet.

Über eine Million Fragestellungen und Antwortpaare wurden auf diese Weise eingereicht und ausgewertet, was eine große Menge an Rangdaten ergibt.

Voreingenommenheit und Mangel an Transparenz

In dem im März veröffentlichten Papier behaupten die Gründer von LMSYS, dass die von den Benutzern eingebrachten Fragen von Chatbot Arena „ausreichend vielfältig“ sind, um für eine Reihe von KI-Anwendungsfällen zu Benchmarken. „Aufgrund seines einzigartigen Werts und seiner Offenheit hat sich Chatbot Arena als eine der meist referenzierten Modellranglisten herausgebildet“, schreiben sie.

Aber wie aussagekräftig sind die Ergebnisse wirklich? Darüber kann man debattieren.

Yuchen Lin, Forschungswissenschaftler am gemeinnützigen Allen Institute for AI, sagt, dass LMSYS nicht völlig transparent über die Modellfähigkeiten, das Wissen und die Fähigkeiten ist, die es auf Chatbot Arena bewertet. Im März veröffentlichte LMSYS einen Datensatz, LMSYS-Chat-1M, der eine Million Gespräche zwischen Benutzern und 25 Modellen auf Chatbot Arena enthält. Aber seitdem wurde der Datensatz nicht aktualisiert.

„Die Bewertung ist nicht reproduzierbar, und die begrenzten von LMSYS veröffentlichten Daten machen es anspruchsvoll, die Einschränkungen von Modellen ausgiebig zu untersuchen“, sagte Lin.

In dem Maße, in dem LMSYS seinen Testansatz detailliert hat, sagten seine Forscher im März-Papier, dass sie „effiziente Sampling-Algorithmen“ verwenden, um Modelle aufeinander zu setzen, „so dass das Konvergieren der Rankings beschleunigt wird, während die statistische Validität erhalten bleibt“. Sie schrieben, dass LMSYS ungefähr 8.000 Stimmen pro Modell sammelt, bevor es die Chatbot Arena-Rankings aktualisiert, und dass diese Schwelle normalerweise nach mehreren Tagen erreicht wird.

Aber Lin glaubt, dass die Abstimmung nicht berücksichtigt, ob Menschen in der Lage sind - oder nicht - Halluzinationen von Modellen zu erkennen, noch Unterschiede in ihren Präferenzen, was ihre Stimmen unzuverlässig macht. Zum Beispiel könnten einige Benutzer längere, im Markdown-Stil verfasste Antworten mögen, während andere prägnantere Antworten bevorzugen könnten.

Die Quintessenz hier ist, dass zwei Benutzer auf die gleiche Antwort eines Modellpaars gegensätzliche Antworten geben könnten, und beide wären gleichermaßen gültig - aber das stellt die grundsätzliche Wertigkeit des Ansatzes in Frage. Erst in jüngster Zeit hat LMSYS experimentiert, um für den „Stil“ und den „Inhalt“ der Antworten der Modelle in Chatbot Arena zu berücksichtigen.

„Die von Menschen vorgezogenen Daten berücksichtigen diese subtilen Voreingenommenheiten nicht, und die Plattform unterscheidet nicht zwischen ‚A ist signifikant besser als B‘ und ‚A ist nur geringfügig besser als B“, sagte Lin. „Während die Nachverarbeitung einige dieser Voreingenommenheiten mildern kann, bleibt die rohe menschliche Präferenzdaten rauschig“.

Mike Cook, ein Forschungsstipendiat an der Queen Mary University of London, der sich auf KI und Spielentwicklung spezialisiert hat, stimmte Lin zu. „Man könnte Chatbot Arena auch schon 1998 testen und trotzdem über dramatische Rangverschiebungen oder große starke Chatbots sprechen, aber sie wären schrecklich“, fügte er hinzu und wies darauf hin, dass während Chatbot Arena als empirischer Test präsentiert wird, es sich tatsächlich um eine relative Bewertung von Modellen handelt.

Die größte problematische Voreingenommenheit über Chatbot Arena schwebt über seinem derzeitigen Benutzerstamm.

Weil der Benchmark fast ausschließlich durch Mundpropaganda in KI- und Technologiekreisen populär wurde, ist es unwahrscheinlich, dass er eine sehr repräsentative Menschenmenge angezogen hat, sagt Lin. Seine Theorie wird durch die Top-Fragen im LMSYS-Chat-1M Datensatz gestützt, die sich mit Programmierung, KI-Tools, Softwarefehlern und -korrekturen und App-Design befassen - nicht die Art von Dingen, die man von nicht-technischen Personen erwarten würde, dass sie danach fragen.

„Die Verteilung der Testdaten spiegelt möglicherweise nicht genau die realen menschlichen Benutzer des Zielmarktes wider“, sagte Lin. „Darüber hinaus ist der Evaluationsprozess der Plattform weitgehend unkontrollierbar und stützt sich hauptsächlich auf die Nachverarbeitung, um jede Abfrage mit verschiedenen Tags zu versehen, die dann zur Entwicklung von aufgabenspezifischen Bewertungen verwendet werden. Dieser Ansatz mangelt an systematischer Präzision, was die Bewertung komplexer Problemlösungsfragen allein auf der Grundlage menschlicher Präferenz herausfordernd macht.“

Multimodell-Modelle in Chatbot Arena testen.
Bildnachweis: LMSYS

Cook wies darauf hin, dass, da Chatbot Arena-Benutzer sich selbst auswählen - sie interessieren sich im ersten Schritt dafür, Modelle zu testen - sie weniger darauf bedacht sein könnten, Modelle auf Herz und Nieren zu testen oder an ihre Grenzen zu bringen.

„Es ist im Allgemeinen keine gute Art, eine Studie durchzuführen“, sagte Cook. „Die Evaluatoren stellen eine Frage und stimmen darüber ab, welches Modell ‚besser‘ ist - aber ‚besser‘ wird nirgendwo wirklich von LMSYS definiert. Sehr gut in diesem Benchmark zu sein, könnte die Leute dazu bringen zu denken, dass ein Sieger-KI-Chatbot menschlicher, genauer, sicherer, vertrauenswürdiger und so weiter ist - aber das bedeutet nicht wirklich eines dieser Dinge.“

LMSYS versucht, diese Voreingenommenheiten auszugleichen, indem es automatisierte Systeme - MT-Bench und Arena-Hard-Auto - verwendet, die Modelle selbst (OpenAIs GPT-4 und GPT-4 Turbo) nutzen, um die Qualität der Antworten anderer Modelle zu bewerten. (LMSYS veröffentlicht diese Rangfolgen neben den Stimmen). Aber während LMSYS behauptet, dass die Modelle „sowohl gesteuerte als auch crowdsourcete menschliche Präferenzen gut abbilden“, ist die Angelegenheit noch lange nicht geklärt.

Kommerzielle Verbindungen und Datenfreigabe

Laut Lin sind die wachsenden kommerziellen Verbindungen von LMSYS ein weiterer Grund, die Ranglisten mit Vorsicht zu betrachten.

Einige Anbieter wie OpenAI, die ihre Modelle über APIs bereitstellen, haben Zugriff auf die Nutzungsdaten der Modelle, die sie im Prinzip „zum Testen lehren“ könnten, wenn sie wollten. Dies macht den Testprozess für die offenen, statischen Modelle, die auf LMSYS eigener Cloud laufen, möglicherweise unfair, sagte Lin.

„Unternehmen können ständig ihre Modelle optimieren, um sie besser auf die LMSYS-Benutzerdistribution abzustimmen, was möglicherweise zu einem unfairen Wettbewerb und einer weniger sinnvollen Bewertung führt“, fügte er hinzu. „Kommerzielle Modelle, die über APIs verbunden sind, können auf alle Benutzereingabedaten zugreifen, was Unternehmen mit mehr Traffic einen Vorteil verschafft.“

Cook fügte hinzu: „Anstatt die Entwicklung von neuartiger KI-Forschung oder Ähnlichem zu fördern, ermutigt LMSYS Entwickler, winzige Details zu optimieren, um einen Vorteil bei der Formulierung gegenüber ihrer Konkurrenz zu erzielen.”

LMSYS wird auch teilweise von Organisationen gesponsert, von denen eine ein VC-Unternehmen ist, das Pferde im KI-Rennen hat.

LMSYS’ Unternehmenssponsoren.
Bildnachweis: LMSYS

Googles Kaggle-Datenplattform hat Geld an LMSYS gespendet, ebenso wie Andreessen Horowitz (dessen Investitionen Mistral einschließen) und Together AI. Googles Gemini-Modelle sind auf Chatbot Arena, ebenso wie die Modelle von Mistral und Together.

LMSYS gibt auf ihrer Website an, dass sie auch auf Universitätszuschüsse und Spenden angewiesen sind, um ihre Infrastruktur zu unterstützen, und dass keine ihrer Sponsoring-Vergünstigungen - die in Form von Hardware und Cloud-Compute-Credits sowie Bargeld kommen - „Bedingungen angeknüpft sind“. Aber die Beziehungen lassen den Eindruck entstehen, dass LMSYS nicht vollständig unparteiisch ist, insbesondere da Anbieter zunehmend Chatbot Arena nutzen, um die Spannung für ihre Modelle zu schüren.

LMSYS hat nicht auf die Anfrage von TechCrunch nach einem Interview reagiert.

Ein besserer Maßstab?

Lin denkt, dass LMSYS und Chatbot Arena trotz ihrer Mängel einen wertvollen Dienst leisten: Echtzeit-Einblicke, wie verschiedene Modelle außerhalb des Labors abschneiden.

„Chatbot Arena übertrifft den traditionellen Ansatz der Optimierung für Mehrfachauswahl-Benchmarks, die oft gesättigt sind und nicht direkt auf reale Szenarien anwendbar sind“, sagte Lin. „Der Benchmark bietet eine einheitliche Plattform, auf der echte Benutzer mit mehreren Modellen interagieren können, was eine dynamischere und realistischere Bewertung darstellt.“

Aber - während LMSYS weiterhin Funktionen zu Chatbot Arena hinzufügt, wie mehr automatisierte Bewertungen - glaubt Lin, dass die Organisation niedrig hängende Früchte angehen könnte, um die Tests zu verbessern.

Um ein systematischeres Verständnis der Stärken und Schwächen der Modelle zu ermöglichen, könnte LMSYS Benchmark-Messungen um verschiedene Unterkategorien wie Lineare Algebra mit einem Satz von domänenspezifischen Aufgaben entwerfen, schlägt er vor. Das würde den Chatbot Arena-Ergebnissen viel mehr wissenschaftliches Gewicht verleihen, sagt er.

„Obwohl Chatbot Arena einen Einblick in die Benutzererfahrung bieten kann – wenn auch von einer kleinen und potenziell nicht repräsentativen Benutzerbasis - sollte es nicht als der definitive Maßstab für die Messung der Intelligenz eines Modells betrachtet werden“, sagte Lin. „Stattdessen sollte es eher als Werkzeug zur Bewertung der Benutzerzufriedenheit angesehen