Test von Chatsbots
Computerwissenschaftler der Universität Berkeley haben eine Testanwendung für Chatbots entwickelt und im Anschluß die Firma LMArena gegründet. Inzwischen können über 400, auch teils normalerweise kostenpflichtige Chatbots parallel getestet werden.
Und so funktioniert es:
„Eine Frage stellen: Geben Sie Ihre Anregung oder Frage in die offene Arena ein. Die Daten werden erhoben, um faire, öffentliche Bewertungen zu ermöglichen.
Antworten vergleichen: Ihnen werden zwei anonyme Modelle angezeigt. Sehen Sie sich die Antworten genauer an und entscheiden Sie, welche Antwort am besten zu Ihren Anforderungen passt.
Wählen Sie die Besten: Wählen Sie Ihre bevorzugte Antwort. Ihre Stimme trägt zur Gestaltung der öffentlichen KI-Bestenlisten bei.
Entdecken und wiederholen: Nach der Abstimmung werden die Modellidentitäten bekannt gegeben. Erkunden Sie weiter und tragen Sie zur Verbesserung der KI in diesem offenen, von der Community betriebenen Raum bei.“
Marie-Astrid Langer: Ein Boxring für Chatbots: In der LM-Arena treten KI-Modelle gegeneinander an. Gemini, Claude, GPT – woher weiss man, welches KI-Modell das beste ist? Forscher der Universität Berkeley lassen Chatbots gegeneinander antreten. Selbst den Erfolg von Deepseek hatten sie so kommen sehen. Neue Zürcher Zeitung 28.06.2025 (hinter der Bezahlschranke)
„KI-Firmen begannen, den Wissenschftlern Prototypen neuer Modelle zuzusenden, und verbesserten mit den in der Arena gewonnenen Erkenntnissen ihre Algorithmen. Denn die erhobenen Daten bieten wertvolle Informationen dazu, wie Nutzer mit den Chatbots interagieren. Die Plattform teilt diese mit den KI-Firmen, zumindest teilweise. Rund 20 Prozent aller erhobenen Daten leite man weiter, sagen die Gründer: genug, dass die Informationen nützlich für leichte Verbesserungen seien, aber zu wenig, als dass die Firman das Tanking-System austricksen können.“