Test von Chatsbots

Computerwissenschaftler der Universität Berkeley haben eine Testanwendung für Chatbots entwickelt und im Anschluß die Firma LMArena gegründet. Inzwischen können über 400, auch teils normalerweise kostenpflichtige Chatbots parallel getestet werden.
Und so funktioniert es:
„Eine Frage stellen: Geben Sie Ihre Anregung oder Frage in die offene Arena ein. Die Daten werden erhoben, um faire, öffentliche Bewertungen zu ermöglichen.
Antworten vergleichen: Ihnen werden zwei anonyme Modelle angezeigt. Sehen Sie sich die Antworten genauer an und entscheiden Sie, welche Antwort am besten zu Ihren Anforderungen passt.
Wählen Sie die Besten: Wählen Sie Ihre bevorzugte Antwort. Ihre Stimme trägt zur Gestaltung der öffentlichen KI-Bestenlisten bei.
Entdecken und wiederholen: Nach der Abstimmung werden die Modellidentitäten bekannt gegeben. Erkunden Sie weiter und tragen Sie zur Verbesserung der KI in diesem offenen, von der Community betriebenen Raum bei.“

Marie-Astrid Langer: Ein Boxring für Chatbots: In der LM-Arena treten KI-Modelle gegeneinander an. Gemini, Claude, GPT – woher weiss man, welches KI-Modell das beste ist? Forscher der Universität Berkeley lassen Chatbots gegeneinander antreten. Selbst den Erfolg von Deepseek hatten sie so kommen sehen. Neue Zürcher Zeitung 28.06.2025 (hinter der Bezahlschranke)
„KI-Firmen begannen, den Wissenschftlern Prototypen neuer Modelle zuzusenden, und verbesserten mit den in der Arena gewonnenen Erkenntnissen ihre Algorithmen. Denn die erhobenen Daten bieten wertvolle Informationen dazu, wie Nutzer mit den Chatbots interagieren. Die Plattform teilt diese mit den KI-Firmen, zumindest teilweise. Rund 20 Prozent aller erhobenen Daten leite man weiter, sagen die Gründer: genug, dass die Informationen nützlich für leichte Verbesserungen seien, aber zu wenig, als dass die Firman das Tanking-System austricksen können.“

Typen der Wikipedia-Nutzer

Dale Zhou, Shubhankar Patankar, David M. Lydon-Staley, Perry Zurn, Martin Gerlach, Dani S. Bassett: Architectural styles of curiosity in global Wikipedia mobile app readership, in: Science Advances 25.10.2024
Abstract: „Die intrinsisch motivierte Informationssuche ist ein Ausdruck der Neugier, die als zentraler Bestandteil der menschlichen Natur gilt. Die meisten Untersuchungen zur Neugier stützen sich jedoch auf kleine, westliche Stichproben. Hier analysieren wir eine naturalistische Population von 482.760 Lesern, die die mobile App von Wikipedia in 14 Sprachen aus 50 Ländern oder Territorien nutzen. Durch die Messung der Struktur von Wissensnetzwerken, die von Lesern aufgebaut werden, die einen Faden durch Wikipedia-Artikel spinnen, replizieren wir zwei Arten von Neugier, die zuvor in Laborstudien identifiziert wurden: den nomadischen „Wichtigtuer“ und den gezielten „Jäger“. Darüber hinaus finden wir Belege für einen weiteren Stil – den „Tänzer“ -, der zuvor durch eine historisch-philosophische Untersuchung von Texten über zwei Jahrtausende hinweg vorhergesagt wurde und durch kreative Formen der Wissensproduktion gekennzeichnet ist. Wir stellen weltweit Zusammenhänge zwischen der Struktur von Wissensnetzwerken und Indikatoren auf Bevölkerungsebene für räumliche Navigation, Bildung, Stimmung, Wohlbefinden und Ungleichheit fest.“

Holocaust als Meme

Bildungsstätte Anne Frank. Der Holocaust als Meme: Wie in digitalen Räumen Geschichte umgedeutet wird. Mai 2025
Abstract: „In unserem Report „Der Holocaust als Meme“ stellen wir einige Beispiele geschichtsrevisionistischer Inhalte in digitalen Medien vor, die in unseren Augen eine breitere Öffentlichkeit brauchen – sei es, weil sie besonders große Reichweiten erzielen, besonders subtilen Strategien folgen oder zu schon bedenklich normalisierten Formen alternativhistorischer Erzählungen gehören. Die aufgeführten Beispiele und Analysen dienen dazu, zentrale Beobachtungen, wiederkehrende Muster und exemplarische Phänomene im Umgang mit Geschichte in digitalen Räumen zu veranschaulichen.
Ein besonderer Fokus liegt auf den Plattformen Instagram und TikTok, da sie zu den reichweitenstärksten und einflussreichsten Social-Media-Kanälen unter Jugendlichen und jungen Erwachsenen zählen. Neben sozialen Medien beziehen wir uns auch auf digitale Spiele mit historischem Setting.“

Test Chatbots

Karen Okamoto (John Jay College of Criminal Justice): A Battle of the Chatbots: An Exploratory Comparison of ChatGPT, Gemini, Copilot, Claude, Perplexity and HuggingChat, in: Practical Academic Librarianship: The International Journal of the SLA Academic Division Vol. 15 No. 1 (2025)
Abstract: „Diese explorative Studie vergleicht die Ergebnisse der kostenlosen Versionen von sechs generativen Chatbots mit künstlicher Intelligenz
– ChatGPT, Gemini, Copilot, Claude, Perplexity und HuggingChat. Fünf Fragen wurden an alle Chatbots geschickt und auf Länge, Korrektheit und Tonfall der Antwort sowie auf zusätzliche Funktionen der Chatbots wie Zitate, Weblinks und hilfreiche Folgefragen hin untersucht.
Dieser Vergleich ergab, dass kein einziger Chatbot bei der Beantwortung aller Fragen herausragte, obwohl einige gute Antworten lieferten, was darauf hinweist, dass es möglicherweise wichtig ist, sich nicht nur auf einen Chatbot zu verlassen, um Antworten zu erhalten, und dass verschiedene Chatbots kontinuierlich untersucht, da sich der Bereich der generativen KI schnell entwickelt und fortentwickelt.“

KI in Bibliotheken

Carina Pizzini: Einsatzgebiete von Künstlicher Intelligenz in wissenschaftlichen Bibliotheken – Praxis und Perspektiven. Bachelorarbeit 2025
Abstract: „Künstliche Intelligenz ist ein aktuelles Thema und aus vielen Bereichen des Lebens nicht mehr wegzudenken. Da KI mittlerweile neben vielen anderen Disziplinen auch die Wissenschaft und den Hochschulalltag beeinflusst, setzen sich auch wissenschaftliche Bibliotheken zunehmend mit der Thematik auseinander. Um Forschende, Studierende und Lehrende hinsichtlich dieser Entwicklung zu unterstützen, müssen sich Bibliotheken an den Wandel anpassen und Angebote schaffen, um ihnen die nötigen Informationen zum Umgang und Einsatz KI-gestützter Werkzeuge in Forschung und Lehre zu vermitteln. Und auch im bibliothekarischen Alltag bieten KI-Tools das Potential, Prozesse und Dienstleistungen zu optimieren. In dieser Arbeit wird exemplarisch aufgezeigt, inwiefern wissenschaftliche Bibliotheken Künstliche Intelligenz bereits in ihren Arbeitsalltag integriert haben und nutzen, ob sie eigene Forschung zu dem Thema betreiben und welche Angebote sie zur Informationsvermittlung entwickelt haben. Dies geschieht anhand einer Literaturanalyse, in der fünf wissenschaftliche Bibliotheken basierend auf festgelegten Kriterien hinsichtlich ihres Engagements bezüglich KI untersucht werden. Ergänzend werden im Anschluss Chancen und Herausforderungen rund um den Einsatz von KI-Technologien in wissenschaftlichen Bibliotheken herausgearbeitet und die Auswirkungen auf die Rolle von Bibliothekar*innen erläutert. Abschließend werden die Ergebnisse zusammengefasst und ein Ausblick auf die mögliche zukünftige Entwicklung gegeben.“

Retrieval Benchmark

Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu: BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
Abstract: „Bestehende Retrieval-Benchmarks bestehen in erster Linie aus informationssuchenden Abfragen (z.B. aggregierte Fragen von Suchmaschinen), bei denen ein Keyword- oder semantisch-basiertes Retrieval in der Regel ausreichend ist. Viele komplexe Abfragen in der Praxis erfordern jedoch eine gründliche Argumentation, um relevante Dokumente zu identifizieren, die über den Abgleich von Oberflächenformen hinausgehen. Um beispielsweise eine Dokumentation für eine Codierungsfrage zu finden, müssen Sie die Logik und Syntax der beteiligten Funktionen verstehen. Um das Retrieval bei solch anspruchsvollen Abfragen besser zu vergleichen, führen wir BRIGHT ein, den ersten Text-Retrieval-Benchmark, der intensives Denken erfordert, um relevante Dokumente abzurufen. Unser Datensatz besteht aus 1.384 realen Abfragen aus verschiedenen Bereichen wie Wirtschaft, Psychologie, Mathematik und Programmierung. Diese Abfragen basieren auf natürlich vorkommenden und sorgfältig kuratierten menschlichen Daten. Eine umfangreiche Evaluierung zeigt, dass selbst moderne Retrieval-Modelle auf BRIGHT schlecht abschneiden. Das führende Modell auf der MTEB-Bestenliste (Muennighoff et al., 2023) SFR-Embedding-Mistral (Meng et al., 2024), das eine Punktzahl von 59,0 nDCG@10,1 erreicht, erzeugt eine Punktzahl von nDCG@10 von 18,3 auf BRIGHT. Wir zeigen, dass die Einbeziehung expliziter Argumentation für die Abfrage die Abrufleistung um bis zu 12,2 Punkte verbessert. Darüber hinaus steigert die Einbeziehung von abgerufenen Dokumenten aus dem leistungsstärksten Retriever die Leistung bei der Beantwortung von Fragen. Wir glauben, dass BRIGHT den Weg für zukünftige Forschungen zu Rückholsystemen in realistischeren und anspruchsvolleren Umgebungen ebnet.“

KI Suchmaschine für wissenschaftliche Publikationen

Consensus ist eine KI-Suchmaschine für wissenschaftliche Publikationen
„Consensus is an AI-powered search engine for scientific research papers. Our mission is to make the world’s best knowledge more accessible for all. To create new knowledge, you must first understand what’s already known. But humanity’s hard-won insights are locked inside millions of research papers. Navigating this maze is overwhelming for researchers and purely out of reach for anyone outside academia. We’re building the best way to search, synthesize, and understand scientific knowledge— so researchers can get back to science, not searches, and everyone can access evidence, not opinion. We want to see a world with superhuman researchers, and a generation of citizen scientists. This is the world we’re creating with Consensus.“

Webscraping mit KI

Browse AI automatisiert das Webscraping und das Sammeln von Daten. „Unsere Scraping-API verarbeitet Browser, Proxies, CAPTCHAs und HTML-Parsing auf unserer Seite. Geben Sie uns einfach eine URL und erhalten Sie das HTML, Text oder Daten.“ Die kostenlose Probeversion enthält 2000 API-Gutschriften pro Monat (maximal 2 gleichzeitige Verbindungen).

Buchseite 1 von 2
1 2