Wikipedia: Ein Drittel der Artikel problematisch

Valentin Bauer, Patrick Bernau, Christopher Herstell, Jacob Kramer: Wikipedia weiß immer weniger. Der Enzyklopädie fehlen Autoren. Jetzt zeigt eine F.A.S.-Untersuchung: Mindestens jeder dritte Artikel hat ein Problem. Frankfurter Allgemeine Zeitung 05.07.2025
„Und was ist eigentlich mit den Artikeln, denen der Leser ihre Aktualität nicht direkt ansieht? Die F.A.S. hat das nun systematisch untersucht. Mehr als 1000 Wikipedia-Artikel haben wir zufällig aus­gewählt. Künstliche Intelligenz hat die Texte auf Auffälligkeiten geprüft, dann hat ein Team von Dokumentaren des F.A.Z.-Archivs diese Auffälligkeiten noch einmal unter die Lupe genommen. Erst wenn zwei Menschen überzeugt waren, dass eine Information nicht mehr stimmt, haben wir sie auf die Liste genommen.
Dabei stellte sich heraus: Probleme gibt es auf mehr als jeder dritten Seite. Mindestens 20 Prozent der Seiten enthalten Informationen, die nicht mehr aktuell sind, und nur bei der Hälfte fällt es sofort auf. Dazu kommen fast noch einmal so viele Seiten mit Angaben, die noch nie gestimmt haben.“

Texterstellung mit KI richtig nutzen

Stella-Sophie Wojtczak: Schadet KI unserer Sprache? Eine Sprach-Expertin gibt Tipps zur richtigen Nutzung. Verdirbt KI unsere Sprache? Das muss nicht sein. Die Sprachberaterin Anne-Kathrin Gerstlauer gibt in der neuen Folge von t3n Interview Tipps, mit denen Nutzer:innen ihre Sprachkenntnisse sogar noch verbessern können. t3n 29.06.1952
Die Journalistin und Sprachberaterin empfiehlt, den richtigen Chatsbot auszuwählen (für Texte besonders geeignet: Claude, weniger ChatGPT oder Copilot). Zunächst sollte der Chatbot mit vier fünf Beispieltexten traniert werden. Außerdem sollten grundlegende Sprachregeln befolgt werden:
– Kurze Sätze
– Füllwörter streichen
– aktiv schreiben
– Nominalstil vermeiden

Test von Chatsbots

Computerwissenschaftler der Universität Berkeley haben eine Testanwendung für Chatbots entwickelt und im Anschluß die Firma LMArena gegründet. Inzwischen können über 400, auch teils normalerweise kostenpflichtige Chatbots parallel getestet werden.
Und so funktioniert es:
„Eine Frage stellen: Geben Sie Ihre Anregung oder Frage in die offene Arena ein. Die Daten werden erhoben, um faire, öffentliche Bewertungen zu ermöglichen.
Antworten vergleichen: Ihnen werden zwei anonyme Modelle angezeigt. Sehen Sie sich die Antworten genauer an und entscheiden Sie, welche Antwort am besten zu Ihren Anforderungen passt.
Wählen Sie die Besten: Wählen Sie Ihre bevorzugte Antwort. Ihre Stimme trägt zur Gestaltung der öffentlichen KI-Bestenlisten bei.
Entdecken und wiederholen: Nach der Abstimmung werden die Modellidentitäten bekannt gegeben. Erkunden Sie weiter und tragen Sie zur Verbesserung der KI in diesem offenen, von der Community betriebenen Raum bei.“

Marie-Astrid Langer: Ein Boxring für Chatbots: In der LM-Arena treten KI-Modelle gegeneinander an. Gemini, Claude, GPT – woher weiss man, welches KI-Modell das beste ist? Forscher der Universität Berkeley lassen Chatbots gegeneinander antreten. Selbst den Erfolg von Deepseek hatten sie so kommen sehen. Neue Zürcher Zeitung 28.06.2025 (hinter der Bezahlschranke)
„KI-Firmen begannen, den Wissenschftlern Prototypen neuer Modelle zuzusenden, und verbesserten mit den in der Arena gewonnenen Erkenntnissen ihre Algorithmen. Denn die erhobenen Daten bieten wertvolle Informationen dazu, wie Nutzer mit den Chatbots interagieren. Die Plattform teilt diese mit den KI-Firmen, zumindest teilweise. Rund 20 Prozent aller erhobenen Daten leite man weiter, sagen die Gründer: genug, dass die Informationen nützlich für leichte Verbesserungen seien, aber zu wenig, als dass die Firman das Tanking-System austricksen können.“

Typen der Wikipedia-Nutzer

Dale Zhou, Shubhankar Patankar, David M. Lydon-Staley, Perry Zurn, Martin Gerlach, Dani S. Bassett: Architectural styles of curiosity in global Wikipedia mobile app readership, in: Science Advances 25.10.2024
Abstract: „Die intrinsisch motivierte Informationssuche ist ein Ausdruck der Neugier, die als zentraler Bestandteil der menschlichen Natur gilt. Die meisten Untersuchungen zur Neugier stützen sich jedoch auf kleine, westliche Stichproben. Hier analysieren wir eine naturalistische Population von 482.760 Lesern, die die mobile App von Wikipedia in 14 Sprachen aus 50 Ländern oder Territorien nutzen. Durch die Messung der Struktur von Wissensnetzwerken, die von Lesern aufgebaut werden, die einen Faden durch Wikipedia-Artikel spinnen, replizieren wir zwei Arten von Neugier, die zuvor in Laborstudien identifiziert wurden: den nomadischen „Wichtigtuer“ und den gezielten „Jäger“. Darüber hinaus finden wir Belege für einen weiteren Stil – den „Tänzer“ -, der zuvor durch eine historisch-philosophische Untersuchung von Texten über zwei Jahrtausende hinweg vorhergesagt wurde und durch kreative Formen der Wissensproduktion gekennzeichnet ist. Wir stellen weltweit Zusammenhänge zwischen der Struktur von Wissensnetzwerken und Indikatoren auf Bevölkerungsebene für räumliche Navigation, Bildung, Stimmung, Wohlbefinden und Ungleichheit fest.“

Holocaust als Meme

Bildungsstätte Anne Frank. Der Holocaust als Meme: Wie in digitalen Räumen Geschichte umgedeutet wird. Mai 2025
Abstract: „In unserem Report „Der Holocaust als Meme“ stellen wir einige Beispiele geschichtsrevisionistischer Inhalte in digitalen Medien vor, die in unseren Augen eine breitere Öffentlichkeit brauchen – sei es, weil sie besonders große Reichweiten erzielen, besonders subtilen Strategien folgen oder zu schon bedenklich normalisierten Formen alternativhistorischer Erzählungen gehören. Die aufgeführten Beispiele und Analysen dienen dazu, zentrale Beobachtungen, wiederkehrende Muster und exemplarische Phänomene im Umgang mit Geschichte in digitalen Räumen zu veranschaulichen.
Ein besonderer Fokus liegt auf den Plattformen Instagram und TikTok, da sie zu den reichweitenstärksten und einflussreichsten Social-Media-Kanälen unter Jugendlichen und jungen Erwachsenen zählen. Neben sozialen Medien beziehen wir uns auch auf digitale Spiele mit historischem Setting.“

Test Chatbots

Karen Okamoto (John Jay College of Criminal Justice): A Battle of the Chatbots: An Exploratory Comparison of ChatGPT, Gemini, Copilot, Claude, Perplexity and HuggingChat, in: Practical Academic Librarianship: The International Journal of the SLA Academic Division Vol. 15 No. 1 (2025)
Abstract: „Diese explorative Studie vergleicht die Ergebnisse der kostenlosen Versionen von sechs generativen Chatbots mit künstlicher Intelligenz
– ChatGPT, Gemini, Copilot, Claude, Perplexity und HuggingChat. Fünf Fragen wurden an alle Chatbots geschickt und auf Länge, Korrektheit und Tonfall der Antwort sowie auf zusätzliche Funktionen der Chatbots wie Zitate, Weblinks und hilfreiche Folgefragen hin untersucht.
Dieser Vergleich ergab, dass kein einziger Chatbot bei der Beantwortung aller Fragen herausragte, obwohl einige gute Antworten lieferten, was darauf hinweist, dass es möglicherweise wichtig ist, sich nicht nur auf einen Chatbot zu verlassen, um Antworten zu erhalten, und dass verschiedene Chatbots kontinuierlich untersucht, da sich der Bereich der generativen KI schnell entwickelt und fortentwickelt.“

KI in Bibliotheken

Carina Pizzini: Einsatzgebiete von Künstlicher Intelligenz in wissenschaftlichen Bibliotheken – Praxis und Perspektiven. Bachelorarbeit 2025
Abstract: „Künstliche Intelligenz ist ein aktuelles Thema und aus vielen Bereichen des Lebens nicht mehr wegzudenken. Da KI mittlerweile neben vielen anderen Disziplinen auch die Wissenschaft und den Hochschulalltag beeinflusst, setzen sich auch wissenschaftliche Bibliotheken zunehmend mit der Thematik auseinander. Um Forschende, Studierende und Lehrende hinsichtlich dieser Entwicklung zu unterstützen, müssen sich Bibliotheken an den Wandel anpassen und Angebote schaffen, um ihnen die nötigen Informationen zum Umgang und Einsatz KI-gestützter Werkzeuge in Forschung und Lehre zu vermitteln. Und auch im bibliothekarischen Alltag bieten KI-Tools das Potential, Prozesse und Dienstleistungen zu optimieren. In dieser Arbeit wird exemplarisch aufgezeigt, inwiefern wissenschaftliche Bibliotheken Künstliche Intelligenz bereits in ihren Arbeitsalltag integriert haben und nutzen, ob sie eigene Forschung zu dem Thema betreiben und welche Angebote sie zur Informationsvermittlung entwickelt haben. Dies geschieht anhand einer Literaturanalyse, in der fünf wissenschaftliche Bibliotheken basierend auf festgelegten Kriterien hinsichtlich ihres Engagements bezüglich KI untersucht werden. Ergänzend werden im Anschluss Chancen und Herausforderungen rund um den Einsatz von KI-Technologien in wissenschaftlichen Bibliotheken herausgearbeitet und die Auswirkungen auf die Rolle von Bibliothekar*innen erläutert. Abschließend werden die Ergebnisse zusammengefasst und ein Ausblick auf die mögliche zukünftige Entwicklung gegeben.“

Retrieval Benchmark

Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu: BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
Abstract: „Bestehende Retrieval-Benchmarks bestehen in erster Linie aus informationssuchenden Abfragen (z.B. aggregierte Fragen von Suchmaschinen), bei denen ein Keyword- oder semantisch-basiertes Retrieval in der Regel ausreichend ist. Viele komplexe Abfragen in der Praxis erfordern jedoch eine gründliche Argumentation, um relevante Dokumente zu identifizieren, die über den Abgleich von Oberflächenformen hinausgehen. Um beispielsweise eine Dokumentation für eine Codierungsfrage zu finden, müssen Sie die Logik und Syntax der beteiligten Funktionen verstehen. Um das Retrieval bei solch anspruchsvollen Abfragen besser zu vergleichen, führen wir BRIGHT ein, den ersten Text-Retrieval-Benchmark, der intensives Denken erfordert, um relevante Dokumente abzurufen. Unser Datensatz besteht aus 1.384 realen Abfragen aus verschiedenen Bereichen wie Wirtschaft, Psychologie, Mathematik und Programmierung. Diese Abfragen basieren auf natürlich vorkommenden und sorgfältig kuratierten menschlichen Daten. Eine umfangreiche Evaluierung zeigt, dass selbst moderne Retrieval-Modelle auf BRIGHT schlecht abschneiden. Das führende Modell auf der MTEB-Bestenliste (Muennighoff et al., 2023) SFR-Embedding-Mistral (Meng et al., 2024), das eine Punktzahl von 59,0 nDCG@10,1 erreicht, erzeugt eine Punktzahl von nDCG@10 von 18,3 auf BRIGHT. Wir zeigen, dass die Einbeziehung expliziter Argumentation für die Abfrage die Abrufleistung um bis zu 12,2 Punkte verbessert. Darüber hinaus steigert die Einbeziehung von abgerufenen Dokumenten aus dem leistungsstärksten Retriever die Leistung bei der Beantwortung von Fragen. Wir glauben, dass BRIGHT den Weg für zukünftige Forschungen zu Rückholsystemen in realistischeren und anspruchsvolleren Umgebungen ebnet.“

Buchseite 6 von 44
1 4 5 6 7 8 44