LLMs in der historischen Forschung

Holle Meding und Aurel Daugs: LLMs in den Geschichtswissenschaften: Potenziale, Grenzen und Anwendungsbeispiele (NER & RAG). L.I.S.A Wissenschaftsportal Gerda Henkel Stiftung 16.04.2026
Fünf zentrale Problemfelder beim Einsatz von LLMs in der historischen Forschung werden analysiert: „(1) Hallu­zi­na­tionen, bei denen Modelle Quellen, Zitate oder Behauptungen erfinden, die sich jedweder Plausibilität und Kausalität entziehen; (2) eine eingeschränkte Chrono­sensi­ti­vi­tät, da Sprach­modellen ein explizites Zeitverständnis fehlt; (3) Gegenwartsbias und Anglo­zen­tris­mus, bedingt durch die Dominanz anglophoner Internetquellen nach 2000 in den Trainingsdaten; (4) Human Alignment und Inhaltsmoderation, die dazu führen können, dass historisch relevante, aber politisch oder ethisch sensible Themen unterdrückt, ausgelassen oder auch verstärkt werden, beispielsweise infolge von RLHF (Reinforcement Learning from Human Feedback), versteckten System­prompts, Fine-Tuning oder regions­spezi­fischen Einschrän­kun­gen; sowie (5) Opazität, da kommerzielle LLMs nur begrenzt Einblick in ihre Trainings­daten oder Fine-Tuning-Verfahren gewähren.“
„Eine vertiefende Auseinandersetzung mit den hier vorgestellten Ansätzen erfolgt in drei begleitenden Beiträgen, von denen einer bereits publiziert ist, während zwei weitere im Mai 2026 erscheinen werden:
Meding/Daugs, On the Use and Limitations of Large Language Models in Historical Scholarship, in: Simons/Wütherich/Zichert/Graßhoff (Eds.): Understanding Science with Large Language Models?, (Transcript, Mai 2026)
Meding/Daugs, From RAGs to Rich Responses: Enhancing LLM Reliability through Retrieval-Augmented Generation, in: Simons/Wütherich/Zichert/Graßhoff (Eds.): Understanding Science with Large Language Models?, (Transcript, Mai 2026)
Meding, Holle. „Themenschwerpunkt: Daten, Digitalität und historisches Lernen. Geschichtskultur auf Social Media erforschen. Methoden, Werkzeuge und Herausforderungen der Datenanalyse.“ Zeitschrift für Geschichtsdidaktik 24.1 (2025): 50-68. https://doi.org/10.13109/zfgd.2025.24.1.50″

Test der LLMs (ChatGPT, Claude, Deepseek, Mistral, Gemini, Perplexity)

Daniel Koller: Ausprobiert: Wie nützlich sind ChatGPT, Deepseek und Co wirklich? Wie unterscheiden sich die unterschiedlichen LLMs eigentlich voneinander? Eine Übersicht mit Kurztest. Der Standard 23.02.2025
Es werden untersucht: ChatGPT, Claude, Deepseek, Mistral AI, Gemini, Perplexity.ai
„Wie eingangs erwähnt sind die Unterschiede zwischen den verfügbaren LLMs für den Standardnutzer kaum ersichtlich. Die verschiedenen Plattformen weisen geringe Differenzen auf und haben allesamt ihre Stärken und Schwächen. Das Potenzial, die heutige Arbeitswelt auf den Kopf zu stellen, ist durch ChatGPT und Co aber durchaus gegeben. Die LLMs sind allesamt praktische Helferlein, die als nützliche Werkzeuge bei verschiedensten Tätigkeiten eingestuft werden sollten. Sich gänzlich auf die Tools zu verlassen ist aber alles andere als ratsam. Noch machen die LLMs einfach zu viele Fehler und brauchen einen menschlichen Kontrolleur, der da und dort nachschärft und ausbessert. Noch.“