Large Language Models for Information Retrieval

Timo Breuer, Sameh Frihat, Norbert Fuhr, Dirk Lewandowski, Philipp Schaer, Ralf Schenkel: Large Language Models for Information Retrieval: Challenges and Chances. Datenbank-Spektrum 11.09.2025
Abstract:
„The rapid advancement of Large Language Models (LLMs) has introduced a paradigm shift in Information Retrieval (IR), moving beyond conventional keyword queries and ranked result lists. LLMs now play a critical role in the evolution of IR technologies and introduce new interaction forms like Retrieval-Augmented Generation, which is a more dynamic and interactive retrieval process that integrates various aspects of Information Access, like Question Answering, into the dialog between a searcher and the search engine. We explore the multi-faceted impact of LLMs on IR, particularly in three distinct layers where they have become an integral part of the retrieval process, namely the retrieval system and processing pipeline that can make use of a richer semantic representation using advanced language models, the interaction layer, and the broader IR ecosystem. For the latter, we focus on evaluation issues as well as bias, fairness, and ethical concerns. We also highlight some recent cases of using LLMs in the medical domain to demonstrate the impact on one specific domain.“

KI-Chatbots als Suchsysteme, Suchmaschinen als KI-Bots?

Lewandowski, Dirk: KI-Chatbots als Suchsysteme, Suchmaschinen als KI-Bots? Veränderungen, Begriffe und die Rolle des Datenbestands. Veränderungen, Begriffe und die Rolle des Datenbestands. In: M. Eibl (Hrsg.): Datenströme und Kulturoasen — Die Informationswissenschaft als Bindeglied zwischen den Informationswelten. Proceedings des 18. Internationalen Symposiums für Informationswissenschaft (ISI 2025), Chemnitz, Deutschland, 18.—20. März 2025. Glückstadt: Verlag Werner Hülsbusch, S. 150—167
Abstract
„Der Beitrag untersucht die Auswirkungen großer Sprachmodelle (LLMs) und KI-Chatbots wie ChatGPT auf die Informationssuche und auf Suchsysteme. Im Zentrum steht die These, dass die Integration von KI-Chatbots und Suchmaschinen neue, hybride Suchsysteme hervorbringt, die sowohl Informationen vermitteln als auch eigenständig generieren. Dabei werden technologische Entwicklungen, wie die Generierung von Informationsobjekten „on the fly“ und die Einbindung von Retrieval-Augmented Generation (RAG), als zentrale Innovationen beschrieben. Diese Veränderungen werfen Fragen zur Verlässlichkeit und Wahrheit von Informationen auf. Die Rolle des Datenbestands in Suchsystemen wird neu bewertet, da KI-Modelle qualitativ hochwertige Trainingsdaten benötigen, um Verzerrungen und Manipulationen zu vermeiden. Der Beitrag diskutiert, wie eine stärkere Kuratierung der Datenbestände zur Sicherung der Informationsqualität beitragen kann. Darüber hinaus wird argumentiert, dass bestehende Definitionen von Suchsystemen und Informationsobjekten angepasst werden müssen, um die Fähigkeiten von KI-Chatbots adäquat zu erfassen. Die Analyse zeigt, dass diese Entwicklungen Implikationen für die Informationswissenschaft haben, insbesondere für die Vermittlung von Informationskompetenz, die professionelle Informationsrecherche und das Informationsverhalten. Es wird betont, dass Informations- und Bibliothekswissenschaftler*innen durch ihre Expertise in der Bewertung und Vermittlung von Wissen gut auf die Herausforderungen generativer KI vorbereitet sind. Abschließend wird die Notwendigkeit einer breiten Debatte zur Rolle von KI-Systemen in der Informationssuche betont.“

Pubmed retten

Daniel Delhaes: Wenn Politik Forschungsdaten gefährdet. Verzweifelt versuchen Wissenschaftler, Forschungsdaten aus Amerika vor der Trump-Regierung zu schützen. Hierzulande warten sie vergeblich auf Hilfe – und gehen in ihrer Not ungewöhnliche Wege. Handelsblatt 07.07.2015
Die weltgrößte, englischsprachige Suchmaschine für medizinische Publikationen, Pubmed, „ist Teil des National Institute for Health (NIH), dessen Etat die Regierung von US-Präsident Donald Trump massiv gekürzt hat. Wer etwas über den aktuellen Forschungsstand zum Brustkrebs, Herzinfarkte oder andere biomedizinische Fragen wissen will, der sucht bei Pubmed. Die Sorge ist groß, dass die Daten nicht mehr sicher sind, dass sie womöglich zensiert oder mit Beiträgen gefüllt werden, die vielleicht Trumps, aber nicht mehr wissenschaftlichen Standards genügen. Es wäre das „Killer-Virus“ für die internationale Community. „Was ist mit Pubmed?“, fragen Wissenschaftler immer wieder sorgenvoll in Köln an.“
Die Deutsche Zentralbibliothek für Medizin (ZB Med) in Köln versucht, diese Datenbank zu retten. Mangels kurzfristiger Förderung wurde ein Antrag bei der Deutschen Forschungsgemeinschaft (DFG) gestellt.
„Albers will mit ihrem Team die Arbeitsgrundlage der international vernetzt arbeitenden Wissenschaftscommunity sichern. Entstehen soll keine reine Kopie von Pubmed, ZB Med will vielmehr eine offene, dezentral organisierte Alternative zu Pubmed schaffen. Die aktuellen Inhalte hat ZB Med bereits über sein Suchportal Livivo zugänglich gemacht. Künftig sollen auch neue medizinische Fachinformationen Eingang finden, und das System soll international dezentral arbeiten. „Politischer Einfluss wie in den USA kann in jedem Land stattfinden“, sagt Albers. Das Wissenschaftssystem soll resilient werden.“

Typen der Wikipedia-Nutzer

Dale Zhou, Shubhankar Patankar, David M. Lydon-Staley, Perry Zurn, Martin Gerlach, Dani S. Bassett: Architectural styles of curiosity in global Wikipedia mobile app readership, in: Science Advances 25.10.2024
Abstract: „Die intrinsisch motivierte Informationssuche ist ein Ausdruck der Neugier, die als zentraler Bestandteil der menschlichen Natur gilt. Die meisten Untersuchungen zur Neugier stützen sich jedoch auf kleine, westliche Stichproben. Hier analysieren wir eine naturalistische Population von 482.760 Lesern, die die mobile App von Wikipedia in 14 Sprachen aus 50 Ländern oder Territorien nutzen. Durch die Messung der Struktur von Wissensnetzwerken, die von Lesern aufgebaut werden, die einen Faden durch Wikipedia-Artikel spinnen, replizieren wir zwei Arten von Neugier, die zuvor in Laborstudien identifiziert wurden: den nomadischen „Wichtigtuer“ und den gezielten „Jäger“. Darüber hinaus finden wir Belege für einen weiteren Stil – den „Tänzer“ -, der zuvor durch eine historisch-philosophische Untersuchung von Texten über zwei Jahrtausende hinweg vorhergesagt wurde und durch kreative Formen der Wissensproduktion gekennzeichnet ist. Wir stellen weltweit Zusammenhänge zwischen der Struktur von Wissensnetzwerken und Indikatoren auf Bevölkerungsebene für räumliche Navigation, Bildung, Stimmung, Wohlbefinden und Ungleichheit fest.“

Retrieval Benchmark

Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu: BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
Abstract: „Bestehende Retrieval-Benchmarks bestehen in erster Linie aus informationssuchenden Abfragen (z.B. aggregierte Fragen von Suchmaschinen), bei denen ein Keyword- oder semantisch-basiertes Retrieval in der Regel ausreichend ist. Viele komplexe Abfragen in der Praxis erfordern jedoch eine gründliche Argumentation, um relevante Dokumente zu identifizieren, die über den Abgleich von Oberflächenformen hinausgehen. Um beispielsweise eine Dokumentation für eine Codierungsfrage zu finden, müssen Sie die Logik und Syntax der beteiligten Funktionen verstehen. Um das Retrieval bei solch anspruchsvollen Abfragen besser zu vergleichen, führen wir BRIGHT ein, den ersten Text-Retrieval-Benchmark, der intensives Denken erfordert, um relevante Dokumente abzurufen. Unser Datensatz besteht aus 1.384 realen Abfragen aus verschiedenen Bereichen wie Wirtschaft, Psychologie, Mathematik und Programmierung. Diese Abfragen basieren auf natürlich vorkommenden und sorgfältig kuratierten menschlichen Daten. Eine umfangreiche Evaluierung zeigt, dass selbst moderne Retrieval-Modelle auf BRIGHT schlecht abschneiden. Das führende Modell auf der MTEB-Bestenliste (Muennighoff et al., 2023) SFR-Embedding-Mistral (Meng et al., 2024), das eine Punktzahl von 59,0 nDCG@10,1 erreicht, erzeugt eine Punktzahl von nDCG@10 von 18,3 auf BRIGHT. Wir zeigen, dass die Einbeziehung expliziter Argumentation für die Abfrage die Abrufleistung um bis zu 12,2 Punkte verbessert. Darüber hinaus steigert die Einbeziehung von abgerufenen Dokumenten aus dem leistungsstärksten Retriever die Leistung bei der Beantwortung von Fragen. Wir glauben, dass BRIGHT den Weg für zukünftige Forschungen zu Rückholsystemen in realistischeren und anspruchsvolleren Umgebungen ebnet.“

Buchseite 1 von 5
1 2 3 5