Information Retrieval + – Seite 2

Vergleich der Chatbots Recherchefähigkeiten

Jan Eggers: Liebe KI, hilf mir recherchieren! KI-Chatbots können inzwischen richtig gut recherchieren — die Betonung liegt auf: können. Zum einen spielt immer noch der böse Zufall eine Rolle. Zum anderen muss man die Sprachmodelle erst einmal dazu bringen. Dafür haben viele Chatbots inzwischen einen Recherche-Modus: Ein kleiner Überblick. janeggers.tech 24.07.2025

Pubmed retten

Daniel Delhaes: Wenn Politik Forschungsdaten gefährdet. Verzweifelt versuchen Wissenschaftler, Forschungsdaten aus Amerika vor der Trump-Regierung zu schützen. Hierzulande warten sie vergeblich auf Hilfe – und gehen in ihrer Not ungewöhnliche Wege. Handelsblatt 07.07.2015
Die weltgrößte, englischsprachige Suchmaschine für medizinische Publikationen, Pubmed, „ist Teil des National Institute for Health (NIH), dessen Etat die Regierung von US-Präsident Donald Trump massiv gekürzt hat. Wer etwas über den aktuellen Forschungsstand zum Brustkrebs, Herzinfarkte oder andere biomedizinische Fragen wissen will, der sucht bei Pubmed. Die Sorge ist groß, dass die Daten nicht mehr sicher sind, dass sie womöglich zensiert oder mit Beiträgen gefüllt werden, die vielleicht Trumps, aber nicht mehr wissenschaftlichen Standards genügen. Es wäre das „Killer-Virus“ für die internationale Community. „Was ist mit Pubmed?“, fragen Wissenschaftler immer wieder sorgenvoll in Köln an.“
Die Deutsche Zentralbibliothek für Medizin (ZB Med) in Köln versucht, diese Datenbank zu retten. Mangels kurzfristiger Förderung wurde ein Antrag bei der Deutschen Forschungsgemeinschaft (DFG) gestellt.
„Albers will mit ihrem Team die Arbeitsgrundlage der international vernetzt arbeitenden Wissenschaftscommunity sichern. Entstehen soll keine reine Kopie von Pubmed, ZB Med will vielmehr eine offene, dezentral organisierte Alternative zu Pubmed schaffen. Die aktuellen Inhalte hat ZB Med bereits über sein Suchportal Livivo zugänglich gemacht. Künftig sollen auch neue medizinische Fachinformationen Eingang finden, und das System soll international dezentral arbeiten. „Politischer Einfluss wie in den USA kann in jedem Land stattfinden“, sagt Albers. Das Wissenschaftssystem soll resilient werden.“

Typen der Wikipedia-Nutzer

Dale Zhou, Shubhankar Patankar, David M. Lydon-Staley, Perry Zurn, Martin Gerlach, Dani S. Bassett: Architectural styles of curiosity in global Wikipedia mobile app readership, in: Science Advances 25.10.2024
Abstract: „Die intrinsisch motivierte Informationssuche ist ein Ausdruck der Neugier, die als zentraler Bestandteil der menschlichen Natur gilt. Die meisten Untersuchungen zur Neugier stützen sich jedoch auf kleine, westliche Stichproben. Hier analysieren wir eine naturalistische Population von 482.760 Lesern, die die mobile App von Wikipedia in 14 Sprachen aus 50 Ländern oder Territorien nutzen. Durch die Messung der Struktur von Wissensnetzwerken, die von Lesern aufgebaut werden, die einen Faden durch Wikipedia-Artikel spinnen, replizieren wir zwei Arten von Neugier, die zuvor in Laborstudien identifiziert wurden: den nomadischen „Wichtigtuer“ und den gezielten „Jäger“. Darüber hinaus finden wir Belege für einen weiteren Stil – den „Tänzer“ -, der zuvor durch eine historisch-philosophische Untersuchung von Texten über zwei Jahrtausende hinweg vorhergesagt wurde und durch kreative Formen der Wissensproduktion gekennzeichnet ist. Wir stellen weltweit Zusammenhänge zwischen der Struktur von Wissensnetzwerken und Indikatoren auf Bevölkerungsebene für räumliche Navigation, Bildung, Stimmung, Wohlbefinden und Ungleichheit fest.“

Retrieval Benchmark

Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu: BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
Abstract: „Bestehende Retrieval-Benchmarks bestehen in erster Linie aus informationssuchenden Abfragen (z.B. aggregierte Fragen von Suchmaschinen), bei denen ein Keyword- oder semantisch-basiertes Retrieval in der Regel ausreichend ist. Viele komplexe Abfragen in der Praxis erfordern jedoch eine gründliche Argumentation, um relevante Dokumente zu identifizieren, die über den Abgleich von Oberflächenformen hinausgehen. Um beispielsweise eine Dokumentation für eine Codierungsfrage zu finden, müssen Sie die Logik und Syntax der beteiligten Funktionen verstehen. Um das Retrieval bei solch anspruchsvollen Abfragen besser zu vergleichen, führen wir BRIGHT ein, den ersten Text-Retrieval-Benchmark, der intensives Denken erfordert, um relevante Dokumente abzurufen. Unser Datensatz besteht aus 1.384 realen Abfragen aus verschiedenen Bereichen wie Wirtschaft, Psychologie, Mathematik und Programmierung. Diese Abfragen basieren auf natürlich vorkommenden und sorgfältig kuratierten menschlichen Daten. Eine umfangreiche Evaluierung zeigt, dass selbst moderne Retrieval-Modelle auf BRIGHT schlecht abschneiden. Das führende Modell auf der MTEB-Bestenliste (Muennighoff et al., 2023) SFR-Embedding-Mistral (Meng et al., 2024), das eine Punktzahl von 59,0 nDCG@10,1 erreicht, erzeugt eine Punktzahl von nDCG@10 von 18,3 auf BRIGHT. Wir zeigen, dass die Einbeziehung expliziter Argumentation für die Abfrage die Abrufleistung um bis zu 12,2 Punkte verbessert. Darüber hinaus steigert die Einbeziehung von abgerufenen Dokumenten aus dem leistungsstärksten Retriever die Leistung bei der Beantwortung von Fragen. Wir glauben, dass BRIGHT den Weg für zukünftige Forschungen zu Rückholsystemen in realistischeren und anspruchsvolleren Umgebungen ebnet.“

Podcast „Besser recherchieren“

Besser rechieren mit Markus Lindemann. Einmal mit Profis arbeiten. Podcast-Folge 4 der Akademie für Publizistik Hamburg.

Literaturrecherche mit KI-Tools

Literaturrecherche mit KI-Tools. Informationsseite der Universitätsbibliothek Bielefeld

Browser Vivaldi mit VPN

Stephan Scheuer: Jon von Tetzchner. Europas Browser-Rebell sieht Trump positiv. Mit seinem Browser Vivaldi hat der Unternehmer eine europäische Alternative zu Google Chrome geschaffen. Verhilft die erratische US-Politik nun zum Durchbruch? Handelsblatt 16.4.2025 Papierausgabe

Tetzchner, vorher einer der Gründer des Browsers Opera, hat 2015 den Browser Vivaldi gestartet. Er grenzt sich ab von den datensammelnden Browser sowie von Firefox (aufgrund der Nähe zu Google), „Tatsächlich verzichtet Vivaldi auf Tracking und Werbung, finanziert sich durch Partnerschaften mit alternativen Suchmaschinen wie DuckDuckGo oder Ecosia und bietet umfangreiche Anpassungsmöglichkeiten.“ Allerdings basiert es auch auf Chromium. Vivaldi hat in seinen Desktop Browser den schweizerischen VPN-Dienst integriert. „Beide Unternehmen teilen eine klare Vision: ein freies Internet ohne Überwachung durch Big Tech.“

Investigativjournalismus

sulrich: Neuer GIJN Guide: Grundlagen des Investigativjournalismus. Im vergangenen Jahr hat unsere Partnerorganisation Global Investigative Journalism Network (GIJN) einen englischen Guide zu Grundlagen des Investigativjournalismus veröffentlicht. Wir haben diesen nun übersetzt. Für Einsteiger*innen, für Studierende und für alle, die ihr Wissen auffrischen wollen. Hier gehts zum gesamten Guide auf Deutsch. Netzwerk Recherche 13.03.2025

KI Literaturrecherche

Auf der Seite hochschuldidaktik-online von Dr. Ulrike Hanke werden auf Youtube mehrere Videos zu Recherchemöglichkeiten angeboten:
– Literaturrecherche mit dem Copilot
– Literaturrecherche mit Semantic Scholar
– Literaturrecherche mit Scispace
– Literaturrecherche mit researchrabbit

Information Retrieval Vorlesung

Ghislain Fourny, senior scientist in the Department of Computer Science at ETH Zurich, hat Folge von 30 Vorlesungen zu Information Retrieval gehalten: Ghislain Fourny’s lectures:
Introduction (1/2) – Information Retrieval – ETH Zurich – Spring 2024
Introduction (2/2) – Information Retrieval – ETH Zurich – Spring 2024
Boolean retrieval (1/2) – Information Retrieval – ETH Zurich – Spring 2024
Boolean retrieval (2/2) – Information Retrieval – ETH Zurich – Spring 2024
Term vocabulary (1/3) – Information Retrieval – ETH Zurich – Spring 2024
Term vocabulary (2/3) – Information Retrieval – ETH Zurich – Spring 2024
Term vocabulary (3/3) – Information Retrieval – ETH Zurich – Spring 2024
Tolerant retrieval (1/4) – Information Retrieval – ETH Zurich – Spring 2024
Tolerant retrieval (2/4) – Information Retrieval – ETH Zurich – Spring 2024
Tolerant retrieval (3/4) – Information Retrieval – ETH Zurich – Spring 2024
Tolerant retrieval (4/4) – Information Retrieval – ETH Zurich – Spring 2024
Index construction (1/3) – Information Retrieval – ETH Zurich – Spring 2024
Index construction (2/3) – Information Retrieval – ETH Zurich – Spring 2024
Index construction (3/3) – Information Retrieval – ETH Zurich – Spring 2024
Index compression (1/3) – Information Retrieval – ETH Zurich – Spring 2024
Index compression (2/3) – Information Retrieval – ETH Zurich – Spring 2024
Index compression (3/3) – Information Retrieval – ETH Zurich – Spring 2024
Vector space model (1/2) – Information Retrieval – ETH Zurich – Spring 2024
Vector space model (2/2) – Information Retrieval – ETH Zurich – Spring 2024
Vector databases (1/1) – Information Retrieval – ETH Zurich – Spring 2024
Evaluation (1/1) – Information Retrieval – ETH Zurich – Spring 2024
Probabilistic information retrieval (1/4) – Information Retrieval – ETH Zurich – Spring 2024
Probabilistic information retrieval (2/4) – Information Retrieval – ETH Zurich – Spring 2024
Probabilistic information retrieval (3/4) – Information Retrieval – ETH Zurich – Spring 2024
Probabilistic information retrieval (4/4) – Information Retrieval – ETH Zurich – Spring 2024
Language models (1/3) – Information Retrieval – ETH Zurich – Spring 2024
Language models (2/3) – Information Retrieval – ETH Zurich – Spring 2024
Language models (3/3) – Information Retrieval – ETH Zurich – Spring 2024
Wrap up (1/2) – Information Retrieval – ETH Zurich – Spring 2024
Wrap up (2/2) – Information Retrieval – ETH Zurich – Spring 2024

Buchseite 2 von 6

« Previous 1 2 3 4 … 6 Next »

Retrieval Dreams

Kategorie: Information Retrieval +