Information Retrieval + – Retrieval Dreams

Typen der Wikipedia-Nutzer

Dale Zhou, Shubhankar Patankar, David M. Lydon-Staley, Perry Zurn, Martin Gerlach, Dani S. Bassett: Architectural styles of curiosity in global Wikipedia mobile app readership, in: Science Advances 25.10.2024
Abstract: „Die intrinsisch motivierte Informationssuche ist ein Ausdruck der Neugier, die als zentraler Bestandteil der menschlichen Natur gilt. Die meisten Untersuchungen zur Neugier stützen sich jedoch auf kleine, westliche Stichproben. Hier analysieren wir eine naturalistische Population von 482.760 Lesern, die die mobile App von Wikipedia in 14 Sprachen aus 50 Ländern oder Territorien nutzen. Durch die Messung der Struktur von Wissensnetzwerken, die von Lesern aufgebaut werden, die einen Faden durch Wikipedia-Artikel spinnen, replizieren wir zwei Arten von Neugier, die zuvor in Laborstudien identifiziert wurden: den nomadischen „Wichtigtuer“ und den gezielten „Jäger“. Darüber hinaus finden wir Belege für einen weiteren Stil – den „Tänzer“ -, der zuvor durch eine historisch-philosophische Untersuchung von Texten über zwei Jahrtausende hinweg vorhergesagt wurde und durch kreative Formen der Wissensproduktion gekennzeichnet ist. Wir stellen weltweit Zusammenhänge zwischen der Struktur von Wissensnetzwerken und Indikatoren auf Bevölkerungsebene für räumliche Navigation, Bildung, Stimmung, Wohlbefinden und Ungleichheit fest.“

Retrieval Benchmark

Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu: BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval
Abstract: „Bestehende Retrieval-Benchmarks bestehen in erster Linie aus informationssuchenden Abfragen (z.B. aggregierte Fragen von Suchmaschinen), bei denen ein Keyword- oder semantisch-basiertes Retrieval in der Regel ausreichend ist. Viele komplexe Abfragen in der Praxis erfordern jedoch eine gründliche Argumentation, um relevante Dokumente zu identifizieren, die über den Abgleich von Oberflächenformen hinausgehen. Um beispielsweise eine Dokumentation für eine Codierungsfrage zu finden, müssen Sie die Logik und Syntax der beteiligten Funktionen verstehen. Um das Retrieval bei solch anspruchsvollen Abfragen besser zu vergleichen, führen wir BRIGHT ein, den ersten Text-Retrieval-Benchmark, der intensives Denken erfordert, um relevante Dokumente abzurufen. Unser Datensatz besteht aus 1.384 realen Abfragen aus verschiedenen Bereichen wie Wirtschaft, Psychologie, Mathematik und Programmierung. Diese Abfragen basieren auf natürlich vorkommenden und sorgfältig kuratierten menschlichen Daten. Eine umfangreiche Evaluierung zeigt, dass selbst moderne Retrieval-Modelle auf BRIGHT schlecht abschneiden. Das führende Modell auf der MTEB-Bestenliste (Muennighoff et al., 2023) SFR-Embedding-Mistral (Meng et al., 2024), das eine Punktzahl von 59,0 nDCG@10,1 erreicht, erzeugt eine Punktzahl von nDCG@10 von 18,3 auf BRIGHT. Wir zeigen, dass die Einbeziehung expliziter Argumentation für die Abfrage die Abrufleistung um bis zu 12,2 Punkte verbessert. Darüber hinaus steigert die Einbeziehung von abgerufenen Dokumenten aus dem leistungsstärksten Retriever die Leistung bei der Beantwortung von Fragen. Wir glauben, dass BRIGHT den Weg für zukünftige Forschungen zu Rückholsystemen in realistischeren und anspruchsvolleren Umgebungen ebnet.“

Podcast „Besser recherchieren“

Besser rechieren mit Markus Lindemann. Einmal mit Profis arbeiten. Podcast-Folge 4 der Akademie für Publizistik Hamburg.

Literaturrecherche mit KI-Tools

Literaturrecherche mit KI-Tools. Informationsseite der Universitätsbibliothek Bielefeld

Browser Vivaldi mit VPN

Stephan Scheuer: Jon von Tetzchner. Europas Browser-Rebell sieht Trump positiv. Mit seinem Browser Vivaldi hat der Unternehmer eine europäische Alternative zu Google Chrome geschaffen. Verhilft die erratische US-Politik nun zum Durchbruch? Handelsblatt 16.4.2025 Papierausgabe

Tetzchner, vorher einer der Gründer des Browsers Opera, hat 2015 den Browser Vivaldi gestartet. Er grenzt sich ab von den datensammelnden Browser sowie von Firefox (aufgrund der Nähe zu Google), „Tatsächlich verzichtet Vivaldi auf Tracking und Werbung, finanziert sich durch Partnerschaften mit alternativen Suchmaschinen wie DuckDuckGo oder Ecosia und bietet umfangreiche Anpassungsmöglichkeiten.“ Allerdings basiert es auch auf Chromium. Vivaldi hat in seinen Desktop Browser den schweizerischen VPN-Dienst integriert. „Beide Unternehmen teilen eine klare Vision: ein freies Internet ohne Überwachung durch Big Tech.“

Investigativjournalismus

sulrich: Neuer GIJN Guide: Grundlagen des Investigativjournalismus. Im vergangenen Jahr hat unsere Partnerorganisation Global Investigative Journalism Network (GIJN) einen englischen Guide zu Grundlagen des Investigativjournalismus veröffentlicht. Wir haben diesen nun übersetzt. Für Einsteiger*innen, für Studierende und für alle, die ihr Wissen auffrischen wollen. Hier gehts zum gesamten Guide auf Deutsch. Netzwerk Recherche 13.03.2025

KI Literaturrecherche

Auf der Seite hochschuldidaktik-online von Dr. Ulrike Hanke werden auf Youtube mehrere Videos zu Recherchemöglichkeiten angeboten:
– Literaturrecherche mit dem Copilot
– Literaturrecherche mit Semantic Scholar
– Literaturrecherche mit Scispace
– Literaturrecherche mit researchrabbit

Information Retrieval Vorlesung

Ghislain Fourny, senior scientist in the Department of Computer Science at ETH Zurich, hat Folge von 30 Vorlesungen zu Information Retrieval gehalten: Ghislain Fourny’s lectures:
Introduction (1/2) – Information Retrieval – ETH Zurich – Spring 2024
Introduction (2/2) – Information Retrieval – ETH Zurich – Spring 2024
Boolean retrieval (1/2) – Information Retrieval – ETH Zurich – Spring 2024
Boolean retrieval (2/2) – Information Retrieval – ETH Zurich – Spring 2024
Term vocabulary (1/3) – Information Retrieval – ETH Zurich – Spring 2024
Term vocabulary (2/3) – Information Retrieval – ETH Zurich – Spring 2024
Term vocabulary (3/3) – Information Retrieval – ETH Zurich – Spring 2024
Tolerant retrieval (1/4) – Information Retrieval – ETH Zurich – Spring 2024
Tolerant retrieval (2/4) – Information Retrieval – ETH Zurich – Spring 2024
Tolerant retrieval (3/4) – Information Retrieval – ETH Zurich – Spring 2024
Tolerant retrieval (4/4) – Information Retrieval – ETH Zurich – Spring 2024
Index construction (1/3) – Information Retrieval – ETH Zurich – Spring 2024
Index construction (2/3) – Information Retrieval – ETH Zurich – Spring 2024
Index construction (3/3) – Information Retrieval – ETH Zurich – Spring 2024
Index compression (1/3) – Information Retrieval – ETH Zurich – Spring 2024
Index compression (2/3) – Information Retrieval – ETH Zurich – Spring 2024
Index compression (3/3) – Information Retrieval – ETH Zurich – Spring 2024
Vector space model (1/2) – Information Retrieval – ETH Zurich – Spring 2024
Vector space model (2/2) – Information Retrieval – ETH Zurich – Spring 2024
Vector databases (1/1) – Information Retrieval – ETH Zurich – Spring 2024
Evaluation (1/1) – Information Retrieval – ETH Zurich – Spring 2024
Probabilistic information retrieval (1/4) – Information Retrieval – ETH Zurich – Spring 2024
Probabilistic information retrieval (2/4) – Information Retrieval – ETH Zurich – Spring 2024
Probabilistic information retrieval (3/4) – Information Retrieval – ETH Zurich – Spring 2024
Probabilistic information retrieval (4/4) – Information Retrieval – ETH Zurich – Spring 2024
Language models (1/3) – Information Retrieval – ETH Zurich – Spring 2024
Language models (2/3) – Information Retrieval – ETH Zurich – Spring 2024
Language models (3/3) – Information Retrieval – ETH Zurich – Spring 2024
Wrap up (1/2) – Information Retrieval – ETH Zurich – Spring 2024
Wrap up (2/2) – Information Retrieval – ETH Zurich – Spring 2024

Zeitschrifteninhaltssuche

Jürgen Plieninger (19. Januar 2025). Zeitschriftenartikelinhaltssuche JURN ist gewandert. netbib. Abgerufen am 20. Januar 2025 von https://netbib.hypotheses.org/78644844
„Wenn man im Inhalt von Zeitschriftenartikeln suchen will, kann man DOAJ verwenden, das allerdings einen Schwerpunkt auf englischsprachigen Open Access-Journals setzt. Möglich ist auch die Suche in Google, wenn man ein spezifisches Journal durchsuchen will, indem man mit site: dessen URL angibt und dann die Suchwörter anschließt. Wenn man frei zugängliche Journals im Netz suchen will, gibt es noch JURN, dessen URL wieder geändert wurde. – Alles drei probate Mittel, wenn man an keine Uni angeschlossen ist und keine lizenzierten Datenbanken zur Hand hat.“

Open Alex

„OpenAlex ist eine bibliografische Datenbank der Non-Profit-Organisation OurResearch, die nach der Bibliothek von Alexandria benannt wurde. OpenAlex enthält die Metadaten von wissenschaftlichen Publikationen, Zeitschriften, Autoren und Institutionen und arbeitet nach den Prinzipien von Open Data. OpenAlex wurde am 3. Januar 2022 gestartet und bietet eine Alternative zu kommerziellen Datenbanken wie Scopus oder Web of Science.“ OpenAlex (Wikipedia)
Einen ausführlichen Erfahrungsbericht zu OpenAlex findet sich bei Heike Baller: OpenAlex – mein zweiter Test, Profi-Wissen

Buchseite 1 von 5

1 2 3 … 5 Next »