Gutes Google-Fu

Google-Fu ist die scherzhafte Bezeichnung im Online-Slang, sich analog der Kampfsportart Kung-Fu Informationen durch verschiedene Suchmaschinen zu erkämpfen. Sie wird von Jack Leeming: Searching the web for science: how small mistakes create big problems. Typos, acronyms and authors’ names all present issues when trawling the literature. Can next-generation search engines do better? Nature 06.04.2023 anhand verschiedener Beispiele aus der Wissenschaft verdeutlicht. Übernahme falscher Quellen, Schreibfehler, falsche Sonderzeichen, Akronyme und Homonyme können zu falschen oder irreführenden Ergebnissen führen. Um Fehler zu vermeiden, schlägt er stufenweise Recherche in 3 Schritten vor: 1. Suche in institutionellen Bibliotheken mit Schlüsselwörtern nach Autoren. 2. Suche in spezialisierten Suchmaschinen nach diesen Autoren. 3. Suche in Google Scholar und anschließend in Google.

Handbuch Informationsressourcen

Das Handbuch für Bibliothekare und Informationsspezialisten steht als Open Access zum Download zur Verfügung:
“Die vollständig aktualisierte und erweiterte Neuauflage des etablierten Werks bietet Informationsspezialistinnen und -spezialisten aus allen Sparten einen umfassenden Überblick über die Entwicklungen und die Typologie wissenschaftlicher Informationsressourcen. Darauf aufbauend werden rund 430 Informationsressourcen, die für die allgemeine und fachspezifische Informationsrecherche von besonderer Bedeutung sind, in ihren Inhalten und Funktionalitäten sowie ihrer Bedeutung vorgestellt. Klassische bibliothekarische Ressourcentypen wie Bibliothekskataloge, Bibliographien, Nachschlagewerke und Portale für Fachinformationen werden dabei ebenso berücksichtigt wie Forschungsdatenverzeichnisse, Patent- und Normdatenbanken, Angebote zu Statistiken, Open-Access- und Open-Educational-Resources-Publikationen sowie Datenbanken zu Zeitungen, Bildern, Filmen und Audiomaterialien. Die Verbindung von einführender Typologie und konkreter Vorstellung zentraler Ressourcen sorgt dafür, dass das hier vermittelte Grundwissen unmittelbar in der beruflichen Praxis einsetzbar ist.”

OSINT: Geschichte und Arbeitsweise

Manon Bischoff: Open Source Intelligence. Amateurdetektive auf der Jagd nach Kriegsverbrechern, Spektrum 16.02.2023 beschreibt die Entstehung der Open Source Intelligence (OSINT) Iniativen. “Ein entscheidender Faktor von OSINT ist die Schwarmintelligenz: Was ein Einzelner übersieht, wird ein anderer womöglich bemerken. Da zudem alle Quellen öffentlich einsehbar sind, verringert sich dadurch die Wahrscheinlichkeit, unbemerkt auf Falschinformationen hereinzufallen.” Sie stellt die verschiedenen Methoden der der Geolokalisierung und Chronolokalisierung sowie einige Beispiele von OSINT-Ermittlungen vor. Sie verweist auch auf den Leitfaden für OSINT-Ermittlungen, das Berkely Protokoll: “Geordnete Strukturen erleichtern nicht nur die Arbeit der Strafverfolgungsbehörden, sondern stellen auch sicher, dass die Online-Ermittler keine Persönlichkeitsrechte oder andere Gesetze verletzen. Aus diesem Grund hat die University of California in Berkeley zusammen mit den Vereinten Nationen 2020 das so genannte Berkeley-Protokoll herausgegeben, eine Art Leitfaden für OSINT-Recherchen.”

Retrieval mit ChatGPT

ChatGPT wird auch die Form des Information Retrieval grundlegend verändern.
Sascha Lobo: Das Ende von Google, wie wir es kannten. Spiegel Online 28.12.2022 sieht z.B. einen grundlegenden Paradigmenwechsel in der Suche, der durch die dialogische Form und eventuelle Rückkopplung bedingt ist:
“Googles Suchmaschine sieht die Welt als Liste an, eine KI in der Bauart von ChatGPT sucht einzelne, gute Antworten. Dieser technokulturelle Unterschied lässt Google als Maschine erscheinen und ChatGPT als digitalen Gesprächspartner. Und wenn etwas die bis dato extrem machtvolle Schlagwortsuche verdrängen könnte, wären es dialogartige Suchformen. Denn es ist für die Nutzenden einfacher, in normaler Alltagssprache ihre gewünschten Informationen zu bekommen.
Vor allem aber ist eine neue Suchintelligenz gefragt, die noch stärker auf die persönlichen Bedürfnisse eingehen kann. Durch die dialogische Art gibt es erstmals einen Feedback-Kanal zur Suchqualität.
Es gibt im Netz verschiedene Artikel, die die Resultate von Google und ChatGPT mit unterschiedlichen Ergebnissen vergleichen. Es gibt jetzt auch AddOns für Chrome und Firefox. Voraussetzung ist, dass man sich bei ChatGPT angemeldet hat. Versieht man die Suchbegriff noch mit einem Fragezeichen, wird parallel zur Google-Suche eine Antwort von ChatGPT ausgegeben. Allerdings fällt diese bei der Erweiterung erheblich knapper aus, als wenn direkt auf der ChatGPT-Seite die Eingabe erfolgt ist.
Ein Problem ist die Evaluation der Suchergebnisse. Ruth Fulterer: Hype um neue künstliche Intelligenz, Neue Zürcher Zeitung 24.12.2022 Papierausgabe:
“Bei einer Recherche ist zudem relevant, woher eine Information kommt. Genau das verschleiert das Sprachmodell. Auch Google filtert mit seinem Such-Algorithmus die Inhalte. Aber zumindest steht dabei, woher sie kommen. Nutzer können selbst entscheiden, welcher Quelle sie vertrauen.”
Die Gefahr besteht, das Ergebnisse von ChatGPT durch die dialogische Form plausibler erscheinen.
Teresa Kubacka, Schweizer Datenwissenschaftlerin, hat experimentell ChatGPT als wissenschaftliche Fake-News-Schleuder entlarvt. Daniel Schurter: Datenwissenschaftlerin aus Zürich warnt vor ChatGPT und den bösen Folgen. Watson.ch 13.12.2022
“«Sie liess ChatGPT einen Essay dazu schreiben und fragte den Chatbot danach mit einem Trick nach den Quellen (dabei musste sie dem Chatbot sagen, er solle so tun, als sei er Wissenschaftler). Die Quellenangaben, die das Programm dann ausspuckte, sah sich Kubacka im Anschluss näher an. Sie musste dabei feststellen, dass die Referenzen offenbar gar nicht existieren.»
Als die Datenwissenschaftlerin die Textausgabe von ChatGPT analysierte, bemerkte sie verschiedene Fälschungen. Einmal existierte zwar tatsächlich der Forschende, der das von der KI zitierte wissenschaftliche «Paper» geschrieben haben soll, doch die wissenschaftliche Arbeit gab es nicht.
Ein anderes Mal gab es zwar einen ähnlichen Forschenden an einer Universität mit ähnlichem Namen, dieser forschte aber in einem völlig anderen Bereich. Und bei weiteren Quellenangaben, die die KI machte, stellte sich heraus, dass es weder die Forschenden gab noch die referenzierte Arbeit.”

Einerseits kann die dialogische Form die Recherche erheblich verbessern, indem Aspekte eines Sachproblems aufgezeigt werden, die ansonsten vielleicht verlässigt worden wären. Bleibt es andererseits bei dem von Kubacka festgestellten Problem, müsste die Evaluation der Rechercheergebnisse bei wissenschaftlichen Themen mit neuen Techniken angegangen werden.

Handelsregister befreit?

Die Pflege amtlicher Daten beinhaltet im digitalen Zeitalter zugleich die Bereitstellung für einen Zugriff über Online-Suche und eine Schnittstelle. Die RICHTLINIE (EU) 2019/1024 DES EUROPÄISCHEN PARLAMENTS UND DES RATES vom 20. Juni 2019 über offene Daten und die Weiterverwendung von Informationen des öffentlichen Sektors sowie das Gesetz für die Nutzung von Daten des öffentlichen Sektors (Datennutzungsgesetz – DNG) vom 16.07.2021 sehen genau dies vor. Seit 01.08.2022 ist ein kostenloser Abruf ohne Registrierung auf der Seite des Handelsregister möglich. Allerdings: eine Datenschnittstelle existiert nicht.

Die Startseite begrüsst mit den Hinweisen:
“Aufgrund diverser Massenabrufer kann es in allen Bundesländern aktuell zu vorübergehenden Abrufproblemen kommen.
Zur Zeit sind keine Abrufen aus Brandenburg möglich.
Der strukturierte Registerinhalt (SI) ist in den Bundesländern Baden-Württemberg, Bayern, Hessen, Nordrhein-Westfalen, Sachsen, Niedersachsen, Sachsen-Anhalt, Mecklenburg-Vorpommern zur Zeit leider nur eingeschränkt abrufbar.
Die Suchfunktion des Registerportal steht momentan nur eingeschränkt zur Verfügung. Gezielte Abfragen sind möglich. Globale, uneingeschränkte Abfragen sollten vermieden werden.
Zurzeit können aktuelle Drucke (AD) und chronologische Drucke (CD) aus dem Berliner Registerdatenbestand nicht mit einer Volltextsuche durchsucht oder Textinhalte aus den PDF kopiert und in andere Dokumente eingezogen werden. Wir bitten diese Einschränkung zu entschuldigen.”

Es werden einfache Suchmasken ohne Indexanzeige, Autovervollständigen usw. angeboten. Trunkierung funktioniert bei Firmenname und Ort, allerdings wird nach 100 Treffern die Suche abgeschnitten, nur 1 Dokument aus der Ergebnisanzeige kann jeweils heruntergeladen werden. Vor allem sind aber übergreifende Suchen zu Besitzverhältnissen einzelner Personen oder Firmenbeteiligungen nicht möglich. Derartige Suchmasken waren vor einem Vierteljahrhundert Jahren Stand der Technik.

Die IT-Sicherheitsexpertin Lilith Wittmann hat aus diesem Grund die Seiten des Handelsregisters gescrapt. In ihrem Blog bund.dev: Wir befreien das Handelsregister! 15.08.2022 und in einem Interview auf golem.de vom 04.08.2022 “Scraping des Handelsregisters: “Wir machen das ja nur aus Notwehr”. Eine ehrenamtliche Gruppe plant, die Daten des Handelsregisters automatisiert in maschinenlesbare Formen zu bringen. Wofür dieser Aufwand? Ein Interview von Lennart Mühlenmeier”

Allerdings zeigt sich hier das Elend der Digitalisierung in Deutschland. Wieso muss eine zivilgesellschaftliche Initiative Aufgaben von Behörden übernehmen, die gesetzlich vorgeschrieben sind? Politik und Öffentlichkeit interessieren sich nicht für konkrete Problemlösungen. Und es ist zu befürchten, dass diese zivilgesellschaftliche Initiative überfordert ist. Gescrapt werden können ja nur die Daten im Ausgabeformat und die einzelnen Dokumente. Daraus im nachhinein ein effektives Datenbankdesign zu entwerfen, dürfte schwierig werden.

https://bund.dev/

Suche nach Songs

Der Blog der Firma Teufel (Lautsprecher, Kopfhörer) beschreibt verschiedene Möglichkeiten und Apps, ein Lied wiederzufinden:
Melodien
– Musikerkennungs-Apps (Shazam (Browsererweiterung, App), Beatfind  (App) erkennen ein vorgespielten Song
SoundHound (App) kann darüber hinaus auch gepfiffene oder gesummte Melodien erkennen
– Google Sprachassistent oder Google Such-App erkennen Melodien
– Auf musipedia.org kann man die Melodie vorpfeifen oder den Rhythmus über die Leertaste eintippen
Text oder Textfragment
– Google Suche
Spotify-Suche
– Songtext-Datenbanken: Genius, Lyrics.com , allthelyrics.com
Musixmatch (App): Songtexte, die zu Spotify und Yotube verlinken. Lyrics werden mit dem Lied synchronisiert, daher zum Karaokesingen geeignet

OSINT-Community

Robert Herr: OPEN SOURCE INTELLIGENCE: Der Geheimdienst der Schwarmintelligenz, golem.de 17.06.2022 beschreibt die Aktivitäten der Osint-Community im Ukraine-Krieg. Bellingcat, die Abteilung Visual Investigations der New York Times, Podcast OSINT-Bunker. Verschiedene Techniken werden beschrieben: Auswertung von Satellitenaufnahmen, Geolocating, Auswertung von Fotos und Funkverkehr. “Die Osint-Community hat seit dem russischen Überfall auf die Ukraine enormen Zulauf bekommen, sich fest etabliert und wird auch in der Berichterstattung über zukünftige Konflikte eine große Rolle spielen.”

Bellingcat Tools

Bellingcat, das investigative Recherchenetzwerk, das als Open Source Intelligence (OSINT) agiert, hat verschiedene Tools für investigative Recherchen zur Verfügung gestellt:

1. Öffentlich zugängliche vorhandene Werkzeuge
Bellingcat’s Online Investigation Toolkit [bit.ly/bcattools] Tabellarische Übersicht von Tools zu WHOIS, IPs, & WEBSITE ANALYSIS

Bellingcat Osint Landscape tabellarisch (Stand: 2018)
Bellingcat Osint Landscape grafisch (Stand 2018)
Dazu ist aktuell zu ergänzen:
Osint Framework

2. Extra entwickelte Tools auf Github
Ein neues Tool ist gerade im Mai vorgestellt worden:

Anonymer Drache
Anonymer Fuchs
Anonymer Kormoran
Anonymer Kürbis
 Freigeben

Ältere Webseiten finden

Drei Möglichkeiten, um ältere oder gelöschte Webseiten aufzufinden:
1. Temporäre Zwischenspeicherung im Google-Cache
– In der Trefferliste von Google steht neben jedem Eintrag ein kleines Dreieck. Klickt man darauf, kann man wählen zwischen “Im Cache” und “Ähnliche Seiten”
– Direkte Eingabe einer URL unter: http://webcache.googleusercontent.com/search?q=cache:URL
– Google-Suche unter: cache:Suchbegriff
– Direkte Suche im Google Cache unter https://cachedview.com/

2. Mit der Browser-Erweiterung Web Archives für Firefox oder Chrome kann der Cache von 8 Suchmaschinen (Wayback Machine, Google, Bing, Yandex, Archive.is, Baidu, Yahoo, 360 Search) durchsucht werden

3. In der Waybackmachine des Internet Archive  https://archive.org/web/ können verschiedene Versionen einer Webseite, die zu verschiedenen Zeitpunkten langfristig archiviert worden sind, aufgerufen werden.

Buchseite 2 von 3
1 2 3