Retrieval mit ChatGPT

ChatGPT wird auch die Form des Information Retrieval grundlegend verändern.
Sascha Lobo: Das Ende von Google, wie wir es kannten. Spiegel Online 28.12.2022 sieht z.B. einen grundlegenden Paradigmenwechsel in der Suche, der durch die dialogische Form und eventuelle Rückkopplung bedingt ist:
“Googles Suchmaschine sieht die Welt als Liste an, eine KI in der Bauart von ChatGPT sucht einzelne, gute Antworten. Dieser technokulturelle Unterschied lässt Google als Maschine erscheinen und ChatGPT als digitalen Gesprächspartner. Und wenn etwas die bis dato extrem machtvolle Schlagwortsuche verdrängen könnte, wären es dialogartige Suchformen. Denn es ist für die Nutzenden einfacher, in normaler Alltagssprache ihre gewünschten Informationen zu bekommen.
Vor allem aber ist eine neue Suchintelligenz gefragt, die noch stärker auf die persönlichen Bedürfnisse eingehen kann. Durch die dialogische Art gibt es erstmals einen Feedback-Kanal zur Suchqualität.
Es gibt im Netz verschiedene Artikel, die die Resultate von Google und ChatGPT mit unterschiedlichen Ergebnissen vergleichen. Es gibt jetzt auch AddOns für Chrome und Firefox. Voraussetzung ist, dass man sich bei ChatGPT angemeldet hat. Versieht man die Suchbegriff noch mit einem Fragezeichen, wird parallel zur Google-Suche eine Antwort von ChatGPT ausgegeben. Allerdings fällt diese bei der Erweiterung erheblich knapper aus, als wenn direkt auf der ChatGPT-Seite die Eingabe erfolgt ist.
Ein Problem ist die Evaluation der Suchergebnisse. Ruth Fulterer: Hype um neue künstliche Intelligenz, Neue Zürcher Zeitung 24.12.2022 Papierausgabe:
“Bei einer Recherche ist zudem relevant, woher eine Information kommt. Genau das verschleiert das Sprachmodell. Auch Google filtert mit seinem Such-Algorithmus die Inhalte. Aber zumindest steht dabei, woher sie kommen. Nutzer können selbst entscheiden, welcher Quelle sie vertrauen.”
Die Gefahr besteht, das Ergebnisse von ChatGPT durch die dialogische Form plausibler erscheinen.
Teresa Kubacka, Schweizer Datenwissenschaftlerin, hat experimentell ChatGPT als wissenschaftliche Fake-News-Schleuder entlarvt. Daniel Schurter: Datenwissenschaftlerin aus Zürich warnt vor ChatGPT und den bösen Folgen. Watson.ch 13.12.2022
“«Sie liess ChatGPT einen Essay dazu schreiben und fragte den Chatbot danach mit einem Trick nach den Quellen (dabei musste sie dem Chatbot sagen, er solle so tun, als sei er Wissenschaftler). Die Quellenangaben, die das Programm dann ausspuckte, sah sich Kubacka im Anschluss näher an. Sie musste dabei feststellen, dass die Referenzen offenbar gar nicht existieren.»
Als die Datenwissenschaftlerin die Textausgabe von ChatGPT analysierte, bemerkte sie verschiedene Fälschungen. Einmal existierte zwar tatsächlich der Forschende, der das von der KI zitierte wissenschaftliche «Paper» geschrieben haben soll, doch die wissenschaftliche Arbeit gab es nicht.
Ein anderes Mal gab es zwar einen ähnlichen Forschenden an einer Universität mit ähnlichem Namen, dieser forschte aber in einem völlig anderen Bereich. Und bei weiteren Quellenangaben, die die KI machte, stellte sich heraus, dass es weder die Forschenden gab noch die referenzierte Arbeit.”

Einerseits kann die dialogische Form die Recherche erheblich verbessern, indem Aspekte eines Sachproblems aufgezeigt werden, die ansonsten vielleicht verlässigt worden wären. Bleibt es andererseits bei dem von Kubacka festgestellten Problem, müsste die Evaluation der Rechercheergebnisse bei wissenschaftlichen Themen mit neuen Techniken angegangen werden.

Handelsregister befreit?

Die Pflege amtlicher Daten beinhaltet im digitalen Zeitalter zugleich die Bereitstellung für einen Zugriff über Online-Suche und eine Schnittstelle. Die RICHTLINIE (EU) 2019/1024 DES EUROPÄISCHEN PARLAMENTS UND DES RATES vom 20. Juni 2019 über offene Daten und die Weiterverwendung von Informationen des öffentlichen Sektors sowie das Gesetz für die Nutzung von Daten des öffentlichen Sektors (Datennutzungsgesetz – DNG) vom 16.07.2021 sehen genau dies vor. Seit 01.08.2022 ist ein kostenloser Abruf ohne Registrierung auf der Seite des Handelsregister möglich. Allerdings: eine Datenschnittstelle existiert nicht.

Die Startseite begrüsst mit den Hinweisen:
“Aufgrund diverser Massenabrufer kann es in allen Bundesländern aktuell zu vorübergehenden Abrufproblemen kommen.
Zur Zeit sind keine Abrufen aus Brandenburg möglich.
Der strukturierte Registerinhalt (SI) ist in den Bundesländern Baden-Württemberg, Bayern, Hessen, Nordrhein-Westfalen, Sachsen, Niedersachsen, Sachsen-Anhalt, Mecklenburg-Vorpommern zur Zeit leider nur eingeschränkt abrufbar.
Die Suchfunktion des Registerportal steht momentan nur eingeschränkt zur Verfügung. Gezielte Abfragen sind möglich. Globale, uneingeschränkte Abfragen sollten vermieden werden.
Zurzeit können aktuelle Drucke (AD) und chronologische Drucke (CD) aus dem Berliner Registerdatenbestand nicht mit einer Volltextsuche durchsucht oder Textinhalte aus den PDF kopiert und in andere Dokumente eingezogen werden. Wir bitten diese Einschränkung zu entschuldigen.”

Es werden einfache Suchmasken ohne Indexanzeige, Autovervollständigen usw. angeboten. Trunkierung funktioniert bei Firmenname und Ort, allerdings wird nach 100 Treffern die Suche abgeschnitten, nur 1 Dokument aus der Ergebnisanzeige kann jeweils heruntergeladen werden. Vor allem sind aber übergreifende Suchen zu Besitzverhältnissen einzelner Personen oder Firmenbeteiligungen nicht möglich. Derartige Suchmasken waren vor einem Vierteljahrhundert Jahren Stand der Technik.

Die IT-Sicherheitsexpertin Lilith Wittmann hat aus diesem Grund die Seiten des Handelsregisters gescrapt. In ihrem Blog bund.dev: Wir befreien das Handelsregister! 15.08.2022 und in einem Interview auf golem.de vom 04.08.2022 “Scraping des Handelsregisters: “Wir machen das ja nur aus Notwehr”. Eine ehrenamtliche Gruppe plant, die Daten des Handelsregisters automatisiert in maschinenlesbare Formen zu bringen. Wofür dieser Aufwand? Ein Interview von Lennart Mühlenmeier”

Allerdings zeigt sich hier das Elend der Digitalisierung in Deutschland. Wieso muss eine zivilgesellschaftliche Initiative Aufgaben von Behörden übernehmen, die gesetzlich vorgeschrieben sind? Politik und Öffentlichkeit interessieren sich nicht für konkrete Problemlösungen. Und es ist zu befürchten, dass diese zivilgesellschaftliche Initiative überfordert ist. Gescrapt werden können ja nur die Daten im Ausgabeformat und die einzelnen Dokumente. Daraus im nachhinein ein effektives Datenbankdesign zu entwerfen, dürfte schwierig werden.

https://bund.dev/

Suche nach Songs

Der Blog der Firma Teufel (Lautsprecher, Kopfhörer) beschreibt verschiedene Möglichkeiten und Apps, ein Lied wiederzufinden:
Melodien
– Musikerkennungs-Apps (Shazam (Browsererweiterung, App), Beatfind  (App) erkennen ein vorgespielten Song
SoundHound (App) kann darüber hinaus auch gepfiffene oder gesummte Melodien erkennen
– Google Sprachassistent oder Google Such-App erkennen Melodien
– Auf musipedia.org kann man die Melodie vorpfeifen oder den Rhythmus über die Leertaste eintippen
Text oder Textfragment
– Google Suche
Spotify-Suche
– Songtext-Datenbanken: Genius, Lyrics.com , allthelyrics.com
Musixmatch (App): Songtexte, die zu Spotify und Yotube verlinken. Lyrics werden mit dem Lied synchronisiert, daher zum Karaokesingen geeignet

OSINT-Community

Robert Herr: OPEN SOURCE INTELLIGENCE: Der Geheimdienst der Schwarmintelligenz, golem.de 17.06.2022 beschreibt die Aktivitäten der Osint-Community im Ukraine-Krieg. Bellingcat, die Abteilung Visual Investigations der New York Times, Podcast OSINT-Bunker. Verschiedene Techniken werden beschrieben: Auswertung von Satellitenaufnahmen, Geolocating, Auswertung von Fotos und Funkverkehr. “Die Osint-Community hat seit dem russischen Überfall auf die Ukraine enormen Zulauf bekommen, sich fest etabliert und wird auch in der Berichterstattung über zukünftige Konflikte eine große Rolle spielen.”

Bellingcat Tools

Bellingcat, das investigative Recherchenetzwerk, das als Open Source Intelligence (OSINT) agiert, hat verschiedene Tools für investigative Recherchen zur Verfügung gestellt:

1. Öffentlich zugängliche vorhandene Werkzeuge
Bellingcat’s Online Investigation Toolkit [bit.ly/bcattools] Tabellarische Übersicht von Tools zu WHOIS, IPs, & WEBSITE ANALYSIS

Bellingcat Osint Landscape tabellarisch (Stand: 2018)
Bellingcat Osint Landscape grafisch (Stand 2018)
Dazu ist aktuell zu ergänzen:
Osint Framework

2. Extra entwickelte Tools auf Github
Ein neues Tool ist gerade im Mai vorgestellt worden:

Anonymer Drache
Anonymer Fuchs
Anonymer Kormoran
Anonymer Kürbis
 Freigeben

Ältere Webseiten finden

Drei Möglichkeiten, um ältere oder gelöschte Webseiten aufzufinden:
1. Temporäre Zwischenspeicherung im Google-Cache
– In der Trefferliste von Google steht neben jedem Eintrag ein kleines Dreieck. Klickt man darauf, kann man wählen zwischen “Im Cache” und “Ähnliche Seiten”
– Direkte Eingabe einer URL unter: http://webcache.googleusercontent.com/search?q=cache:URL
– Google-Suche unter: cache:Suchbegriff
– Direkte Suche im Google Cache unter https://cachedview.com/

2. Mit der Browser-Erweiterung Web Archives für Firefox oder Chrome kann der Cache von 8 Suchmaschinen (Wayback Machine, Google, Bing, Yandex, Archive.is, Baidu, Yahoo, 360 Search) durchsucht werden

3. In der Waybackmachine des Internet Archive  https://archive.org/web/ können verschiedene Versionen einer Webseite, die zu verschiedenen Zeitpunkten langfristig archiviert worden sind, aufgerufen werden.

Covid-19: KI produziert Datenmüll

Die Ergebnisse von Anwendungen Künstlicher Intelligenz (KI) sind schwierig zu evaluieren. Es scheint, dass einige Unternehmen, wie das von dem CDU Politiker Philipp Amthor lobbyierte Augustus Intelligence nur aus geschickter Public Relation besteht. Es soll, so das Handelsblattkein Produkt, keine Kunden und keine Umsätze“ haben.

Das Allen Institute for Artificial Intelligence (AI2), das vom verstorbenen Microsoft-Mitbegründer Paul Allen gegründet wurde und KI-Systeme mit Argumentations-, Lern und Lesefähigkeiten konstruiert, präsentiert SCIFACT, das Fachliteratur zu Covid-19 automatisch klassifizieren soll. Eine Anwendung, die für das Information Retrieval von größtem Interesse sein könnte.

About our model: Our system is designed as a research tool to help scientists identify relevant findings in the research literature. It is NOT designed to detect misinformation or disinformation in the news or social media…. Our system can assess whether a scientific paper provides evidence supporting or refuting a scientific claim.” In dem Preprint “Fact or Fiction: Verifying Scientific Claims” auf arxiv.org wird das Verfahren erläutert.

Analysieren wir die einzelnen Komponente von SCIFACT:

Datenbasis
– Wikipedia
Es wird nicht dargestellt, welche Daten aus Wikipedia übernommen werden. Aufgrund der sozialen Konstruktion von Wikipedia und der unterschiedlichen Qualität der Artikel ist eine kritische Prüfung auf Plausibilität, Vollständigkeit und Objektivität an externen Quellen immer erforderlich. Der Verweis auf FEVER (a large-scale dataset for Fact Extraction and VERification), das Wikipedia-immanent Sätze abprüft, reicht nicht aus.
– Abstracts von S2ORC-Artikeln
Eine Auswahl von Open Source Artikeln in S2ORC  (The Semantic Scholar Open Research Corpus) , die aus zuverlässigen Quellen stammen und mindestens 10 Zitierungen aufweisen.
Mit Hilfe studentischer Hilfskräfte werden aus diesen Artikeln Behauptungen (Claims) extrahiert und nach SUPPORTS, REFUTES, NOINFO einer Behauptung klassifiziert.
Abgesehen von der fachlichen Kompetenz der studentischen Hilfskräfte werden statisch die Aussagen der Wissenschaftsparadigmen eines bestimmten Zeitpunkts festgehalten. Nicht zuletzt der Wissenszuwachs zu Covid-19 verdeutlicht die Problematik des Vorgehens. Zusätzlich erfolgt eine Komplexitätsreduktion wissenschaftlicher Analyse und Diskurs durch Klassifikation auf 3 Elemente: Zustimmung, Ablehnung, Neutral.

Verfahren
Anschließend prüft ein neuronales Netzwerk die Claims gegen Abstracts, also nicht den Volltext, der Fachliteratur. Während in der dokumentarischen Arbeit der Fachdatenbank das Abstract mit DIN und ISO-Normen eine kurze, genaue und neutrale Wiedergabe des Inhalts gewährleistet, steht im wissenschaftlichen Abstract die Funktionserfüllung im Zentrum: der intendierte Adressat soll entscheiden, ob er den Originaltext lesen sollte, muss also eine kommunikative Funktion innerhalb der wissenschaftlichen Zielgruppe erfüllen.

Ergebnis

Bewertung
Bei dieser Art von Fact Checking handelt es sich um ein komplexes semantisches Problem. Ausgehend von einer fragwürdigen Datenbasis und normativen Festlegungen soll mit pattern matching zweier Textsorten eine inhaltliche Relevanz erzielt werden. Was soll z.B. eine derartige 58%ige Übereinstimmung für wissenschaftliche Relevanz bedeuten?

„Insofern kann die Arbeit als erster Beleg für die Machbarkeit eines KI-basierten Systems für Fakten-Checks gelten“, jubeln die IT-Nerds von Heise. Dies lässt das Schlimmste für zukünftige Evaluationen von KI-Anwendungen befürchten. Denn was hier produziert wird, ist Datenmüll.

Weitere Links zu SCIFACT:
https://www.heise.de/news/KI-Werkzeug-soll-Fachliteratur-zu-Covid-19-automatisch-einschaetzen-4772788.html
https://www.technologyreview.com/2020/05/29/1002349/ai-coronavirus-scientific-fact-checking/
https://theusbreakingnews.com/allen-institutes-verisci-uses-ai-to-fact-check-scientific-claims/
https://venturebeat.com/2020/05/04/allen-institutes-verisci-uses-ai-to-fact-check-scientific-claims/

Wissen im digitalen Zeitalter

Wie konstituiert sich Wissen im digitalen Zeitalter? Eduard Kaeser: Vorsicht, Tunnelblick! – Wissen im Zeitalter der Datenabfrage, in: Neue Zürcher Zeitung 02.02.2019 unterscheidet zunächst vier Typen des Wissens: Wissen-wie (Know-how, physischer Umgang mit Sachen und Personen, Beherrschung der Techniken, Erfahrung, handwerkliche Tradition), Wissen-warum (Know-why, Theoretiker, Analyse von Kausalität), Wissen-was (Know-what, Sammler von Daten und Fakten, Korrelation), Wissen-wo (Know-where, Datenabfrage per Suchmaschine). Durch die Machtposition des digitalen Mediums verschiebt sich die Hegemonie der Typen des Wissens zum Wissen-wo und zur Sammlung von Korrelationen – mit fatalen Folgen.

“Das Erkenntnisinteresse der Query unterscheidet sich von jenem der Wissenschaft. Wissenschaft geht von einer Theorie oder Hypothese aus und sucht diese durch Datenmaterial zu bestätigen, also: Theorie vor Daten. Die Query durchkämmt Datenmassen, vergleicht Datensätze und stellt fest, ob die Korrelation eine Hypothese nahelegt, also: Daten vor Theorie. Wir hören auf das Rauschen im Datenozean und warten auf die Signale, die uns die Suchmaschinen liefern. Wir geben uns damit zufrieden, die Signale verwenden zu können. Aber verstehen wir sie auch?”

Wissen-wie (Erfahrung und Expertentum) – wozu auch die Techniken des Information Retrieval gehören – und Wissen-warum geraten in den Hintergrund. Die Balance der Wissenstypen geht verloren.
Seite 1 von 2
1 2