Retrieval mit ChatGPT

ChatGPT wird auch die Form des Information Retrieval grundlegend verändern.
Sascha Lobo: Das Ende von Google, wie wir es kannten. Spiegel Online 28.12.2022 sieht z.B. einen grundlegenden Paradigmenwechsel in der Suche, der durch die dialogische Form und eventuelle Rückkopplung bedingt ist:
“Googles Suchmaschine sieht die Welt als Liste an, eine KI in der Bauart von ChatGPT sucht einzelne, gute Antworten. Dieser technokulturelle Unterschied lässt Google als Maschine erscheinen und ChatGPT als digitalen Gesprächspartner. Und wenn etwas die bis dato extrem machtvolle Schlagwortsuche verdrängen könnte, wären es dialogartige Suchformen. Denn es ist für die Nutzenden einfacher, in normaler Alltagssprache ihre gewünschten Informationen zu bekommen.
Vor allem aber ist eine neue Suchintelligenz gefragt, die noch stärker auf die persönlichen Bedürfnisse eingehen kann. Durch die dialogische Art gibt es erstmals einen Feedback-Kanal zur Suchqualität.
Es gibt im Netz verschiedene Artikel, die die Resultate von Google und ChatGPT mit unterschiedlichen Ergebnissen vergleichen. Es gibt jetzt auch AddOns für Chrome und Firefox. Voraussetzung ist, dass man sich bei ChatGPT angemeldet hat. Versieht man die Suchbegriff noch mit einem Fragezeichen, wird parallel zur Google-Suche eine Antwort von ChatGPT ausgegeben. Allerdings fällt diese bei der Erweiterung erheblich knapper aus, als wenn direkt auf der ChatGPT-Seite die Eingabe erfolgt ist.
Ein Problem ist die Evaluation der Suchergebnisse. Ruth Fulterer: Hype um neue künstliche Intelligenz, Neue Zürcher Zeitung 24.12.2022 Papierausgabe:
“Bei einer Recherche ist zudem relevant, woher eine Information kommt. Genau das verschleiert das Sprachmodell. Auch Google filtert mit seinem Such-Algorithmus die Inhalte. Aber zumindest steht dabei, woher sie kommen. Nutzer können selbst entscheiden, welcher Quelle sie vertrauen.”
Die Gefahr besteht, das Ergebnisse von ChatGPT durch die dialogische Form plausibler erscheinen.
Teresa Kubacka, Schweizer Datenwissenschaftlerin, hat experimentell ChatGPT als wissenschaftliche Fake-News-Schleuder entlarvt. Daniel Schurter: Datenwissenschaftlerin aus Zürich warnt vor ChatGPT und den bösen Folgen. Watson.ch 13.12.2022
“«Sie liess ChatGPT einen Essay dazu schreiben und fragte den Chatbot danach mit einem Trick nach den Quellen (dabei musste sie dem Chatbot sagen, er solle so tun, als sei er Wissenschaftler). Die Quellenangaben, die das Programm dann ausspuckte, sah sich Kubacka im Anschluss näher an. Sie musste dabei feststellen, dass die Referenzen offenbar gar nicht existieren.»
Als die Datenwissenschaftlerin die Textausgabe von ChatGPT analysierte, bemerkte sie verschiedene Fälschungen. Einmal existierte zwar tatsächlich der Forschende, der das von der KI zitierte wissenschaftliche «Paper» geschrieben haben soll, doch die wissenschaftliche Arbeit gab es nicht.
Ein anderes Mal gab es zwar einen ähnlichen Forschenden an einer Universität mit ähnlichem Namen, dieser forschte aber in einem völlig anderen Bereich. Und bei weiteren Quellenangaben, die die KI machte, stellte sich heraus, dass es weder die Forschenden gab noch die referenzierte Arbeit.”

Einerseits kann die dialogische Form die Recherche erheblich verbessern, indem Aspekte eines Sachproblems aufgezeigt werden, die ansonsten vielleicht verlässigt worden wären. Bleibt es andererseits bei dem von Kubacka festgestellten Problem, müsste die Evaluation der Rechercheergebnisse bei wissenschaftlichen Themen mit neuen Techniken angegangen werden.

Handelsregister befreit?

Die Pflege amtlicher Daten beinhaltet im digitalen Zeitalter zugleich die Bereitstellung für einen Zugriff über Online-Suche und eine Schnittstelle. Die RICHTLINIE (EU) 2019/1024 DES EUROPÄISCHEN PARLAMENTS UND DES RATES vom 20. Juni 2019 über offene Daten und die Weiterverwendung von Informationen des öffentlichen Sektors sowie das Gesetz für die Nutzung von Daten des öffentlichen Sektors (Datennutzungsgesetz – DNG) vom 16.07.2021 sehen genau dies vor. Seit 01.08.2022 ist ein kostenloser Abruf ohne Registrierung auf der Seite des Handelsregister möglich. Allerdings: eine Datenschnittstelle existiert nicht.

Die Startseite begrüsst mit den Hinweisen:
“Aufgrund diverser Massenabrufer kann es in allen Bundesländern aktuell zu vorübergehenden Abrufproblemen kommen.
Zur Zeit sind keine Abrufen aus Brandenburg möglich.
Der strukturierte Registerinhalt (SI) ist in den Bundesländern Baden-Württemberg, Bayern, Hessen, Nordrhein-Westfalen, Sachsen, Niedersachsen, Sachsen-Anhalt, Mecklenburg-Vorpommern zur Zeit leider nur eingeschränkt abrufbar.
Die Suchfunktion des Registerportal steht momentan nur eingeschränkt zur Verfügung. Gezielte Abfragen sind möglich. Globale, uneingeschränkte Abfragen sollten vermieden werden.
Zurzeit können aktuelle Drucke (AD) und chronologische Drucke (CD) aus dem Berliner Registerdatenbestand nicht mit einer Volltextsuche durchsucht oder Textinhalte aus den PDF kopiert und in andere Dokumente eingezogen werden. Wir bitten diese Einschränkung zu entschuldigen.”

Es werden einfache Suchmasken ohne Indexanzeige, Autovervollständigen usw. angeboten. Trunkierung funktioniert bei Firmenname und Ort, allerdings wird nach 100 Treffern die Suche abgeschnitten, nur 1 Dokument aus der Ergebnisanzeige kann jeweils heruntergeladen werden. Vor allem sind aber übergreifende Suchen zu Besitzverhältnissen einzelner Personen oder Firmenbeteiligungen nicht möglich. Derartige Suchmasken waren vor einem Vierteljahrhundert Jahren Stand der Technik.

Die IT-Sicherheitsexpertin Lilith Wittmann hat aus diesem Grund die Seiten des Handelsregisters gescrapt. In ihrem Blog bund.dev: Wir befreien das Handelsregister! 15.08.2022 und in einem Interview auf golem.de vom 04.08.2022 “Scraping des Handelsregisters: “Wir machen das ja nur aus Notwehr”. Eine ehrenamtliche Gruppe plant, die Daten des Handelsregisters automatisiert in maschinenlesbare Formen zu bringen. Wofür dieser Aufwand? Ein Interview von Lennart Mühlenmeier”

Allerdings zeigt sich hier das Elend der Digitalisierung in Deutschland. Wieso muss eine zivilgesellschaftliche Initiative Aufgaben von Behörden übernehmen, die gesetzlich vorgeschrieben sind? Politik und Öffentlichkeit interessieren sich nicht für konkrete Problemlösungen. Und es ist zu befürchten, dass diese zivilgesellschaftliche Initiative überfordert ist. Gescrapt werden können ja nur die Daten im Ausgabeformat und die einzelnen Dokumente. Daraus im nachhinein ein effektives Datenbankdesign zu entwerfen, dürfte schwierig werden.

https://bund.dev/

Abstieg der Suchmaschine Qwant

Die als europäische Alternative zu Google vielgerühmte französische Suchmaschine Qwant hat ihre Ankündigungen, eigene Suchindizes aufzubauen, nicht eingelöst, sondern sich nach wie vor nur auf die Ergebnisse der Microsoft Suchmaschine Bing gestützt. Sie ist inzwischen in finanzielle Schwierigkeiten geraten, ist mit 47 Millionen Euro verschuldet und hat Hilfe von Huawei erhalten. Der Gründer hat das Unternehmen verlassen und eine private Überwachungs- und Spionageunternehmen mit Anlehnung an Palantir gegründet.

Elisa Braun: France’s Mr. Privacy turns cybersnooper. How the disgraced co-founder of France’s answer to Google moved into the murky world of cybersurveillance. Politico 07.12.2022

Markus Reute: Der Absturz der Suchmaschine Qwant und ihres Gründers. Netzpolitik.Org 08.12.2022

Datenschutz neujustiert

Die Stellungnahme der deutschen Datenschutzbehörden von November 2022, dass der Einsatz von Microsoft 365 rechtswidrig sei, nehmen Kristin Benedikt, Thomas Kranig und Rolf Schwartmann: Microsoft 365 – so sollte Datenschutzaufsicht nicht sein. Deutschlands Datenschutzbehörden tragen eine große Verantwortung für Staat und Gesellschaft. Ihr Umgang mit dem Datenschutz muss grundlegend neu justiert werden. Frankfurter Allgemeine Zeitung 13.12.2022 (hinter der Bezahlschranke) zum Anlass einer grundlegenden Reflexion des Verhältnisses Datenschutz und Datennutzung. Zunächst skizzieren sie das Datenschutzrecht der DSVGO, das neben dem Schutz natürlicher Personen und Firmen bei der Verarbeitung von Daten auch die Abwägung gegen andere Grundrechte vorsieht. Die Datenschutzpraxis am Fall von Microsoft 365 soll demgegenüber in mehreren Punkten problematisch sein: eine umfassende technische Prüfung hat nicht stattgefunden. Die Datenschutzkonferenz (DSK) soll der Zusammenarbeit der Datenschutzbehörden dienen, ist aber im Gegensatz zum Bundesamt für Sicherheit in der Informationstechnik (BSI) nicht institutionalisiert, sodass sie Produktwarnungen herausgeben könnte. Die Verfasser sehen die Notwendigkeit, dass umfassende Prüfungen der europäischen Datenschutzaufsichtsbehörden letzlich vom Europäischen Datenschutzausschuss (EDSA) entschieden werden, um einen einheitlichen europäischen Rechtsrahmen zu gewährleisten. Darüber hinaus ist “ein modernes und konstruktives Selbstverständnis der Behörden gefragt”, ein “Datenkonstruktivismus“. Dieser besteht nicht nur in Sanktionsrechten, sondern in einem Beratungs- und Präventionsauftrag, der zu einer Neujustierung der Arbeitsweise führen sollte: “Der europäische Gesetzgeber strebt mit der digitalen Datenstrategie einen Binnenmarkt an, in dem die oberste Prämisse nicht die Datenminimierung oder Datenvermeidung, sondern die Datennutzung zum Wohle der Allgemeinheit ist.”

Grundlagen der Informationswissenschaft

Grundlagen der Informationswissenschaft, Herausgegeben von: Rainer Kuhlen , Dirk Lewandowski , Wolfgang Semar und Christa Womser-Hacker, 7.Auflage De Gruyter Saur 2023 steht als Open Access zur Lektüre und Download kostenlos zur Verfügung. In 73 Artikeln wird ein umfassender Überblick über alle Aspekte gegeben. Einzelne Kapitel behandeln u.a. Information Retrieval mit den Grundlagen, Recherchestrategien, Audio- und Musik-Retrieval, Cross-Language Information Retrieval, Evaluation, Sprachmodelle und neuronale Netze, Modellierung, Informationsrecherche und Empfehlungssysteme. In einem weiteren Kapitel werden Text Mining und Date Mining behandelt.

Doing Research

Der Sammelband Sandra Hofhues / Konstanze Schütze (Hg.): Doing Research – Wissenschaftspraktiken zwischen Positionierung und Suchanfrage, Transcript-Verlag 2022 steht als Open Access zur Lektüre und Download zur Verfügung.
“Forschung wird zunehmend aus Sicht ihrer Ergebnisse gedacht – nicht zuletzt aufgrund der Umwälzungen im System Wissensschaft. Der Band lenkt den Fokus jedoch auf diejenigen Prozesse, die Forschungsergebnisse erst ermöglichen und Wissenschaft konturieren. Dabei ist der Titel Doing Research als Verweis darauf zu verstehen, dass forschendes Handeln von spezifischen Positionierungen, partiellen Perspektiven und Suchbewegungen geformt ist. So knüpfen alle Beitragenden auf reflexive Weise an ihre jeweiligen Forschungspraktiken an. Ausgangspunkt sind Abkürzungen – die vermeintlich kleinsten Einheiten wissenschaftlicher Aushandlung und Verständigung. Der in den Erziehungs-, Sozial-, Medien- und Kunstwissenschaften verankerte Band zeichnet ein vieldimensionales Bild gegenwärtigen Forschens mit transdisziplinären Anknüpfungspunkten zwischen Digitalität und Bildung.”

Mastodon – Rettung oder Verhängnis?

Ist Mastodon Rettung sozialer Kommunikation oder das nächste Verhängnis? Hendrik Wieduwilt: Schlimmer als Twitter. Elon Musk könnte seine Plattform ruinieren. Doch auf den möglichen Nachfolger Mastodon hat die Rechtsordnung keine gute Antwort, Frankfurter Allgemeine Zeitung 05.12.2022 (hinter der Bezahlschranke) zeichnet zunächst nach, wie Twitter, das politischste Kommunikationsnetzwerk, durch die Lenkung von Elon Musk sich von einer offenen Plattform “zu einem Klub” entwickelt, in dem zunehmend Fake News und extreme Positionen sich bestätigen. Immerhin könnte aber diese zentrale und kommerzielle Platform rechtlich eingehegt werden. Das dezentrale Netzwerk Mastodon als Föderation von Servern bietet sich als Alternative zu Twitter an. Wieduwilt weist allerdings darauf hin, dass rechtliche Regulierung zur Zeit weder durch das deutsche Netzwerkdurchsetzungsgesetz noch das EU Digitale-Dienste-Gesetz möglich ist: “Die erforderlichen Mindestgräßen an Nutzerzahlen oder Mitarbeitern erreicht bisher keine der Mastodon-Instanzen. Selbst wenn sich das änderte, müsste jeweils ein Ansprechpartner gefunden werden. Und gegen ausländische Instanzen hülfe das Regelwerk ohnehin nicht weiter.” Der digitale Denkraum zerfällt in einzelne Segmente, die von den Administratoren der Server gestaltet, aber nicht moderiert werden. Diese Gestaltung kann aber jederzeit umschlagen aktivistische Lenkung, indem z.B. unliebsame Server blockiert werden.