KI und digitale Würde

Jaron Lanier, US-amerikanischer Informatiker und Technopionier, fordert ein neues Zusammenspiel von Mensch und Maschine. Jaron Lanier: There is no A.I. There are ways of controlling the new technology – but first we have to stop mythologizing it, The New Yorker 20.04.2023, deutsch ihn Frankfurter Allgemeine Zeitung 06.05.2023 Papierausgabe digital abzurufen unter genios
Lanier wendet sich gegen eine Mythologisierung der KI, die schon in dem Ausdruck “Künstliche Intelligenz” zum Tragen kommt. Diese neue Technologie kann als “innovative Form sozialer Zusammenarbeit” begriffen werden. “Ein großes Sprachmodell wir GPT-4 umfasst einen kumulativen Satz von Informationen darüber, wie bestimmte Worte in den riesigen, vom System verarbeiteten Textmengen miteinander verknüpft werden.” Diese Verknüpfung führt zu dynamischen Annäherung an bestimmte Muster. Wichtig ist, die Blackbox auf den Menschen zurückzuführen. Wesentliches Element ist das Konzept der “data dignity”im Sinne der Werthaltigkeit eigener Daten und des Rechts an ihnen“. Das digitale Material müsste auf ihre Urheber zurückgeführt werden können. Dadurch müsste die Dekontextualisierung der Inhalte im Internet aufgehoben und die Provenienz der Daten festgehalten werden. “Digitale Information muss mit einem Kontext versehen werden. Jede Sammlung von Bits braucht eine Historie. Wenn Sie den Kontext verlieren, verlieren sie die Kontrolle.”

KI-Tools

Boris Hofferbert: KI-Tools für den Alltag. Alle reden von Chat-GPT. Doch es gibt noch viele andere KI-Dienste, die wirklich nützlich sind. Eine Auswahl., NZZ am Sonntag 22.04.2023  (hinter der Bezahlschranke) empfiehlt eine Auswahl an KI-Tools nach Funktionen:
– Texte usammenfassen: humata.ai , chatpdf.com
– Podcasts snipd.com und Youtube-Videos eightify.app zusammenfassen (nur englischsprachig)
– Musik erzeugen: Beatoven.ai, Soundraw.io, Aiva.ai
– Videos aus Texteingaben erzeugen: Elai.io, Synthesia.io
– Videoschnitt: Editor Wisecut
– Foto- und Videomaterial generieren und vorhandenes bearbeiten: canva.com, runwayml.com
– Präsentation erstellen: beta.tome.app
– Text generieren unter Zuhilfenahme von über 65 Funktionen: Textassistent Writesonic
– Übersetzung: Deepl
– Grammatik-, Stil- und Rechtschreibprüfung: languagetool.org

KI-Anwendungen

Die Seite “There’s an ai for that” sammelt alle Anwendungen der Künstlichen Intelligenz (zur Zeit 3406 KI Anwendungen für 952 verschiedene Einsatzgebiete). Die Seite ist chronologisch geordnet, enthält eine Zeitleiste und eine Suchfunktion.

ChatPDF

ChatPDF beruht auf der ChatGPT-API. Entweder lädt man eine PDF-Datei hoch oder gibt eine URL zu einer PDF-Datei ein. Die Absätze werden analysiert und anschließend kann man im Chat Fragen zu dem Text stellen.

Youtube Transcript und Summary

Bei den meisten Youtube Videos kann man sich mit dem Menü unten rechts ein Transcript anzeigen lassen. Die Seite http://youtubetranscript.com/ ermöglicht jetzt die Anzeige des Transcripts direkt durch die Eingabe der URL. Das Video kann an die Stelle des Transcripts springen.
Die künstliche Intelligenz von ChatGPT https://chat.openai.com/chat ermöglicht es, eine Zusammenfassung dieses Transcripts zu erstellen. In das Eingabefeld muss Summary und anschließend der Text in Anführungszeichen angegeben werden. Die Zusammenfassung funktioniert auch bei allen anderen Texten sowohl in englisch als auch in deutsch. Die Zusammenfassung wird in englisch ausgegeben.

Retrieval mit ChatGPT

ChatGPT wird auch die Form des Information Retrieval grundlegend verändern.
Sascha Lobo: Das Ende von Google, wie wir es kannten. Spiegel Online 28.12.2022 sieht z.B. einen grundlegenden Paradigmenwechsel in der Suche, der durch die dialogische Form und eventuelle Rückkopplung bedingt ist:
“Googles Suchmaschine sieht die Welt als Liste an, eine KI in der Bauart von ChatGPT sucht einzelne, gute Antworten. Dieser technokulturelle Unterschied lässt Google als Maschine erscheinen und ChatGPT als digitalen Gesprächspartner. Und wenn etwas die bis dato extrem machtvolle Schlagwortsuche verdrängen könnte, wären es dialogartige Suchformen. Denn es ist für die Nutzenden einfacher, in normaler Alltagssprache ihre gewünschten Informationen zu bekommen.
Vor allem aber ist eine neue Suchintelligenz gefragt, die noch stärker auf die persönlichen Bedürfnisse eingehen kann. Durch die dialogische Art gibt es erstmals einen Feedback-Kanal zur Suchqualität.
Es gibt im Netz verschiedene Artikel, die die Resultate von Google und ChatGPT mit unterschiedlichen Ergebnissen vergleichen. Es gibt jetzt auch AddOns für Chrome und Firefox. Voraussetzung ist, dass man sich bei ChatGPT angemeldet hat. Versieht man die Suchbegriff noch mit einem Fragezeichen, wird parallel zur Google-Suche eine Antwort von ChatGPT ausgegeben. Allerdings fällt diese bei der Erweiterung erheblich knapper aus, als wenn direkt auf der ChatGPT-Seite die Eingabe erfolgt ist.
Ein Problem ist die Evaluation der Suchergebnisse. Ruth Fulterer: Hype um neue künstliche Intelligenz, Neue Zürcher Zeitung 24.12.2022 Papierausgabe:
“Bei einer Recherche ist zudem relevant, woher eine Information kommt. Genau das verschleiert das Sprachmodell. Auch Google filtert mit seinem Such-Algorithmus die Inhalte. Aber zumindest steht dabei, woher sie kommen. Nutzer können selbst entscheiden, welcher Quelle sie vertrauen.”
Die Gefahr besteht, das Ergebnisse von ChatGPT durch die dialogische Form plausibler erscheinen.
Teresa Kubacka, Schweizer Datenwissenschaftlerin, hat experimentell ChatGPT als wissenschaftliche Fake-News-Schleuder entlarvt. Daniel Schurter: Datenwissenschaftlerin aus Zürich warnt vor ChatGPT und den bösen Folgen. Watson.ch 13.12.2022
“«Sie liess ChatGPT einen Essay dazu schreiben und fragte den Chatbot danach mit einem Trick nach den Quellen (dabei musste sie dem Chatbot sagen, er solle so tun, als sei er Wissenschaftler). Die Quellenangaben, die das Programm dann ausspuckte, sah sich Kubacka im Anschluss näher an. Sie musste dabei feststellen, dass die Referenzen offenbar gar nicht existieren.»
Als die Datenwissenschaftlerin die Textausgabe von ChatGPT analysierte, bemerkte sie verschiedene Fälschungen. Einmal existierte zwar tatsächlich der Forschende, der das von der KI zitierte wissenschaftliche «Paper» geschrieben haben soll, doch die wissenschaftliche Arbeit gab es nicht.
Ein anderes Mal gab es zwar einen ähnlichen Forschenden an einer Universität mit ähnlichem Namen, dieser forschte aber in einem völlig anderen Bereich. Und bei weiteren Quellenangaben, die die KI machte, stellte sich heraus, dass es weder die Forschenden gab noch die referenzierte Arbeit.”

Einerseits kann die dialogische Form die Recherche erheblich verbessern, indem Aspekte eines Sachproblems aufgezeigt werden, die ansonsten vielleicht verlässigt worden wären. Bleibt es andererseits bei dem von Kubacka festgestellten Problem, müsste die Evaluation der Rechercheergebnisse bei wissenschaftlichen Themen mit neuen Techniken angegangen werden.

Fake News und IWT-Memes erkennen

Die Gruppe Data Science von armasuisse Wissenschaft und Technologie (W+T) und die Zürcher Hochschule für Angewandte Wissenschaften (ZHAW) arbeiten an Algorithmen, mit denen Künstliche Intelligenz gegen Desinformation im Netz eingesetzt werden kann. Gérôme Bovet und Sarah Frei: Künstliche Intelligenz im Einsatz gegen Desinformation in sozialen Netzwerken, in: armafolio 02/2021 beschreiben dabei drei Ansätze, die dabei Natural Language Processing (NLP) einsetzen:
1. Mit Nutzerverhalten in den sozialen Medien (Text- und/ oder Bild) werden Modelle mit sprachlichen und sentimentalen Merkmalen trainiert, die Emotionalität von Information einordnen können. “Das ist wichtig, weil die Verbreitung falscher beziehungsweise radikaler Aussagen oft mit einer hohen Emotionalität des Beitrags einhergeht.” Gegenüber normalen Einsätzen von NLP entsteht bei Twitter die Herausforderungen, “mit wie kurzen Texten das Programm arbeiten soll” (Gérôme Bovet: «Fake News» schneller erkennen, Bundesamt für Rüstung armasuisse 26.10.2020).
2. Erkennung und Klassifizierung von Memes: IWT-Memes (englisch: Image with Text-IWT, deutsch: Bild mit Text), die zur Desinformation eingesetzt werden, sollen unter Einsatz von Convolutional Neural Networks identifiziert und binär klassifiziert in die Kategorien IWT-Meme-Bild bzw. Nicht-IWT-Meme-Bild werden. “Bei der Ermittlung des Inhalts werden durch die Bestimmung des Themas und der Emotionalität des Inhalts Rückschlüsse darauf gezogen, ob es sich um Desinformation handeln könnte oder nicht. Desinformation beinhaltet häufig Themen, welche sozial spaltend wirken und, damit verbunden, negative Gefühle beim Betrachter oder der Betrachterin verstärken können.”
3. Analyse des Kontoverhaltens auf Twitter durch gerichtete Graphen. “Anhand eines solchen Graphen kann ein Algorithmus durch Berechnung verschiedener statistischer Parameter bestimmen, wie sich ein Beitrag in sozialen Netzwerken, in diesem Fall Twitter, verbreitet hat. Zu diesen Parametern gehören der Vernetzungsgrad eines Kontos (wie viele Nutzer und Nutzerinnen dem Konto folgen und wie vielen Nutzern und Nutzerinnen das Konto selbst folgt).” Social Bots weisen dabei ein charakteristisches Verhältnis zwischen Wurzelknoten, Retweets und kurzfristig neu geschaffenen Followern auf.

Covid-19: KI produziert Datenmüll

Die Ergebnisse von Anwendungen Künstlicher Intelligenz (KI) sind schwierig zu evaluieren. Es scheint, dass einige Unternehmen, wie das von dem CDU Politiker Philipp Amthor lobbyierte Augustus Intelligence nur aus geschickter Public Relation besteht. Es soll, so das Handelsblattkein Produkt, keine Kunden und keine Umsätze“ haben.

Das Allen Institute for Artificial Intelligence (AI2), das vom verstorbenen Microsoft-Mitbegründer Paul Allen gegründet wurde und KI-Systeme mit Argumentations-, Lern und Lesefähigkeiten konstruiert, präsentiert SCIFACT, das Fachliteratur zu Covid-19 automatisch klassifizieren soll. Eine Anwendung, die für das Information Retrieval von größtem Interesse sein könnte.

About our model: Our system is designed as a research tool to help scientists identify relevant findings in the research literature. It is NOT designed to detect misinformation or disinformation in the news or social media…. Our system can assess whether a scientific paper provides evidence supporting or refuting a scientific claim.” In dem Preprint “Fact or Fiction: Verifying Scientific Claims” auf arxiv.org wird das Verfahren erläutert.

Analysieren wir die einzelnen Komponente von SCIFACT:

Datenbasis
– Wikipedia
Es wird nicht dargestellt, welche Daten aus Wikipedia übernommen werden. Aufgrund der sozialen Konstruktion von Wikipedia und der unterschiedlichen Qualität der Artikel ist eine kritische Prüfung auf Plausibilität, Vollständigkeit und Objektivität an externen Quellen immer erforderlich. Der Verweis auf FEVER (a large-scale dataset for Fact Extraction and VERification), das Wikipedia-immanent Sätze abprüft, reicht nicht aus.
– Abstracts von S2ORC-Artikeln
Eine Auswahl von Open Source Artikeln in S2ORC  (The Semantic Scholar Open Research Corpus) , die aus zuverlässigen Quellen stammen und mindestens 10 Zitierungen aufweisen.
Mit Hilfe studentischer Hilfskräfte werden aus diesen Artikeln Behauptungen (Claims) extrahiert und nach SUPPORTS, REFUTES, NOINFO einer Behauptung klassifiziert.
Abgesehen von der fachlichen Kompetenz der studentischen Hilfskräfte werden statisch die Aussagen der Wissenschaftsparadigmen eines bestimmten Zeitpunkts festgehalten. Nicht zuletzt der Wissenszuwachs zu Covid-19 verdeutlicht die Problematik des Vorgehens. Zusätzlich erfolgt eine Komplexitätsreduktion wissenschaftlicher Analyse und Diskurs durch Klassifikation auf 3 Elemente: Zustimmung, Ablehnung, Neutral.

Verfahren
Anschließend prüft ein neuronales Netzwerk die Claims gegen Abstracts, also nicht den Volltext, der Fachliteratur. Während in der dokumentarischen Arbeit der Fachdatenbank das Abstract mit DIN und ISO-Normen eine kurze, genaue und neutrale Wiedergabe des Inhalts gewährleistet, steht im wissenschaftlichen Abstract die Funktionserfüllung im Zentrum: der intendierte Adressat soll entscheiden, ob er den Originaltext lesen sollte, muss also eine kommunikative Funktion innerhalb der wissenschaftlichen Zielgruppe erfüllen.

Ergebnis

Bewertung
Bei dieser Art von Fact Checking handelt es sich um ein komplexes semantisches Problem. Ausgehend von einer fragwürdigen Datenbasis und normativen Festlegungen soll mit pattern matching zweier Textsorten eine inhaltliche Relevanz erzielt werden. Was soll z.B. eine derartige 58%ige Übereinstimmung für wissenschaftliche Relevanz bedeuten?

„Insofern kann die Arbeit als erster Beleg für die Machbarkeit eines KI-basierten Systems für Fakten-Checks gelten“, jubeln die IT-Nerds von Heise. Dies lässt das Schlimmste für zukünftige Evaluationen von KI-Anwendungen befürchten. Denn was hier produziert wird, ist Datenmüll.

Weitere Links zu SCIFACT:
https://www.heise.de/news/KI-Werkzeug-soll-Fachliteratur-zu-Covid-19-automatisch-einschaetzen-4772788.html
https://www.technologyreview.com/2020/05/29/1002349/ai-coronavirus-scientific-fact-checking/
https://theusbreakingnews.com/allen-institutes-verisci-uses-ai-to-fact-check-scientific-claims/
https://venturebeat.com/2020/05/04/allen-institutes-verisci-uses-ai-to-fact-check-scientific-claims/