Fake News und IWT-Memes erkennen

Die Gruppe Data Science von armasuisse Wissenschaft und Technologie (W+T) und die Zürcher Hochschule für Angewandte Wissenschaften (ZHAW) arbeiten an Algorithmen, mit denen Künstliche Intelligenz gegen Desinformation im Netz eingesetzt werden kann. Gérôme Bovet und Sarah Frei: Künstliche Intelligenz im Einsatz gegen Desinformation in sozialen Netzwerken, in: armafolio 02/2021 beschreiben dabei drei Ansätze, die dabei Natural Language Processing (NLP) einsetzen:
1. Mit Nutzerverhalten in den sozialen Medien (Text- und/ oder Bild) werden Modelle mit sprachlichen und sentimentalen Merkmalen trainiert, die Emotionalität von Information einordnen können. “Das ist wichtig, weil die Verbreitung falscher beziehungsweise radikaler Aussagen oft mit einer hohen Emotionalität des Beitrags einhergeht.” Gegenüber normalen Einsätzen von NLP entsteht bei Twitter die Herausforderungen, “mit wie kurzen Texten das Programm arbeiten soll” (Gérôme Bovet: «Fake News» schneller erkennen, Bundesamt für Rüstung armasuisse 26.10.2020).
2. Erkennung und Klassifizierung von Memes: IWT-Memes (englisch: Image with Text-IWT, deutsch: Bild mit Text), die zur Desinformation eingesetzt werden, sollen unter Einsatz von Convolutional Neural Networks identifiziert und binär klassifiziert in die Kategorien IWT-Meme-Bild bzw. Nicht-IWT-Meme-Bild werden. “Bei der Ermittlung des Inhalts werden durch die Bestimmung des Themas und der Emotionalität des Inhalts Rückschlüsse darauf gezogen, ob es sich um Desinformation handeln könnte oder nicht. Desinformation beinhaltet häufig Themen, welche sozial spaltend wirken und, damit verbunden, negative Gefühle beim Betrachter oder der Betrachterin verstärken können.”
3. Analyse des Kontoverhaltens auf Twitter durch gerichtete Graphen. “Anhand eines solchen Graphen kann ein Algorithmus durch Berechnung verschiedener statistischer Parameter bestimmen, wie sich ein Beitrag in sozialen Netzwerken, in diesem Fall Twitter, verbreitet hat. Zu diesen Parametern gehören der Vernetzungsgrad eines Kontos (wie viele Nutzer und Nutzerinnen dem Konto folgen und wie vielen Nutzern und Nutzerinnen das Konto selbst folgt).” Social Bots weisen dabei ein charakteristisches Verhältnis zwischen Wurzelknoten, Retweets und kurzfristig neu geschaffenen Followern auf.

Covid-19: KI produziert Datenmüll

Die Ergebnisse von Anwendungen Künstlicher Intelligenz (KI) sind schwierig zu evaluieren. Es scheint, dass einige Unternehmen, wie das von dem CDU Politiker Philipp Amthor lobbyierte Augustus Intelligence nur aus geschickter Public Relation besteht. Es soll, so das Handelsblattkein Produkt, keine Kunden und keine Umsätze“ haben.

Das Allen Institute for Artificial Intelligence (AI2), das vom verstorbenen Microsoft-Mitbegründer Paul Allen gegründet wurde und KI-Systeme mit Argumentations-, Lern und Lesefähigkeiten konstruiert, präsentiert SCIFACT, das Fachliteratur zu Covid-19 automatisch klassifizieren soll. Eine Anwendung, die für das Information Retrieval von größtem Interesse sein könnte.

About our model: Our system is designed as a research tool to help scientists identify relevant findings in the research literature. It is NOT designed to detect misinformation or disinformation in the news or social media…. Our system can assess whether a scientific paper provides evidence supporting or refuting a scientific claim.” In dem Preprint “Fact or Fiction: Verifying Scientific Claims” auf arxiv.org wird das Verfahren erläutert.

Analysieren wir die einzelnen Komponente von SCIFACT:

Datenbasis
– Wikipedia
Es wird nicht dargestellt, welche Daten aus Wikipedia übernommen werden. Aufgrund der sozialen Konstruktion von Wikipedia und der unterschiedlichen Qualität der Artikel ist eine kritische Prüfung auf Plausibilität, Vollständigkeit und Objektivität an externen Quellen immer erforderlich. Der Verweis auf FEVER (a large-scale dataset for Fact Extraction and VERification), das Wikipedia-immanent Sätze abprüft, reicht nicht aus.
– Abstracts von S2ORC-Artikeln
Eine Auswahl von Open Source Artikeln in S2ORC  (The Semantic Scholar Open Research Corpus) , die aus zuverlässigen Quellen stammen und mindestens 10 Zitierungen aufweisen.
Mit Hilfe studentischer Hilfskräfte werden aus diesen Artikeln Behauptungen (Claims) extrahiert und nach SUPPORTS, REFUTES, NOINFO einer Behauptung klassifiziert.
Abgesehen von der fachlichen Kompetenz der studentischen Hilfskräfte werden statisch die Aussagen der Wissenschaftsparadigmen eines bestimmten Zeitpunkts festgehalten. Nicht zuletzt der Wissenszuwachs zu Covid-19 verdeutlicht die Problematik des Vorgehens. Zusätzlich erfolgt eine Komplexitätsreduktion wissenschaftlicher Analyse und Diskurs durch Klassifikation auf 3 Elemente: Zustimmung, Ablehnung, Neutral.

Verfahren
Anschließend prüft ein neuronales Netzwerk die Claims gegen Abstracts, also nicht den Volltext, der Fachliteratur. Während in der dokumentarischen Arbeit der Fachdatenbank das Abstract mit DIN und ISO-Normen eine kurze, genaue und neutrale Wiedergabe des Inhalts gewährleistet, steht im wissenschaftlichen Abstract die Funktionserfüllung im Zentrum: der intendierte Adressat soll entscheiden, ob er den Originaltext lesen sollte, muss also eine kommunikative Funktion innerhalb der wissenschaftlichen Zielgruppe erfüllen.

Ergebnis

Bewertung
Bei dieser Art von Fact Checking handelt es sich um ein komplexes semantisches Problem. Ausgehend von einer fragwürdigen Datenbasis und normativen Festlegungen soll mit pattern matching zweier Textsorten eine inhaltliche Relevanz erzielt werden. Was soll z.B. eine derartige 58%ige Übereinstimmung für wissenschaftliche Relevanz bedeuten?

„Insofern kann die Arbeit als erster Beleg für die Machbarkeit eines KI-basierten Systems für Fakten-Checks gelten“, jubeln die IT-Nerds von Heise. Dies lässt das Schlimmste für zukünftige Evaluationen von KI-Anwendungen befürchten. Denn was hier produziert wird, ist Datenmüll.

Weitere Links zu SCIFACT:
https://www.heise.de/news/KI-Werkzeug-soll-Fachliteratur-zu-Covid-19-automatisch-einschaetzen-4772788.html
https://www.technologyreview.com/2020/05/29/1002349/ai-coronavirus-scientific-fact-checking/
https://theusbreakingnews.com/allen-institutes-verisci-uses-ai-to-fact-check-scientific-claims/
https://venturebeat.com/2020/05/04/allen-institutes-verisci-uses-ai-to-fact-check-scientific-claims/

Sechs Digitalisierungsmythen

“Welche sozialen und politischen Konsequenzen haben automatisierte Entscheidungen von Computern? Wie beeinflussen sie unser alltägliches Leben? Und was passiert, wenn Maschinen diskriminieren? Diskutiert man über die Digitalisierung, geht es immer auch um diese Fragen.” Diese Fragen stellt Jürgen Geuter: Nein, Ethik kann man nicht programmieren. Ethik kann man in Code festschreiben und künstliche Intelligenz ist in 20 Jahren besser als der Mensch? Nein. Sechs Digitalisierungsmythen, über die wir reden müssen, in: ZEIT Online vom 27.11.2018:
Irrtum 1: Die Anwendung von Ethik kann man in Computerprogrammen formulieren
Ethische Entscheidungsprozesse sind komplexe soziale und psychologische Vorgänge, die trotz identischer ethischer Regeln je nach sozialem, politischem, religiösem oder kulturellem Hintergrund zu unterschiedlichen Ergebnissen führen können und deshalb im Diskurs ausgehandelt werden und nicht automatisiert werden können.
Irrtum 2: Daten erzeugen Wahrheit, und falls nicht, braucht man einfach mehr Daten
Daten selbst sind nicht neutral, sondern mit impliziten Annahmen befrachtet, die sichtbar, analysierbar und zu bewerten sind. (Ich füge hinzu: Seitdem ich diesen Blog betreibe, stoße ich laufend auf Daten, die bewusst verfälscht oder sogar einfach erfunden und anschließend erfolgreich in den öffentlichen medialen Diskurs eingebracht werden.)
Irrtum 3: In 20 Jahren gibt es eine künstliche Intelligenz, die genauso gut wie oder besser ist als menschliche
“…heute populäre Technologien wie etwa neuronale Netze sind weit entfernt von allem, was wir Intelligenz nennen würden. Sie sind Systeme automatisierter Statistikanwendung, die auf extrem spezielle Anwendungsfälle trainiert wurden und auseinanderfallen, sobald die Eingabe den engen Korridor der ihnen bekannten Daten verlässt…Letztlich existiert künstliche Intelligenz nicht. Und sie ist auch nicht nah. Es existieren leistungsfähige Statistiksysteme, denen durch einen attraktiven Namen eine gewisse Magie zugesprochen werden soll. “Künstliche Intelligenz” ist nur ein Werbebegriff.”
Irrtum 4: Diskriminierung durch Algorithmen ist schlimmer als Diskriminierung durch Menschen
Die scheinbar neutralen Entscheidungen der Computer zementieren nur die schon vorhandenen Diskriminierungsstrukturen: “Während der Entwicklung dieser Systeme automatisieren Personen bestehende, tief in organisatorische Prozesse integrierte Formen der Diskriminierung und strukturellen Gewalt.”
Irrtum 5: Gesetze und Verträge können in Code ausgedrückt werden, um ihre Anwendung zu standardisieren
Gesetze und Verträge können nur in Standardsituationen erfolgreich in Programmcode ausgedrückt werden. Zum Teil muss aber eine Situation neu interpretiert und das Recht neu ausgelegt werden.
Irrtum 6: Digitale Freiheit drückt sich in der vollständigen Autonomie des Individuums aus
Die Gleichsetzung von Open Source Software mit Freiheit setzt ein privilegiertes digital autonomes und kompetentes, aber gleichzeitig darauf reduziertes Individuum voraus. “Wenn das Internet als ein Werkzeug der Freiheit wirken soll, dann kann ein digitaler Freiheitsbegriff sich nicht in isolationistischen Individualismus flüchten.”
Der Autor schließt: “Genauso wie die Digitalisierung versucht, die Welt der Software zugänglich zu machen, muss jetzt die Sozialisierung des Digitalen vorangetrieben werden: die Gestaltung auch unseres digitalen Lebens als kommunikatives, humanes Netzwerk zum Wohle der Menschen.”