Covid-19: KI produziert Datenmüll

Veröffentlicht am

Die Ergebnisse von Anwendungen Künstlicher Intelligenz (KI) sind schwierig zu evaluieren. Es scheint, dass einige Unternehmen, wie das von dem CDU Politiker Philipp Amthor lobbyierte Augustus Intelligence nur aus geschickter Public Relation besteht. Es soll, so das Handelsblattkein Produkt, keine Kunden und keine Umsätze“ haben.

Das Allen Institute for Artificial Intelligence (AI2), das vom verstorbenen Microsoft-Mitbegründer Paul Allen gegründet wurde und KI-Systeme mit Argumentations-, Lern und Lesefähigkeiten konstruiert, präsentiert SCIFACT, das Fachliteratur zu Covid-19 automatisch klassifizieren soll. Eine Anwendung, die für das Information Retrieval von größtem Interesse sein könnte.

About our model: Our system is designed as a research tool to help scientists identify relevant findings in the research literature. It is NOT designed to detect misinformation or disinformation in the news or social media…. Our system can assess whether a scientific paper provides evidence supporting or refuting a scientific claim.“ In dem Preprint “Fact or Fiction: Verifying Scientific Claims” auf arxiv.org wird das Verfahren erläutert.

Analysieren wir die einzelnen Komponente von SCIFACT:

Datenbasis
– Wikipedia
Es wird nicht dargestellt, welche Daten aus Wikipedia übernommen werden. Aufgrund der sozialen Konstruktion von Wikipedia und der unterschiedlichen Qualität der Artikel ist eine kritische Prüfung auf Plausibilität, Vollständigkeit und Objektivität an externen Quellen immer erforderlich. Der Verweis auf FEVER (a large-scale dataset for Fact Extraction and VERification), das Wikipedia-immanent Sätze abprüft, reicht nicht aus.
– Abstracts von S2ORC-Artikeln
Eine Auswahl von Open Source Artikeln in S2ORC  (The Semantic Scholar Open Research Corpus) , die aus zuverlässigen Quellen stammen und mindestens 10 Zitierungen aufweisen.
Mit Hilfe studentischer Hilfskräfte werden aus diesen Artikeln Behauptungen (Claims) extrahiert und nach SUPPORTS, REFUTES, NOINFO einer Behauptung klassifiziert.
Abgesehen von der fachlichen Kompetenz der studentischen Hilfskräfte werden statisch die Aussagen der Wissenschaftsparadigmen eines bestimmten Zeitpunkts festgehalten. Nicht zuletzt der Wissenszuwachs zu Covid-19 verdeutlicht die Problematik des Vorgehens. Zusätzlich erfolgt eine Komplexitätsreduktion wissenschaftlicher Analyse und Diskurs durch Klassifikation auf 3 Elemente: Zustimmung, Ablehnung, Neutral.

Verfahren
Anschließend prüft ein neuronales Netzwerk die Claims gegen Abstracts, also nicht den Volltext, der Fachliteratur. Während in der dokumentarischen Arbeit der Fachdatenbank das Abstract mit DIN und ISO-Normen eine kurze, genaue und neutrale Wiedergabe des Inhalts gewährleistet, steht im wissenschaftlichen Abstract die Funktionserfüllung im Zentrum: der intendierte Adressat soll entscheiden, ob er den Originaltext lesen sollte, muss also eine kommunikative Funktion innerhalb der wissenschaftlichen Zielgruppe erfüllen.

Ergebnis

Bewertung
Bei dieser Art von Fact Checking handelt es sich um ein komplexes semantisches Problem. Ausgehend von einer fragwürdigen Datenbasis und normativen Festlegungen soll mit pattern matching zweier Textsorten eine inhaltliche Relevanz erzielt werden. Was soll z.B. eine derartige 58%ige Übereinstimmung für wissenschaftliche Relevanz bedeuten?

„Insofern kann die Arbeit als erster Beleg für die Machbarkeit eines KI-basierten Systems für Fakten-Checks gelten“, jubeln die IT-Nerds von Heise. Dies lässt das Schlimmste für zukünftige Evaluationen von KI-Anwendungen befürchten. Denn was hier produziert wird, ist Datenmüll.

Weitere Links zu SCIFACT:
https://www.heise.de/news/KI-Werkzeug-soll-Fachliteratur-zu-Covid-19-automatisch-einschaetzen-4772788.html
https://www.technologyreview.com/2020/05/29/1002349/ai-coronavirus-scientific-fact-checking/
https://theusbreakingnews.com/allen-institutes-verisci-uses-ai-to-fact-check-scientific-claims/
https://venturebeat.com/2020/05/04/allen-institutes-verisci-uses-ai-to-fact-check-scientific-claims/

Sechs Digitalisierungsmythen

Veröffentlicht am

„Welche sozialen und politischen Konsequenzen haben automatisierte Entscheidungen von Computern? Wie beeinflussen sie unser alltägliches Leben? Und was passiert, wenn Maschinen diskriminieren? Diskutiert man über die Digitalisierung, geht es immer auch um diese Fragen.“ Diese Fragen stellt Jürgen Geuter: Nein, Ethik kann man nicht programmieren. Ethik kann man in Code festschreiben und künstliche Intelligenz ist in 20 Jahren besser als der Mensch? Nein. Sechs Digitalisierungsmythen, über die wir reden müssen, in: ZEIT Online vom 27.11.2018:
Irrtum 1: Die Anwendung von Ethik kann man in Computerprogrammen formulieren
Ethische Entscheidungsprozesse sind komplexe soziale und psychologische Vorgänge, die trotz identischer ethischer Regeln je nach sozialem, politischem, religiösem oder kulturellem Hintergrund zu unterschiedlichen Ergebnissen führen können und deshalb im Diskurs ausgehandelt werden und nicht automatisiert werden können.
Irrtum 2: Daten erzeugen Wahrheit, und falls nicht, braucht man einfach mehr Daten
Daten selbst sind nicht neutral, sondern mit impliziten Annahmen befrachtet, die sichtbar, analysierbar und zu bewerten sind. (Ich füge hinzu: Seitdem ich diesen Blog betreibe, stoße ich laufend auf Daten, die bewusst verfälscht oder sogar einfach erfunden und anschließend erfolgreich in den öffentlichen medialen Diskurs eingebracht werden.)
Irrtum 3: In 20 Jahren gibt es eine künstliche Intelligenz, die genauso gut wie oder besser ist als menschliche
„…heute populäre Technologien wie etwa neuronale Netze sind weit entfernt von allem, was wir Intelligenz nennen würden. Sie sind Systeme automatisierter Statistikanwendung, die auf extrem spezielle Anwendungsfälle trainiert wurden und auseinanderfallen, sobald die Eingabe den engen Korridor der ihnen bekannten Daten verlässt…Letztlich existiert künstliche Intelligenz nicht. Und sie ist auch nicht nah. Es existieren leistungsfähige Statistiksysteme, denen durch einen attraktiven Namen eine gewisse Magie zugesprochen werden soll. „Künstliche Intelligenz“ ist nur ein Werbebegriff.“
Irrtum 4: Diskriminierung durch Algorithmen ist schlimmer als Diskriminierung durch Menschen
Die scheinbar neutralen Entscheidungen der Computer zementieren nur die schon vorhandenen Diskriminierungsstrukturen: „Während der Entwicklung dieser Systeme automatisieren Personen bestehende, tief in organisatorische Prozesse integrierte Formen der Diskriminierung und strukturellen Gewalt.“
Irrtum 5: Gesetze und Verträge können in Code ausgedrückt werden, um ihre Anwendung zu standardisieren
Gesetze und Verträge können nur in Standardsituationen erfolgreich in Programmcode ausgedrückt werden. Zum Teil muss aber eine Situation neu interpretiert und das Recht neu ausgelegt werden.
Irrtum 6: Digitale Freiheit drückt sich in der vollständigen Autonomie des Individuums aus
Die Gleichsetzung von Open Source Software mit Freiheit setzt ein privilegiertes digital autonomes und kompetentes, aber gleichzeitig darauf reduziertes Individuum voraus. „Wenn das Internet als ein Werkzeug der Freiheit wirken soll, dann kann ein digitaler Freiheitsbegriff sich nicht in isolationistischen Individualismus flüchten.“
Der Autor schließt: „Genauso wie die Digitalisierung versucht, die Welt der Software zugänglich zu machen, muss jetzt die Sozialisierung des Digitalen vorangetrieben werden: die Gestaltung auch unseres digitalen Lebens als kommunikatives, humanes Netzwerk zum Wohle der Menschen.“