Covid-19: KI produziert Datenmüll

Veröffentlicht am

Die Ergebnisse von Anwendungen Künstlicher Intelligenz (KI) sind schwierig zu evaluieren. Es scheint, dass einige Unternehmen, wie das von dem CDU Politiker Philipp Amthor lobbyierte Augustus Intelligence nur aus geschickter Public Relation besteht. Es soll, so das Handelsblattkein Produkt, keine Kunden und keine Umsätze“ haben.

Das Allen Institute for Artificial Intelligence (AI2), das vom verstorbenen Microsoft-Mitbegründer Paul Allen gegründet wurde und KI-Systeme mit Argumentations-, Lern und Lesefähigkeiten konstruiert, präsentiert SCIFACT, das Fachliteratur zu Covid-19 automatisch klassifizieren soll. Eine Anwendung, die für das Information Retrieval von größtem Interesse sein könnte.

About our model: Our system is designed as a research tool to help scientists identify relevant findings in the research literature. It is NOT designed to detect misinformation or disinformation in the news or social media…. Our system can assess whether a scientific paper provides evidence supporting or refuting a scientific claim.“ In dem Preprint “Fact or Fiction: Verifying Scientific Claims” auf arxiv.org wird das Verfahren erläutert.

Analysieren wir die einzelnen Komponente von SCIFACT:

Datenbasis
– Wikipedia
Es wird nicht dargestellt, welche Daten aus Wikipedia übernommen werden. Aufgrund der sozialen Konstruktion von Wikipedia und der unterschiedlichen Qualität der Artikel ist eine kritische Prüfung auf Plausibilität, Vollständigkeit und Objektivität an externen Quellen immer erforderlich. Der Verweis auf FEVER (a large-scale dataset for Fact Extraction and VERification), das Wikipedia-immanent Sätze abprüft, reicht nicht aus.
– Abstracts von S2ORC-Artikeln
Eine Auswahl von Open Source Artikeln in S2ORC  (The Semantic Scholar Open Research Corpus) , die aus zuverlässigen Quellen stammen und mindestens 10 Zitierungen aufweisen.
Mit Hilfe studentischer Hilfskräfte werden aus diesen Artikeln Behauptungen (Claims) extrahiert und nach SUPPORTS, REFUTES, NOINFO einer Behauptung klassifiziert.
Abgesehen von der fachlichen Kompetenz der studentischen Hilfskräfte werden statisch die Aussagen der Wissenschaftsparadigmen eines bestimmten Zeitpunkts festgehalten. Nicht zuletzt der Wissenszuwachs zu Covid-19 verdeutlicht die Problematik des Vorgehens. Zusätzlich erfolgt eine Komplexitätsreduktion wissenschaftlicher Analyse und Diskurs durch Klassifikation auf 3 Elemente: Zustimmung, Ablehnung, Neutral.

Verfahren
Anschließend prüft ein neuronales Netzwerk die Claims gegen Abstracts, also nicht den Volltext, der Fachliteratur. Während in der dokumentarischen Arbeit der Fachdatenbank das Abstract mit DIN und ISO-Normen eine kurze, genaue und neutrale Wiedergabe des Inhalts gewährleistet, steht im wissenschaftlichen Abstract die Funktionserfüllung im Zentrum: der intendierte Adressat soll entscheiden, ob er den Originaltext lesen sollte, muss also eine kommunikative Funktion innerhalb der wissenschaftlichen Zielgruppe erfüllen.

Ergebnis

Bewertung
Bei dieser Art von Fact Checking handelt es sich um ein komplexes semantisches Problem. Ausgehend von einer fragwürdigen Datenbasis und normativen Festlegungen soll mit pattern matching zweier Textsorten eine inhaltliche Relevanz erzielt werden. Was soll z.B. eine derartige 58%ige Übereinstimmung für wissenschaftliche Relevanz bedeuten?

„Insofern kann die Arbeit als erster Beleg für die Machbarkeit eines KI-basierten Systems für Fakten-Checks gelten“, jubeln die IT-Nerds von Heise. Dies lässt das Schlimmste für zukünftige Evaluationen von KI-Anwendungen befürchten. Denn was hier produziert wird, ist Datenmüll.

Weitere Links zu SCIFACT:
https://www.heise.de/news/KI-Werkzeug-soll-Fachliteratur-zu-Covid-19-automatisch-einschaetzen-4772788.html
https://www.technologyreview.com/2020/05/29/1002349/ai-coronavirus-scientific-fact-checking/
https://theusbreakingnews.com/allen-institutes-verisci-uses-ai-to-fact-check-scientific-claims/
https://venturebeat.com/2020/05/04/allen-institutes-verisci-uses-ai-to-fact-check-scientific-claims/

CORD-19: The Covid-19 Open Research Database

Veröffentlicht am

Neben den Information der Deutschen Zentralbibliothek für Medizin (ZB MED) – Informationszentrum Lebenswissenschaften hat in den USA Semantic Scholar, „a team of researchers and engineers at the Allen Institute for AI building a smarter way to search and discover scientific knowledge, powered by state-of-the-art AI technology, completely free to use by scholars everywhere“ eine umfassende Datenbasis zu COVID-19 aufgebaut: CORD-19. Sie enthält zur Zeit ca. 59.000 Dokumente (Metadaten und Volltexte). Metadaten, Paper und Preprints aus verschiedenen Quellen werden geladen. Metadaten werden harmonisiert und Dubletten entfernt. Aus den Dokumenten wird der Volltext extrahiert und suchbar gemacht. Das Verfahren wird in einem Paper beschrieben CORD-19: The Covid-19 Open Research Database. Neben den Dokumenten selbst werden verschiedene Suchoptionen und Instrumente zur Visualisierung von Forschungszusammenhängen und Begriffen angeboten.

Corona App: Scheitern und Schuld

Veröffentlicht am

Eine Corona App soll den Zeitraum zwischen dem Auftreten erster Krankheitssymptome bei einer Person und dem Tracking ihrer Kontakte, die sie angesteckt haben könnte, durch die Amtsärzte verkürzen. Die institutionelle Disziplinierung und Regulierung der Körper reicht hier nicht aus. Foucault hat beschrieben, wie die Disziplinarmacht nicht nur von außen durch Institutionen, sondern auch von innen als Selbstdisziplinierung wirkt.

Ein geeignetes Handy liegt vor, die App ist von der betroffenen Person installiert und immer eingeschaltet. Ziel ist es, festzustellen, ob ein Abstand zwischen Menschen, der eine existentielle Schutzfunktion hat, durchbrochen wurde. Eine andere Person hat diese Schutzzone verletzt und ihre Viren dringen in den eigenen Körper ein.

Nachdem sie von ihrer Infektion durch Test erfahren hat, soll sich die betroffene Person als Opfer outen – und gleichzeitig Täter sein, der seine Kontakte identifiziert und im positiven Handeln negative Folgen hervorruft: Die meisten Kontakte sind Familie, Freunde, Bekannte und Kollegen, die sich nach ihrer Identifizierung in Quarantäne begeben sollen und soziale, berufliche und finanzielle Nachteile erleiden.

Sie befindet sich in einer Double-Bind-Situation, in der widersprüchliche Zielsetzungen verfolgt werden. (mehr …)

Informationen und Quellen zu COVID-19

Veröffentlicht am

Die Deutsche Zentralbibliothek für Medizin (ZB MED) – Informationszentrum Lebenswissenschaften baut sukzessive spezielle Services zur Forschungsunterstützung zu COVID-19 auf.

  • Ein Auszug aus LIVIVO, dem „search portal for medicine, health, nutrition, and environmental and agricultural Sciences“ mit 58 Millionen Nachweisen. In LIVIVO COVID-19 Collectionyou will find about 50,000 entries about COVID-19 / SARS-CoV-2 from various scientific sources as well as current relevant preprints from bioRxiv and medRxiv. Furthermore it covers articles included in the COVID-19 Open Research Dataset (CORD-19) and other sources.
  •  Frei verfügbare wissenschaftliche Veröffentlichungen sowie weitere zuverlässige Internetquellen rund um das Coronavirus SARS-CoV-2 und die Erkrankung COVID-19 werden systematisiert zusammengestellt.
    nach Typen (databases, data Collections, general Information, journal articles / E-Books, Preprints, search Portal, training material)
    nach Themen
    — O
    verview / multiple disciplines
    — Medicine / Life Sciences (animal and wildlife related, chemistry / pharmacology, clinical Trials, dermatology, intensive care, microbiology, natural Sciences, nephrology and dialysis, oncology, patient and clinical Information, pediatrics, psychology / psychiatry, pulmonology, radiology)
    — Public Health (epidemiology, evidence-based Medicine,  public Health)
    —- Social life (legal Acts, social Impact)
  • Der ZB MED-Blog  weist auf aktuelle „Informationen in Zeiten von Corona“ hin
  • Speziell für die Forschung werden Werkzeuge und Datensätze sowie Hilfestellungen zur Publikation von Forschungsdaten angeboten 

Das Wiki LexCoronasoll eine Übersicht über die in Deutschland im Zusammenhang mit der sogenannten Corona-Krise erlassenen Rechtsakte (Gesetze, Rechtsverordnungen, Allgemeinverfügungen etc.) und Gerichtsentscheidungen bieten„.

Coronavirus: die Hölle der Normalverteilung

Veröffentlicht am

Das Forschungsteam der Universität Basel hat ein Covid19 Modellszenario entwickelt. Es zeigt je nach Land und einstellbaren Parametern die exponentielle Entwicklung des Virus und die Abflachung der Kurve, wenn Sättigungsbereiche erreicht oder aber die exponentielle Verbreitung unterbrochen werden. Sieht man dieses Modellszenario, kann nur eine einzige Handlungsmöglichkeit übrigbleiben: die radikale Unterbrechung der Infektionskette, d.h. der exponentiellen Verbreitung des Virus.

In deutschen und internationalen Medien wird jedoch stattdessen mit einem Modell einer Karikatur einer Gausschen Normalverteilungskurve gearbeitet. Karikatur deswegen, weil auf beiden Achsen die Skalierung fehlt.

Siouxsie Wiles and Toby Morris / CC BY-SA https://creativecommons.org/licenses/by-sa/4.0)

Joscha Bach Don’t “Flatten the Curve,” squash it! , https://medium.com/@joschabach/flattening-the-curve-is-a-deadly-delusion-eea324fe9727 , deutsche Übersetzung hier , hat dies analysiert und kommt zu dem Schluss:

Was alle diese Diagramme gemeinsam haben:
– Sie haben keine Zahlen an den Achsen. Es wird nicht deutlich, welche Anzahl von Fällen notwendig ist, um das Gesundheitssystem zu überlasten und über wie viele Tage sich die Epidemie erstrecken wird.
– Sie suggerieren, dass das Gesundheitssystem zum jetzigen Zeitpunkt mit einem großen Anteil der Fälle (z.B. 2/3, 1/2 oder 1/3) fertigwerden kann, und dass, wenn wir Abschwächungsmaßnahmen umsetzen, wir die Infektionen pro Tag auf ein Niveau reduzieren können, mit dem wir generell fertigwerden.
– Sie sollen uns letztendlich sagen, dass wir um so strenge Abriegelungen herumkommen, wie wir sie aktuell in China oder Italien beobachten können. Stattdessen lassen wir die Infektion sich durch die komplette Bevölkerung (langsam) ausbreiten, bis Herdenimmunität (bei 40% bis 70%) erreicht wird, indem die Infektionen auf eine längere Zeitspanne verteilt werden.

Bach trägt auf beiden Achsen Skalierungen entsprechend empirischer Daten auf und kommt zu katastrophalen Ergebnissen, die keine andere Lösung als eine rigide Eindämmung des Virus offenlassen.

Die Frage ist, wieso trotzdem mit diesem Modell der Normalverteilung gearbeitet und an ihm festgehalten wird.
Die Gausssche Normalverteilung ist zunächst ein statistisches Werkzeug, um Massendaten zu analysieren. Problematisch wird es, wenn damit Wirklichkeit modelliert werden soll. Dazu gibt es verschiedene Publikationen wie z.B. „The Myth of the Normal Curve“ . Oder wir lassen einfach das Fazit einer finanzanalytischen Analyse stehen: „Wer sich auf die Normalverteilung verlässt, blendet Risiken systematisch aus und wird irgendwann von der Realität überholt.“

Die Glockenkurve enthält ein mechanistisches Weltbild. „Foucault konstatierte, dass vom Menschen im wissenschaftlichen Sinne erst seit dem späten 18. Jh. gesprochen wird. Ein halbes Jahrhundert später taucht der mittlere Mensch auf. Es scheint, als sei der mittlere Mensch eine Orientierungsgröße, die das Individuum in der Moderne, als vielfach bedrängtes Individuum, entlasten soll. Der Durchschnittsmensch steht – so die These – für ein Verhältnis von Individualisierung und Disziplinierung“, schreiben Andreas Bischof, Mario Schulze, Hanna Steffen in ihrem Beitrag „Die Flucht ins Normale“. Nur scheinbar ist der „mittlere Mensch“ in der Individualisierung aufgelöst. In der Krise steht der Zusammenhalt in Frage und muss neu konstruiert werden. „Die Integration der Gesellschaft läuft über die Idealisierung des Durchschnitts, der Mitte. Die Gesellschaft wird nach Zentrum und Peripherie unterteilt, nachdem sie im Zuge der Individualisierung/Atomisierung ihr Zentrum verloren hat. Der Zusammenhalt steht in Frage; und gerade deswegen muss ein gesellschaftliches Zentrum mit zunehmender Vehemenz konstruiert werden. Diese Gesellschaft findet ihr Bild in der Glockenkurve.“

Dass diese mentale Disziplinierungstechnik weitgehende Akzeptanz findet, erstaunt. Das ursprüngliche Konzept, die Durchseuchung der Gesellschaft hinzunehmen, um eine Herdenimmunität herzustellen, beinhaltet schließlich Krankheit unterschiedlicher Schwere für 60 – 80 % der Gesellschaft und die Hinnahme von Toten im fünf- bis sechsstelligen Bereich. Die sonst leicht entflammbare Empörungskultur ist verstummt. Auch wenn man inzwischen von diesem offenen Konzept abrückt, zeigen Maßnahmen, die die exponentielle Verbreitung des Virus nicht in ausreichendem Maße verhindern, ähnliche Folgen. Glücklicherweise muss quasi naturgesetzlich hierfür verantwortlich nur einer sein: die Glockenkurve. (z.B. R. Schlickeiser, F. Schlickeiser: A Gaussian model for the time development of the Sars-Cov-2 corona pandemic disease. Predictions for Germany made on March 30, 2020)

Coronavirus mit verteilten Computern entschlüsseln

Veröffentlicht am

Folding@home ist ein Projekt der Stanford University in den USA zur Krankheitsforschung, das das die Proteinfaltung, die rechnergestützte Entwicklung von Medikamenten und andere Arten von Molekulardynamik simuliert. (Hier Beschreibung in Wikipedia.)
Jeder Benutzer eines PCs mit Windows, Mac OS X oder Linux kann ein Programm herunterladen, welches als Dienst im Hintergrund bestimmte Teilaufgaben abarbeitet und diese an den Zentralrechner in Stanford übermittelt. In diesem verteilten Computernetzwerk wird die räumliche Faltung von Proteinen simuliert, die ihre Funktion bedingt. Die Entschlüsselung könnte zum Verständnis und zu Therapien für Krebs, neurologische Krankheiten wie Alzheimer und Infektionskrankheiten wie Dengue Fieber, Zika und Ebola Virus und Hepatitis C führen.
Am 10. März hat Folding@home bekanntgegeben, dass es sich nunmehr nach Vortests auch der Entschlüsselung des Coronavirus (COVID-19) widmet.

„Folding@home team has released an initial wave of projects simulating potentially druggable protein targets from SARS-CoV-2 (the virus that causes COVID-19) and the related SARS-CoV virus (for which more structural data is available) into full production on Folding@home…
This initial wave of projects focuses on better understanding how these coronaviruses interact with the human ACE2 receptor required for viral entry into human host cells, and how researchers might be able to interfere with them through the design of new therapeutic antibodies or small molecules that might disrupt their interaction.“

Das Projekt wird ausführlich auf Github beschrieben, der aktuelle Stand ist außerdem auf dem Blog und dem Twitter-Account von Folding@home nachzuvollziehen.

Ich brauche wohl nicht extra zu betonen, wie wichtig es ist, dass sich möglichst viele an diesem Projekt beteiligen.

Sprache und Digitalisierung

Veröffentlicht am

Wir hatten schon darauf hingewiesen, dass Naturmetaphern die Sicht auf die Digitalisierung verstellen. In der Veranstaltung „#2 Smarte Algorithmen statt mündiger Menschen?“ der Veranstaltungsreihe „Philosophie des Digitalen“ wurden zwei Aspekte der Sprache des Digitalen behandelt.
Der Berliner Philosoph Christian Uhle weist darauf hin, dass die KI mit anthropomorphen Begriffen beschrieben wird, z.B. mit dem Begriff des Lernens oder der Bilderkennung, in der „Erkennung“ unterstellt wird, wo es sich nur um einen binären Mustervergleich handelt.
Janina Loh, Roboterethikerin an der Uni Wien stellt dar, dass wir bei Maschinen häufig von der besonderen Ebene auf die abstrakte Ebene wechseln. Z.B. wird vom Schachcomputer auf „die Maschinen“ geschlossen, während wir bei Tieren, der speziellen Begabung eines Lawinenspürhundes etwa, nicht auf „das Tier“ schließen würden. Wir müssten erkennen und entsprechend auch sprachlich damit umgehen, dass wir konkrete Technologien für konkrete Kontexte mit ganz besonderen Inselbegabungen vor uns haben.

Es ist verständlich und vielleicht sogar notwendig, dass solche Übertragungen entstehen: „Neue Phänomene erzwingen neue Begriffe oder Übertragungen alter Begriffe in neue Gebiete. Metaphorische Übertragungen funktionieren auch deshalb so gut, weil sie Bilder abrufen, die wir zu den sprachlichen Konzepten gespeichert haben. Wenn sich neue Bereiche zeigen, oder technologische Entwicklungen ganze neue Landschaften entstehen lassen, so besteht der Drang, die neuen Erscheinungsformen, Dinge und Prozesse zu benennen. Nur dasjenige, wofür wir geeignete Begriffe haben, lässt sich von uns sinnvoll verhandeln“, schreibt die Sprachphilosophin Tine Melzer in ihrem Beitrag „Wie die Digitalisierung auch unsere Sprache verändert“ in SocietyByte. Wenn wir über Digitalisierung sprechen, brauchen wir aber nicht nur neue Worte, sondern auch neue Metaphern. „Die Inhalte und Bedeutungen müssen sich schlüssig in der Sprache abbilden. Es ist wichtig, wie wir über Digitalisierung und Digitalität sprechen, wenn wir sie richtig verstehen und entwickeln können möchten.“

 

Philosophie des Digitalen

Veröffentlicht am

In der Veranstaltungsreihe „Philosphie des Digitalen“ im Literaturforum des Berliner Brecht Hauses werden verschiedene philosophische Aspekte der fortschreitende Digitalisierung diskutiert. Bisherige Veranstaltungen:
Menschenbilder: #1 Mensch und Kultur im Wandel des Digitalen
Mündigkeit: #2 Smarte Algorithmen statt mündiger Menschen?
Romantik: #3 Liebe im Digitalen
Vertrauen: #4 Vertrauen oder Transparenz?
Einsamkeit #5 Vernetzt und doch allein?

North Data: Transparenz im Firmengeflecht

Veröffentlicht am

North Data analysiert Handelsregisterbekanntmachungen und andere Pflichtveröffentlichungen deutscher Firmen, um Wirtschaftsinformationen zu gewinnen, insbesondere zu finanziellen Kennzahlen und zu Zusammenhängen zwischen Firmen untereinander sowie zu Personen. Dazu werden Methoden der Big-Data-Verarbeitung und der Künstlichen Intelligenz (KI) verwendet.“ Neben der Premium-Suche, die noch weitere geografische Eingrenzung und Filterung nach mehreren Parametern zulässt, ist kostenlos schon die Suche nach Gewinn- und Umsatzzahlen deutscher Firmen möglich. Dargestellt werden die Historie, das Netzwerk von Personenfunktionen (Vorstand, Prokura, Geschäftsführer usw.), Jahresabschluss/ Konzernabschluss und die Publikationsdaten.
Zu dem Hintergrund hat Digitalkaufmann in einem Blog-Beitrag „Bundesanzeiger 2.0 oder Stalking für Firmen“ ein Interview mit dem Gründer Frank Felix Debatim geführt.

Google: Die nationale Informationsblase verlassen

Veröffentlicht am

Recherchemeisterin weist in ihrem Blog „Profi-Wissen“ auf ein Problem bei der Google-Suche hin. Will man sich aus der nationalen Informationsblase befreien und thematisch in anderen Ländern und Sprachen suchen, so ist dies nicht mehr so einfach möglich.
„Die Bearbeitung des Standorts durch die Eingabe einer Stadt oder Postleitzahl ist nicht mehr möglich. Google ermittelt den Standort nun von alleine zuverlässig“, schreibt Google.
Selbst wenn ich also in der Adressleiste google.fr eingebe, verbleibe ich im deutschen Index- und Werbebereich. Das frühere Kommando ncr (no country redirect – z.B. google.fr/ncr) existiert außerdem nicht mehr. Aber auch das von ihr dargestellte Möglichkeit, „google France“ zu suchen und das Ergebnis zu übernehmen, funktioniert nicht mehr. Es verbleibt nur eine Möglichkeit:
– Suchbegriff eingeben
– Unter Einstellungen -> Sucheinstellungen „Regionseinstellungen“ das Land auswählen. Jetzt erscheint als Standort „France Position inconnue“. Aber erst wenn noch unter „Sprachen“ francais ausgewählt wird, erscheinen keine deutschsprachigen Ergebnisse mehr und wir verlassen die deutschsprachige Werbewolke.

Page 1 of 7
1 2 3 7