Datenanalyse – Retrieval Dreams

Transkriptionssoftware

Testbericht der automatisierten Transskriptionssoftware noScribe : Sozialwissenschaftliche Methodenberatung. Automatische Transkriptionssoftware – ein Erfahrungsbericht
“Die Software erlaubt es, datenschutzkonforme Transkriptionen auf dem eigenen Rechner anzufertigen. Dabei kann die Sprache der Aufnahme ausgewählt, die Qualität der Transkription (precise/fast), eine Markierung von Pausen (non vs. ab 1/2/3 Sekunden) sowie die automatische Sprecher:innenerkennung ein und ausgeschaltet werden. Auch kann ein Erkennen überlappender Sprecher:innen aktiviert werden sowie das Erstellen von Zeitmarken. Ausgegeben wird von der Software ein HTML Dokument”

Bildforensik

Open Access Roland Meyer (Hrsg.) Praktiken der Bildforensik Band 19 der Bildwelten des Wissens: Bilder unter Verdacht
“Nicht erst seit den Diskussionen um „Deepfakes” und generative KI stehen digitale Bilder unter Manipulationsverdacht. Während in den 1990er Jahren allerdings jeder digitale Bildbeweis fragwürdig erschien, haben sich mittlerweile pragmatische Antworten durchgesetzt. Ob und wie digitale Bilder tatsächlich manipuliert wurden, lässt sich in vielen Fällen mittels Verfahren der Bildanalyse und der vergleichenden Datenauswertung nachweisen. Solche Praktiken der Bildforensik stehen im Mittelpunkt des Bandes. Der Blick auf wissenschaftliche ebenso wie ästhetische Verfahren, auf kriminalistische Methoden, populäre Fernsehserien und künstlerische Praktiken zeigt dabei, wie der Verdacht gegenüber Bildern selbst produktiv wird: Er bringt nicht nur neue Bilder hervor, sondern auch ein neues prozessuales Verständnis digitaler Bildlichkeit.”

Informationsfreiheitsgesetze als Werkzeug

Ausgabe 27 der Online-Recherche Newsletter: ORN #37 An nicht-öffentliche Dokumente rankommen. “In dieser Ausgabe geht es um ein mächtiges Werkzeug: Informationsfreiheitsgesetze, kurz IFG. Sie machen ungeahnte Recherchen möglich und bringen unter Verschluss gehaltene Dokumente ans Tageslicht. Dabei helfen auch internationale Websites. Im Werkstatt-Interview berichtet Haluka Maier-Borst von seiner Daten-Recherche über die frustrierende Wartezeit auf Praxistermine.”

Datenquellen

“Im Internet und in öffentlichen Registern stecken viele Datenschätze mit Informationen über Unternehmen. Das Panel zeigt einige lohnenswerte Datenbanken und welche Geschichten mit ihrer Hilfe entstehen können. Es wird auch erklärt, wie ein Antrag auf Einsicht in das Grundbuchamt gestellt werden kann. Unter den vorgestellten Datenbanken sind das Handelsregister, eine Datenbank über Fördermittel des Bundes und eine Datenbank für Ausschreibungen in der Europäischen Union: Tenders Electronic Daily. Die Datenbanken lassen sich auch für Lokaljournalismus nutzen.”
Ein auf Youtube aufgezeichneter Livestream der Netzwerk Recherche – Jahreskonferenz 2023

DSVGO als Verhängnis

Vor vier Jahren am 25. Mai 2018 ist die Datenschutzgrundverordnung der EU (DSVGO) in Kraft getreten. Anlaß, einen kritischen Rückblick darauf zu werfen.
Im Dezember 2021 hat sich die Wissenschaftskonferenz “European Data Summit” der Konrad-Adenauer-Stiftung mit der Datenschutzverordnung DSVGO beschäftigt: European Data Summit: Ready for Competition? | Day 2 (December 2, 2021) Winfried Veil: The blind spots of the GDPR: time for reform and repair und die folgende Diskussion Implementing and complementing it or fixing it: The GDPR – The law of unintended consequences)

Winfried Veil “The blind spots of the GDPR: time for reform and repair” diagnostiziert 13 struktuelle Probleme, die bislang noch nicht erkannt werden.

Der one-size-fits-all-Ansatz verpflichtet alle gleichermaßen unabhängig von der Größe, dem Zweck (profitorientiert oder eigennützig, privat oder öffentlich) und dem Niveau (alltäglicher Prozeß oder komplizierter Algorithmus, geringes oder hohes Risiko).
Alles-oder-Nichts-Ansatz: Wenn es personenbezogene Daten gibt, gelten alle Regeln des Datenschutzrechts. Umgekehrt gibt es gar keine Regelung, wenn es keine personenbezogenen Daten gibt. Entsprechend wird der Personenbezug von Daten ausgeweitet.
Verarbeitung personenbezogener Daten ist grundsätzlich verboten, es sei denn, es gibt einen gesetzlichen Grund für die Erlaubnis bzw. es liegt eine explizite Erlaubnis der betroffenen Personen vor. Damit ist auch klar, dass sie sozial unerwünscht ist. Ein Generalverdacht wird konstituiert, der von dem Gebrauch von Grundrechten abhalten kann. Diese Regelungstechnik führt zu zahlreiche Ausnahmen und Diskussionen und führt zu Rechtsunsicherheit und Verrechtlichung des Alltags.
Das Datenschutzgesetz ist inputorientiert, es regelt in erster Linie die Erhebung von Daten und die Speicherung von Daten. Es berücksichtigt nicht die Verwendung von Daten und klärt nicht, welcher Output sinnvoll und wertvoll sein kann.
Der Nutzen der Datenverarbeitung taucht nicht auf und ist ist keine Rechtskategorie des Datenschutzrechts.
Der Focus liegt auf der Kontrolle der individuellen Verarbeitung von Daten. Demgegenüber kann das öffentliche Interesse nur unter bestimmten Bedingungen verfolgt werden, die gegebenenfalls bereichsspezifische Gesetze festlegen.
Eine Privatperson kann nur im eigenen Interesse oder im Interesse eines Dritten handeln, nicht aber im öffentlichen Interesse.
Die individuellen Daten werden als Objekte behandelt, als Ware, die knapp gehalten werden kann. Der Informationsgehalt und der wirtschaftliche Wert der unkörperlichen Daten werden nicht erkannt. Unsere kontextabhängigen Einzeldaten sind bei vielen Datenverarbeitungsvorgängen, wie z. B. Big-Data-Algorithmen, irrelevant.
Alle Daten erscheinen gleich viel wert zu sein. Die Verarbeitung durch eine einzige zentrale lokale Stelle und gegebenenfalls einer festen physischen Ressource ist- ebenso wie der einzelne Kontrolleur – durch Cloud Computing, Blockchain und globale Vernetzung obsolet geworden.
Das Prinzip der Begrenzung der Zweckbindung schließt zufällige Entdeckungen auf dem Gebiet der Wissenschaft aus z.B. die Entdeckung von Korrelationen und das Prinzip der Minimierung von Daten schließt von vornherein die Zurückhaltung von Daten aus, die in öffentlichem Interesse sind.
Die DSVGO basiert auf dem Grundrecht auf Datenschutz. Ein Eingriff ist dieses Grundrecht durch Verarbeitung personenbezogener Daten ließe sich nur durch ein anderes geschütztes Interesse legitimieren. Das ursprüngliche Schutzinteresse der Privatsphäre wird aber nicht mehr erwähnt, sondern zum Schutz aller Rechte und Freiheiten erweitert.
Die DSVGO enthält 82 Bestimmungen, nach denen jeder Verantwortliche eine Rechteabwägung vornehmen muss. Standards und Maßstäbe für diese Prüfungen fehlen.
Da es nach der DSVGO keine trivialen Daten gibt, ist die Verarbeitung personenbezogener Daten nie risikofrei. Der Zweck der Verarbeitung muss präventiv bestimmt werden und einen Rechtsweg festlegen.
Stellen die Pflichten der DSVGO einen Eingriff in die Privatautonomie dar?

Die Bestandsaufnahme der DSVGO ist dort vernichtend ausgefallen: Die Verordnung gängele kleine Internetanbieter, während die Geschäftspraktiken der Datensammelwut der GAFA (Google, Apple, Facebook und Amazon) kaum tangiert werden. Die Nutzer – noch durch entsprechende Gestaltung der Webseiten und Cookie-Banner zusätzlich manipuliert – müssen in die Verarbeitung ihrer Daten einwilligen, wenn sie die Services nutzen wollen. Die weitere Aggregration und Auswertung der Daten kann kaum kontrolliert werden. Die großen Unternehmen haben das Geld und die Arbeitskraft, Einwilligungen, die man wie Gummi dehnen kann, von den Benutzern zu verlangen.

Bellingcat Tools

Bellingcat, das investigative Recherchenetzwerk, das als Open Source Intelligence (OSINT) agiert, hat verschiedene Tools für investigative Recherchen zur Verfügung gestellt:

1. Öffentlich zugängliche vorhandene Werkzeuge
Bellingcat’s Online Investigation Toolkit [bit.ly/bcattools] Tabellarische Übersicht von Tools zu WHOIS, IPs, & WEBSITE ANALYSIS
Bellingcat Osint Landscape tabellarisch (Stand: 2018)
Bellingcat Osint Landscape grafisch (Stand 2018)
Dazu ist aktuell zu ergänzen:
Osint Framework

Twitter-Datenanalyse Diskussion Corona

Dana Hajek: Wir gegen die, Frankfurter Allgemeine Zeitung 17.02.2022 legt eine statistisch und grafisch aufbereitete Datenanalyse vor. Analysiert wurden alle deutschsprachigen Tweets, Retweets und Replys zwischen dem 1. November 2021 und dem 9. Dezember 2021, die den Suchbegriff #Impfung enthalten. Es wird sichtbar, “wie stark die Debatte polarisiert: mit den dichten, sehr engmaschig vernetzten Impfkritikern auf der einen Seite und den loser vernetzten Accounts der Impfbefürworter auf der anderen Seite. Es hat sich eine sprachliche als auch eine thematische Abgrenzung zwischen den Gruppen herausgebildet, obwohl sie denselben Hashtag verwenden. Anders gesagt: Sie streiten nicht miteinander. Sie ignorieren sich.”
Die Analyse konstatiert einen rasanten Zuwachs der Impfkritiker innerhalb eines Jahres, der auf 7 Merkmale zurückzuführen ist. 1. Impfbefürworter agieren “heterogen, weil sie über keine einheitliche politische Agenda verfügen” gegenüber einer thematischen Übereinstimmung bei Impfkritikern. 2. Die Knoten der Impfgegner sind weniger, aber ca. 10 % größer. 3. Impfkritiker besetzen “Knoten, die eine extrem hohe Zahl von Verbindungen aufweisen” (Hubs) 4. Die Vernetzung der Impfkritiker konzentriert sich auf einen Kern von 247 Accounts. 5. Impfkritiker verwenden zur Verbesserung ihrer Sichtbarkeit diverse Hashtags. 6. “Im Kern der Impfkritiker befinden sich die zehn aktivsten Nutzer des gesamten Netzwerks.” 7. Impfbefürworter betonen den Nutzen der Corona-Impfung, Kritiker verbreiten diverse Narrative. Hajek stellt eine “zweigeteilte Welt” fest, in der es unklar ist, wie Wissenschaftskommunikation aufklärerisch einwirken kann.

Sentiment Analyzer in Musik-Streamingdiensten

Andrian Kreye: Lasst mich in Ruhe. Mal bin ich traurig, mal bald taub: Wie Musik-Streamingdienste uns auslesen und leider vor allem: bevormunden, Süddeutsche Zeitung 03.12.2021 (hinter der Bezahlschranke) beschreibt, wie Algorithmen, sogenannte “Sentiment Analyzer” die psychische Verfassung der Kunden von Internetdiensten analysiert. Die textbasierten Programme werten “Posts oder Sucheingaben mit einem System aus Reiz- und Schlüsselwörtern in Kombination mit den Zustimmung- und Ablehnungssignalen in den Newsfeeds oder auch den Suchergebnissen” aus. Noch stärker in die Psyche blickt die Sentimentanalyse in der Musik. Die Data Scientistin Lowri Williams hat unter der Verwendung der Spotify for Developers API (Application Programming Interface) für Web ein Projekt Spotify Sentiment Analysis gestartet. Die Analyse der verschiedenen Parameter führt zu einem Schlüsselwert, der “Valence“. “Ein Begriff aus der Psychologie, der mit einem Wert zwischen null und eins festlegt, ob etwas eher fröhlich (positiv) oder traurig (negativ) ist.” Entsprechend dem “real-time context targeting” kann Werbung entsprechend dem Sentiment eingespielt werden. Williams hat die Parameter und die Analyse-Algorithmen, die sie mit Python entwickelt hat, in einem Aufsatz vorgestellt: Lowri Williams: Spotify Sentiment Analysis. Applying sentiment analysis to song lyrics from your Spotify playlist, Towards data science 20.05.2020