Digital Research Books

Die New York Public Library hat eine Suche über wissenschaftliche Bücher („research books“), die entweder Public Domain oder unter Creative Commons Lizenz frei zugänglich sind, in Beta-Version veröffentlicht. „Digital Research Books Beta is an experimental project, now in early Beta testing, that collects digital versions of research books from many different sources, including Open Access publications, into one convenient place to search.“

Knowledge Extraction

Der Sammelband „Digital Writing Technologies in Higher Education. Theory, Research and Practice, Springer Cham 2023 ist als Open Access zugänglich. Ein Beitrag Fernando Benites: Information Retrieval and Knowledge Extraction for Academic Writing. Abstract: „The amount of unstructured scientific data in the form of documents, reports, papers, patents, and the like is exponentially increasing each year. Technological advances and their implementations emerge at a similarly fast pace, making for many disciplines a manual overview of interdisciplinary and relevant studies nearly impossible. Consequently, surveying large corpora of documents without any automation, i.e. information extraction systems, seems no longer feasible. Fortunately, most articles are now accessible through digital channels, enabling automatic information retrieval by large database systems. Popular examples of such systems are Google Scholar or Scopus. As they allow us to rapidly find relevant and high-quality citations and references to previous work, these systems are particularly valuable in academic writing. However, not all users are aware of the mechanisms underlying relevance sorting, which we will address in this chapter. For example, in addition to searching for specific terms, new tools facilitate the discovery of relevant studies by using synonyms as well as similar works/citations. The near future holds even better tools for the creation of surveys, such as automatic summary generation or automatic question-answering systems over large corpora. In this chapter, we will discuss the relevant technologies and systems and their use in the academic writing context.“

Informationsfreiheitsgesetze als Werkzeug

Ausgabe 27 der Online-Recherche Newsletter: ORN #37 An nicht-öffentliche Dokumente rankommen. „In dieser Ausgabe geht es um ein mächtiges Werkzeug: Informationsfreiheitsgesetze, kurz IFG. Sie machen ungeahnte Recherchen möglich und bringen unter Verschluss gehaltene Dokumente ans Tageslicht. Dabei helfen auch internationale Websites. Im Werkstatt-Interview berichtet Haluka Maier-Borst von seiner Daten-Recherche über die frustrierende Wartezeit auf Praxistermine.“

Datenquellen

„Im Internet und in öffentlichen Registern stecken viele Datenschätze mit Informationen über Unternehmen. Das Panel zeigt einige lohnenswerte Datenbanken und welche Geschichten mit ihrer Hilfe entstehen können. Es wird auch erklärt, wie ein Antrag auf Einsicht in das Grundbuchamt gestellt werden kann. Unter den vorgestellten Datenbanken sind das Handelsregister, eine Datenbank über Fördermittel des Bundes und eine Datenbank für Ausschreibungen in der Europäischen Union: Tenders Electronic Daily. Die Datenbanken lassen sich auch für Lokaljournalismus nutzen.“
Ein auf Youtube aufgezeichneter Livestream der Netzwerk Recherche – Jahreskonferenz 2023

Gutes Google-Fu

Google-Fu ist die scherzhafte Bezeichnung im Online-Slang, sich analog der Kampfsportart Kung-Fu Informationen durch verschiedene Suchmaschinen zu erkämpfen. Sie wird von Jack Leeming: Searching the web for science: how small mistakes create big problems. Typos, acronyms and authors’ names all present issues when trawling the literature. Can next-generation search engines do better? Nature 06.04.2023 anhand verschiedener Beispiele aus der Wissenschaft verdeutlicht. Übernahme falscher Quellen, Schreibfehler, falsche Sonderzeichen, Akronyme und Homonyme können zu falschen oder irreführenden Ergebnissen führen. Um Fehler zu vermeiden, schlägt er stufenweise Recherche in 3 Schritten vor: 1. Suche in institutionellen Bibliotheken mit Schlüsselwörtern nach Autoren. 2. Suche in spezialisierten Suchmaschinen nach diesen Autoren. 3. Suche in Google Scholar und anschließend in Google.

Handbuch Informationsressourcen

Das Handbuch für Bibliothekare und Informationsspezialisten steht als Open Access zum Download zur Verfügung:
„Die vollständig aktualisierte und erweiterte Neuauflage des etablierten Werks bietet Informationsspezialistinnen und -spezialisten aus allen Sparten einen umfassenden Überblick über die Entwicklungen und die Typologie wissenschaftlicher Informationsressourcen. Darauf aufbauend werden rund 430 Informationsressourcen, die für die allgemeine und fachspezifische Informationsrecherche von besonderer Bedeutung sind, in ihren Inhalten und Funktionalitäten sowie ihrer Bedeutung vorgestellt. Klassische bibliothekarische Ressourcentypen wie Bibliothekskataloge, Bibliographien, Nachschlagewerke und Portale für Fachinformationen werden dabei ebenso berücksichtigt wie Forschungsdatenverzeichnisse, Patent- und Normdatenbanken, Angebote zu Statistiken, Open-Access- und Open-Educational-Resources-Publikationen sowie Datenbanken zu Zeitungen, Bildern, Filmen und Audiomaterialien. Die Verbindung von einführender Typologie und konkreter Vorstellung zentraler Ressourcen sorgt dafür, dass das hier vermittelte Grundwissen unmittelbar in der beruflichen Praxis einsetzbar ist.“

OSINT: Geschichte und Arbeitsweise

Manon Bischoff: Open Source Intelligence. Amateurdetektive auf der Jagd nach Kriegsverbrechern, Spektrum 16.02.2023 beschreibt die Entstehung der Open Source Intelligence (OSINT) Iniativen. „Ein entscheidender Faktor von OSINT ist die Schwarmintelligenz: Was ein Einzelner übersieht, wird ein anderer womöglich bemerken. Da zudem alle Quellen öffentlich einsehbar sind, verringert sich dadurch die Wahrscheinlichkeit, unbemerkt auf Falschinformationen hereinzufallen.“ Sie stellt die verschiedenen Methoden der der Geolokalisierung und Chronolokalisierung sowie einige Beispiele von OSINT-Ermittlungen vor. Sie verweist auch auf den Leitfaden für OSINT-Ermittlungen, das Berkely Protokoll: „Geordnete Strukturen erleichtern nicht nur die Arbeit der Strafverfolgungsbehörden, sondern stellen auch sicher, dass die Online-Ermittler keine Persönlichkeitsrechte oder andere Gesetze verletzen. Aus diesem Grund hat die University of California in Berkeley zusammen mit den Vereinten Nationen 2020 das so genannte Berkeley-Protokoll herausgegeben, eine Art Leitfaden für OSINT-Recherchen.“

Retrieval mit ChatGPT

ChatGPT wird auch die Form des Information Retrieval grundlegend verändern.
Sascha Lobo: Das Ende von Google, wie wir es kannten. Spiegel Online 28.12.2022 sieht z.B. einen grundlegenden Paradigmenwechsel in der Suche, der durch die dialogische Form und eventuelle Rückkopplung bedingt ist:
„Googles Suchmaschine sieht die Welt als Liste an, eine KI in der Bauart von ChatGPT sucht einzelne, gute Antworten. Dieser technokulturelle Unterschied lässt Google als Maschine erscheinen und ChatGPT als digitalen Gesprächspartner. Und wenn etwas die bis dato extrem machtvolle Schlagwortsuche verdrängen könnte, wären es dialogartige Suchformen. Denn es ist für die Nutzenden einfacher, in normaler Alltagssprache ihre gewünschten Informationen zu bekommen.
Vor allem aber ist eine neue Suchintelligenz gefragt, die noch stärker auf die persönlichen Bedürfnisse eingehen kann. Durch die dialogische Art gibt es erstmals einen Feedback-Kanal zur Suchqualität.
Es gibt im Netz verschiedene Artikel, die die Resultate von Google und ChatGPT mit unterschiedlichen Ergebnissen vergleichen. Es gibt jetzt auch AddOns für Chrome und Firefox. Voraussetzung ist, dass man sich bei ChatGPT angemeldet hat. Versieht man die Suchbegriff noch mit einem Fragezeichen, wird parallel zur Google-Suche eine Antwort von ChatGPT ausgegeben. Allerdings fällt diese bei der Erweiterung erheblich knapper aus, als wenn direkt auf der ChatGPT-Seite die Eingabe erfolgt ist.
Ein Problem ist die Evaluation der Suchergebnisse. Ruth Fulterer: Hype um neue künstliche Intelligenz, Neue Zürcher Zeitung 24.12.2022 Papierausgabe:
„Bei einer Recherche ist zudem relevant, woher eine Information kommt. Genau das verschleiert das Sprachmodell. Auch Google filtert mit seinem Such-Algorithmus die Inhalte. Aber zumindest steht dabei, woher sie kommen. Nutzer können selbst entscheiden, welcher Quelle sie vertrauen.“
Die Gefahr besteht, das Ergebnisse von ChatGPT durch die dialogische Form plausibler erscheinen.
Teresa Kubacka, Schweizer Datenwissenschaftlerin, hat experimentell ChatGPT als wissenschaftliche Fake-News-Schleuder entlarvt. Daniel Schurter: Datenwissenschaftlerin aus Zürich warnt vor ChatGPT und den bösen Folgen. Watson.ch 13.12.2022
„«Sie liess ChatGPT einen Essay dazu schreiben und fragte den Chatbot danach mit einem Trick nach den Quellen (dabei musste sie dem Chatbot sagen, er solle so tun, als sei er Wissenschaftler). Die Quellenangaben, die das Programm dann ausspuckte, sah sich Kubacka im Anschluss näher an. Sie musste dabei feststellen, dass die Referenzen offenbar gar nicht existieren.»
Als die Datenwissenschaftlerin die Textausgabe von ChatGPT analysierte, bemerkte sie verschiedene Fälschungen. Einmal existierte zwar tatsächlich der Forschende, der das von der KI zitierte wissenschaftliche «Paper» geschrieben haben soll, doch die wissenschaftliche Arbeit gab es nicht.
Ein anderes Mal gab es zwar einen ähnlichen Forschenden an einer Universität mit ähnlichem Namen, dieser forschte aber in einem völlig anderen Bereich. Und bei weiteren Quellenangaben, die die KI machte, stellte sich heraus, dass es weder die Forschenden gab noch die referenzierte Arbeit.“

Einerseits kann die dialogische Form die Recherche erheblich verbessern, indem Aspekte eines Sachproblems aufgezeigt werden, die ansonsten vielleicht verlässigt worden wären. Bleibt es andererseits bei dem von Kubacka festgestellten Problem, müsste die Evaluation der Rechercheergebnisse bei wissenschaftlichen Themen mit neuen Techniken angegangen werden.

Handelsregister befreit?

Die Pflege amtlicher Daten beinhaltet im digitalen Zeitalter zugleich die Bereitstellung für einen Zugriff über Online-Suche und eine Schnittstelle. Die RICHTLINIE (EU) 2019/1024 DES EUROPÄISCHEN PARLAMENTS UND DES RATES vom 20. Juni 2019 über offene Daten und die Weiterverwendung von Informationen des öffentlichen Sektors sowie das Gesetz für die Nutzung von Daten des öffentlichen Sektors (Datennutzungsgesetz – DNG) vom 16.07.2021 sehen genau dies vor. Seit 01.08.2022 ist ein kostenloser Abruf ohne Registrierung auf der Seite des Handelsregister möglich. Allerdings: eine Datenschnittstelle existiert nicht.

Die Startseite begrüsst mit den Hinweisen:
„Aufgrund diverser Massenabrufer kann es in allen Bundesländern aktuell zu vorübergehenden Abrufproblemen kommen.
Zur Zeit sind keine Abrufen aus Brandenburg möglich.
Der strukturierte Registerinhalt (SI) ist in den Bundesländern Baden-Württemberg, Bayern, Hessen, Nordrhein-Westfalen, Sachsen, Niedersachsen, Sachsen-Anhalt, Mecklenburg-Vorpommern zur Zeit leider nur eingeschränkt abrufbar.
Die Suchfunktion des Registerportal steht momentan nur eingeschränkt zur Verfügung. Gezielte Abfragen sind möglich. Globale, uneingeschränkte Abfragen sollten vermieden werden.
Zurzeit können aktuelle Drucke (AD) und chronologische Drucke (CD) aus dem Berliner Registerdatenbestand nicht mit einer Volltextsuche durchsucht oder Textinhalte aus den PDF kopiert und in andere Dokumente eingezogen werden. Wir bitten diese Einschränkung zu entschuldigen.“

Es werden einfache Suchmasken ohne Indexanzeige, Autovervollständigen usw. angeboten. Trunkierung funktioniert bei Firmenname und Ort, allerdings wird nach 100 Treffern die Suche abgeschnitten, nur 1 Dokument aus der Ergebnisanzeige kann jeweils heruntergeladen werden. Vor allem sind aber übergreifende Suchen zu Besitzverhältnissen einzelner Personen oder Firmenbeteiligungen nicht möglich. Derartige Suchmasken waren vor einem Vierteljahrhundert Jahren Stand der Technik.

Die IT-Sicherheitsexpertin Lilith Wittmann hat aus diesem Grund die Seiten des Handelsregisters gescrapt. In ihrem Blog bund.dev: Wir befreien das Handelsregister! 15.08.2022 und in einem Interview auf golem.de vom 04.08.2022 „Scraping des Handelsregisters: „Wir machen das ja nur aus Notwehr“. Eine ehrenamtliche Gruppe plant, die Daten des Handelsregisters automatisiert in maschinenlesbare Formen zu bringen. Wofür dieser Aufwand? Ein Interview von Lennart Mühlenmeier“

Allerdings zeigt sich hier das Elend der Digitalisierung in Deutschland. Wieso muss eine zivilgesellschaftliche Initiative Aufgaben von Behörden übernehmen, die gesetzlich vorgeschrieben sind? Politik und Öffentlichkeit interessieren sich nicht für konkrete Problemlösungen. Und es ist zu befürchten, dass diese zivilgesellschaftliche Initiative überfordert ist. Gescrapt werden können ja nur die Daten im Ausgabeformat und die einzelnen Dokumente. Daraus im nachhinein ein effektives Datenbankdesign zu entwerfen, dürfte schwierig werden.

https://bund.dev/

Buchseite 4 von 5
1 2 3 4 5