Open Web Index

Verschiedene Beiträge haben sich jüngst mit dem Europäischen Open Web Index beschäftigt. Zur Erinnerung: “Die Hauptidee des Open Web Index (OWI) liegt darin, einen öffentlich finanzierten, global ausgerichteten und durchsuchbaren Index der Inhalte des Web zu erstellen und für konkurrierende Unternehmen, Institutionen und Akteure der Zivilgesellschaft verfügbar zu machen. Der Open Web Index ist ein europäischer Ansatz, um eine konkurrenzfähige und datensparsame digitale Infrastruktur zu schaffen. Das Ziel ist, die Basis für echten Wettbewerb bei den digitalen Plattformen zu schaffen.”
Open Web Index (OWI)
Wichtig ist dabei vor allem, dass es nicht darum geht, eine neue Suchmaschine zu generieren, sondern in einem Offenen Index Daten besonders aus dem europäischen Raum vorzuhalten, die ansonsten nicht in die Basis der Suchmaschinen und KI eingehen könnte.

Mirjam Hauck: So will Europa Google Konkurrenz machen. Ein EU-Projekt versucht, eine Suchmaschinen-Alternative mit “europäischen Werten” aufzubauen. Süddeutsche Zeitung 29.03.2023 (hinter der Bezahlschranke) beschreibt den Stand so: “Dafür arbeiten Wissenschaftlerinnen und Wissenschaftler aus 14 europäischen Forschungs- und Rechenzentren wie dem CERN in Genf oder dem Leibniz-Rechenzentreum in München zusammen, angelegt auf drei Jahre. Die EU fördert das Projekt mit 8,5 Millionen Euro, koordiniert wird das Ganze von der Uni Passau unter der Leitung des Informatik-Professors Michael Garnitzer.” Dieser soll als erstes prototypische Anwendung im Bereich wissenschaftliche Faken und geografischer Raum vorlegen.
Arne Grävemeyer: Basis für tausend Suchmaschinen. Die EU will bis 2025 einen öffentlichen Web-Index aufbauen. c’t 9/2023 (hinter der Bezahlschranke)
Patrick Dax: Google-Alternativen: Warum Europa eigene Suchmaschinen braucht, futurzone 18.04.2022

Suchergebnisse durch Präferenz steuern

Dirk Lewandowski: Search engines that give users control over their results, Information Today 07.03.2023 stellt die Suchmaschinen  Brave SearchNeeva und You.com vor. Traditionelle Suchmaschinen wie Google und Bing ermitteln die Relevanz der Resultate einer Suchanfrage mittels verschiedener Algorithmen, die Daten der Nutzer, die zuvor ermittelt und gespeichert wurden, einbeziehen. Im Gegensatz dazu ermöglichen diese drei Suchmaschinen, eigene Präferenzen und Quellen einzugeben. Diese neue Sichtweise kann ein völlig neues Ranking der Suchergebnisse anzeigen. Allerdings ist es genausogut möglich, dass man sich gezielt seine eigene Informationsblase schafft. “While one may question whether it is a good idea that users should choose news sources to be displayed based on their political preferences – and thereby ignoring other sources from the political spectrum, re-ranking results is what really differentiates these search engines from Google and similar search engines.” Nach Lewandowski überwiegt allerdings der Nutzen gegenüber potentiellen Risiken: “Giving users control over search results may benefit them more than slight improvements in the overall relevance of results.”

Suchmaschine PDF

FreeFullPDF.com ist eine Suchmaschine für frei verfügbare pdfs: “The site has two objectives: to allow scientists and students to find free research articles and to create an online scientific community.”
What you can find in FreeFullPDF.com:
As the best free research papers website, you can find free PDFs of scientific publications (search tool) and useful tips to improve your hard work in finding the scientific articles you need.
As a scientific community website, you can find a social network for scientists and researchers (join us).
A gateway to global visibility for your scientific research.”

openArtBrowser

Simon Colin: Per Mausklick durch die Kunst- und Museumswelt – Der openArtBrowser zeigt 700.000 frei verfügbare Kunstwerke, IDW Informationsdienst Wissenschaft, Pressemitteilung h_da 28.10.2022
“Heute finden sich dort zirka 700.000 Kunstwerke aus 400 Stilrichtungen, 35.000 Kunst-schaffende, 50.000 Motive sowie 37.000 Museen und Ausstellungsorte. Und es werden wöchentlich mehr. Anhand zahlreicher Filter lässt sich recherchieren von Epoche über Künstlerin oder Motiv bis hin zum Standort oder zu den verwendeten Materialien.
Für den openArtBrowser verwendet das h_da-Team einen OpenSource-Ansatz. Genutzt werden nicht die limitierten, rechtlich geschützten Datensätze eines Museums, sondern frei zugängliche Web-Quellen aus der ganzen Welt: Nämlich die von Wikidata und Wikimedia, Grundlagen des Internetdienstes Wikipedia…Mit einem sogenannten Webcrawler, den Studierende entwickelt haben, werden die Datensätze von Wikidata eingesammelt und an der richtigen Stelle einsortiert.”
Link zum openArtBrowser: https://openartbrowser.org

Retrieval mit ChatGPT

ChatGPT wird auch die Form des Information Retrieval grundlegend verändern.
Sascha Lobo: Das Ende von Google, wie wir es kannten. Spiegel Online 28.12.2022 sieht z.B. einen grundlegenden Paradigmenwechsel in der Suche, der durch die dialogische Form und eventuelle Rückkopplung bedingt ist:
“Googles Suchmaschine sieht die Welt als Liste an, eine KI in der Bauart von ChatGPT sucht einzelne, gute Antworten. Dieser technokulturelle Unterschied lässt Google als Maschine erscheinen und ChatGPT als digitalen Gesprächspartner. Und wenn etwas die bis dato extrem machtvolle Schlagwortsuche verdrängen könnte, wären es dialogartige Suchformen. Denn es ist für die Nutzenden einfacher, in normaler Alltagssprache ihre gewünschten Informationen zu bekommen.
Vor allem aber ist eine neue Suchintelligenz gefragt, die noch stärker auf die persönlichen Bedürfnisse eingehen kann. Durch die dialogische Art gibt es erstmals einen Feedback-Kanal zur Suchqualität.
Es gibt im Netz verschiedene Artikel, die die Resultate von Google und ChatGPT mit unterschiedlichen Ergebnissen vergleichen. Es gibt jetzt auch AddOns für Chrome und Firefox. Voraussetzung ist, dass man sich bei ChatGPT angemeldet hat. Versieht man die Suchbegriff noch mit einem Fragezeichen, wird parallel zur Google-Suche eine Antwort von ChatGPT ausgegeben. Allerdings fällt diese bei der Erweiterung erheblich knapper aus, als wenn direkt auf der ChatGPT-Seite die Eingabe erfolgt ist.
Ein Problem ist die Evaluation der Suchergebnisse. Ruth Fulterer: Hype um neue künstliche Intelligenz, Neue Zürcher Zeitung 24.12.2022 Papierausgabe:
“Bei einer Recherche ist zudem relevant, woher eine Information kommt. Genau das verschleiert das Sprachmodell. Auch Google filtert mit seinem Such-Algorithmus die Inhalte. Aber zumindest steht dabei, woher sie kommen. Nutzer können selbst entscheiden, welcher Quelle sie vertrauen.”
Die Gefahr besteht, das Ergebnisse von ChatGPT durch die dialogische Form plausibler erscheinen.
Teresa Kubacka, Schweizer Datenwissenschaftlerin, hat experimentell ChatGPT als wissenschaftliche Fake-News-Schleuder entlarvt. Daniel Schurter: Datenwissenschaftlerin aus Zürich warnt vor ChatGPT und den bösen Folgen. Watson.ch 13.12.2022
“«Sie liess ChatGPT einen Essay dazu schreiben und fragte den Chatbot danach mit einem Trick nach den Quellen (dabei musste sie dem Chatbot sagen, er solle so tun, als sei er Wissenschaftler). Die Quellenangaben, die das Programm dann ausspuckte, sah sich Kubacka im Anschluss näher an. Sie musste dabei feststellen, dass die Referenzen offenbar gar nicht existieren.»
Als die Datenwissenschaftlerin die Textausgabe von ChatGPT analysierte, bemerkte sie verschiedene Fälschungen. Einmal existierte zwar tatsächlich der Forschende, der das von der KI zitierte wissenschaftliche «Paper» geschrieben haben soll, doch die wissenschaftliche Arbeit gab es nicht.
Ein anderes Mal gab es zwar einen ähnlichen Forschenden an einer Universität mit ähnlichem Namen, dieser forschte aber in einem völlig anderen Bereich. Und bei weiteren Quellenangaben, die die KI machte, stellte sich heraus, dass es weder die Forschenden gab noch die referenzierte Arbeit.”

Einerseits kann die dialogische Form die Recherche erheblich verbessern, indem Aspekte eines Sachproblems aufgezeigt werden, die ansonsten vielleicht verlässigt worden wären. Bleibt es andererseits bei dem von Kubacka festgestellten Problem, müsste die Evaluation der Rechercheergebnisse bei wissenschaftlichen Themen mit neuen Techniken angegangen werden.

Abstieg der Suchmaschine Qwant

Die als europäische Alternative zu Google vielgerühmte französische Suchmaschine Qwant hat ihre Ankündigungen, eigene Suchindizes aufzubauen, nicht eingelöst, sondern sich nach wie vor nur auf die Ergebnisse der Microsoft Suchmaschine Bing gestützt. Sie ist inzwischen in finanzielle Schwierigkeiten geraten, ist mit 47 Millionen Euro verschuldet und hat Hilfe von Huawei erhalten. Der Gründer hat das Unternehmen verlassen und eine private Überwachungs- und Spionageunternehmen mit Anlehnung an Palantir gegründet.

Elisa Braun: France’s Mr. Privacy turns cybersnooper. How the disgraced co-founder of France’s answer to Google moved into the murky world of cybersurveillance. Politico 07.12.2022

Markus Reute: Der Absturz der Suchmaschine Qwant und ihres Gründers. Netzpolitik.Org 08.12.2022

Google selbstreferentiell

Michael Moorstedt: Die Suchmaschine wird laut Kritikern immer schlechter. Sind wir nur zu verwöhnt, wie der Konzern behauptet?, Süddeutsche Zeitung 27.06.2022 beschreibt, wie die Google-Suche durch drie Faktoren immer schlechter wird: “Die Ergebnisse sind überladen, voll von Werbung und Produktanzeigen.” Google verweist immer mehr auf eigene Seiten, zu denen auch kleine, aus anderen Webseiten extrahierte Inhalte gehören, zu deren vollständigen Angebote der Benutzer gar nicht erst gelangt. Schließlich verzerren auch die SEO-Tools der Suchmaschinenoptimireung die Suchergebnisse. Eine umfangreiche Studie hierzu legen Adrianne Jeffries und Leon Yin: Google’s Top Search Result? Surprise! It’s Google. The search engine dedicated almost half of the first page of results in our test to its own products, which dominated the coveted top of the page, TheMarkup 28.07.2020 vor.

Buchseite 2 von 4
1 2 3 4