Quellcodekritik von Deep Seek

Markus Krajewski, Ranjodh Singh Dhaliwal: Wie tief lässt Deep Seek blicken? Wal mit Datenhunger: das KI-Sprachmodell Deep Seek Das Innenleben von KI-Sprachmodellen ist in der Regel ein wohlgehütetes Geheimnis. Der chinesische Senkrechtstarter macht eine Ausnahme und legt seinen Code offen. Eine Tiefenlektüre. Frankfurter Allgemeine Zeitung 11.07.2025 (hinter der Bezahlschranke)
Deep Seek hat seine Modelle, nicht aber die verbesserte Version V3(0324), als open weight zur Verfügung gestellt. Für den Eigengebrauch können die Sprachmodelle heruntergeladen werden, um sie für eigene Zwecke zu optimieren. Die Autoren stellen hier eine Quellcodekritik vor: „Die von Deep Seek offengelegten Codes wurde von uns nicht nur eingesehen, sondern exemplarisch, direkt zwischen den einzelnen Kommandos, mit erläuternden Kommentaren versehen, die vor allem für Nichtinformatiker die Hintergründe und Funktion der Algothemen verständlich machen sollen.“ Dies ist auf https://github.com/nachsommer/deepseekV3-SCC abgelegt. In diesem Aufsatz werden die Ergebnisse zusammengefasst. Zunächst bilden 5 knappe Dateien der Programmiersprache Python das Kerngerüst. Es wird „definiert, welche Daten als Eingabewerte in welcher Form übernommen werden„. Vorhandene Spezialchips werden abgeprüft. Transformer-Bibliotheken bringen „das Sprachvermögen mit dem im Latenzraum gespeicherten Weltwissen zusammmen“. Sprachpartikel werden durch Zahlen ersetzt und in der Antwort in einer spezifischen Form von Nähe und Aufmerksamkeitscluster wieder zusammengesetzt. Eine Nutzeranfrage wird durch eine spezielle Architektur angenommen: 6 Experten nehmen die Anfrage entgegen und reichen sie an 64 Experten weiter.
Nicht ersichtlich sind allerdings die Trainingsprozesse des Modells. „Mit dem gelieferten Python-Code lässt sich das Modell selbst nicht ohne Weiteres zum Training animieren, um von Grund auf mit neuem Weltwissen (das heißt: dem gesamten Internet der Gegenwart) gefüttert zu werden.“ Zensur- und Filtermechanismen sind nicht ersichtlich. Unklar ist auch, wie das Modell zu seinen Ergebnissen kommt. Eine eingebaute, nicht näher explizitierte Selbstreflexion, „Chain of Thougth (CoT)“ spielt hier eine zentrale Rolle.

Pubmed retten

Daniel Delhaes: Wenn Politik Forschungsdaten gefährdet. Verzweifelt versuchen Wissenschaftler, Forschungsdaten aus Amerika vor der Trump-Regierung zu schützen. Hierzulande warten sie vergeblich auf Hilfe – und gehen in ihrer Not ungewöhnliche Wege. Handelsblatt 07.07.2015
Die weltgrößte, englischsprachige Suchmaschine für medizinische Publikationen, Pubmed, „ist Teil des National Institute for Health (NIH), dessen Etat die Regierung von US-Präsident Donald Trump massiv gekürzt hat. Wer etwas über den aktuellen Forschungsstand zum Brustkrebs, Herzinfarkte oder andere biomedizinische Fragen wissen will, der sucht bei Pubmed. Die Sorge ist groß, dass die Daten nicht mehr sicher sind, dass sie womöglich zensiert oder mit Beiträgen gefüllt werden, die vielleicht Trumps, aber nicht mehr wissenschaftlichen Standards genügen. Es wäre das „Killer-Virus“ für die internationale Community. „Was ist mit Pubmed?“, fragen Wissenschaftler immer wieder sorgenvoll in Köln an.“
Die Deutsche Zentralbibliothek für Medizin (ZB Med) in Köln versucht, diese Datenbank zu retten. Mangels kurzfristiger Förderung wurde ein Antrag bei der Deutschen Forschungsgemeinschaft (DFG) gestellt.
„Albers will mit ihrem Team die Arbeitsgrundlage der international vernetzt arbeitenden Wissenschaftscommunity sichern. Entstehen soll keine reine Kopie von Pubmed, ZB Med will vielmehr eine offene, dezentral organisierte Alternative zu Pubmed schaffen. Die aktuellen Inhalte hat ZB Med bereits über sein Suchportal Livivo zugänglich gemacht. Künftig sollen auch neue medizinische Fachinformationen Eingang finden, und das System soll international dezentral arbeiten. „Politischer Einfluss wie in den USA kann in jedem Land stattfinden“, sagt Albers. Das Wissenschaftssystem soll resilient werden.“

Wikipedia: Ein Drittel der Artikel problematisch

Valentin Bauer, Patrick Bernau, Christopher Herstell, Jacob Kramer: Wikipedia weiß immer weniger. Der Enzyklopädie fehlen Autoren. Jetzt zeigt eine F.A.S.-Untersuchung: Mindestens jeder dritte Artikel hat ein Problem. Frankfurter Allgemeine Zeitung 05.07.2025
„Und was ist eigentlich mit den Artikeln, denen der Leser ihre Aktualität nicht direkt ansieht? Die F.A.S. hat das nun systematisch untersucht. Mehr als 1000 Wikipedia-Artikel haben wir zufällig aus­gewählt. Künstliche Intelligenz hat die Texte auf Auffälligkeiten geprüft, dann hat ein Team von Dokumentaren des F.A.Z.-Archivs diese Auffälligkeiten noch einmal unter die Lupe genommen. Erst wenn zwei Menschen überzeugt waren, dass eine Information nicht mehr stimmt, haben wir sie auf die Liste genommen.
Dabei stellte sich heraus: Probleme gibt es auf mehr als jeder dritten Seite. Mindestens 20 Prozent der Seiten enthalten Informationen, die nicht mehr aktuell sind, und nur bei der Hälfte fällt es sofort auf. Dazu kommen fast noch einmal so viele Seiten mit Angaben, die noch nie gestimmt haben.“

Texterstellung mit KI richtig nutzen

Stella-Sophie Wojtczak: Schadet KI unserer Sprache? Eine Sprach-Expertin gibt Tipps zur richtigen Nutzung. Verdirbt KI unsere Sprache? Das muss nicht sein. Die Sprachberaterin Anne-Kathrin Gerstlauer gibt in der neuen Folge von t3n Interview Tipps, mit denen Nutzer:innen ihre Sprachkenntnisse sogar noch verbessern können. t3n 29.06.1952
Die Journalistin und Sprachberaterin empfiehlt, den richtigen Chatsbot auszuwählen (für Texte besonders geeignet: Claude, weniger ChatGPT oder Copilot). Zunächst sollte der Chatbot mit vier fünf Beispieltexten traniert werden. Außerdem sollten grundlegende Sprachregeln befolgt werden:
– Kurze Sätze
– Füllwörter streichen
– aktiv schreiben
– Nominalstil vermeiden