Quellcodekritik von Deep Seek

Markus Krajewski, Ranjodh Singh Dhaliwal: Wie tief lässt Deep Seek blicken? Wal mit Datenhunger: das KI-Sprachmodell Deep Seek Das Innenleben von KI-Sprachmodellen ist in der Regel ein wohlgehütetes Geheimnis. Der chinesische Senkrechtstarter macht eine Ausnahme und legt seinen Code offen. Eine Tiefenlektüre. Frankfurter Allgemeine Zeitung 11.07.2025 (hinter der Bezahlschranke)
Deep Seek hat seine Modelle, nicht aber die verbesserte Version V3(0324), als open weight zur Verfügung gestellt. Für den Eigengebrauch können die Sprachmodelle heruntergeladen werden, um sie für eigene Zwecke zu optimieren. Die Autoren stellen hier eine Quellcodekritik vor: „Die von Deep Seek offengelegten Codes wurde von uns nicht nur eingesehen, sondern exemplarisch, direkt zwischen den einzelnen Kommandos, mit erläuternden Kommentaren versehen, die vor allem für Nichtinformatiker die Hintergründe und Funktion der Algothemen verständlich machen sollen.“ Dies ist auf https://github.com/nachsommer/deepseekV3-SCC abgelegt. In diesem Aufsatz werden die Ergebnisse zusammengefasst. Zunächst bilden 5 knappe Dateien der Programmiersprache Python das Kerngerüst. Es wird „definiert, welche Daten als Eingabewerte in welcher Form übernommen werden„. Vorhandene Spezialchips werden abgeprüft. Transformer-Bibliotheken bringen „das Sprachvermögen mit dem im Latenzraum gespeicherten Weltwissen zusammmen“. Sprachpartikel werden durch Zahlen ersetzt und in der Antwort in einer spezifischen Form von Nähe und Aufmerksamkeitscluster wieder zusammengesetzt. Eine Nutzeranfrage wird durch eine spezielle Architektur angenommen: 6 Experten nehmen die Anfrage entgegen und reichen sie an 64 Experten weiter.
Nicht ersichtlich sind allerdings die Trainingsprozesse des Modells. „Mit dem gelieferten Python-Code lässt sich das Modell selbst nicht ohne Weiteres zum Training animieren, um von Grund auf mit neuem Weltwissen (das heißt: dem gesamten Internet der Gegenwart) gefüttert zu werden.“ Zensur- und Filtermechanismen sind nicht ersichtlich. Unklar ist auch, wie das Modell zu seinen Ergebnissen kommt. Eine eingebaute, nicht näher explizitierte Selbstreflexion, „Chain of Thougth (CoT)“ spielt hier eine zentrale Rolle.