DeepSeek R1 bietet große KI-Leistung zu kleinem Preis

LLMs & Knowledge-Graphen DeepSeek R1 bietet große KI-Leistung zu kleinem Preis

06.02.2025 Von Michael Matzer 5 min Lesedauer

Anbieter zum Thema

Logo_WatchGuard_Color_Vector_HighRes.jpg ()

DeepSeek R1 ist ein vielseitiges KI-Modell, das mit Machine-Learning-Methoden verschiedene Zwecke erfüllen soll: generative KI mit Sprachverarbeitung, Computer Vision, Code- und Datenanalyse sowie KI-gestützte Sicherheit.

Die Frontseite der Webpräsenz von DeepSeek(Bild: Deepseek.ai/Matzer) — Die Frontseite der Webpräsenz von DeepSeek
(Bild: Deepseek.ai/Matzer)

Die Angabe des chinesischen Start-ups DeepSeek, dass das Modell mit geringen Rechenressourcen zu niedrigen Kosten arbeiten könne und kostenlos angeboten werde, hat Ende Januar zu einem massiven Vertrauensverlust an den Finanzbörsen geführt, weil Chipanbieter wie Nvidia, Broadcom und Infineon plötzlich überbewertet erschienen. DeepSeek, das mit etablierten KI-Systemen wie ChatGPT von OpenAI und Claude von Anthropic konkurriert, ist kein gigantischer Monolith von einem großen Sprachmodell, sondern vielmehr eine Kombination aus Expertensystemen, was als „Mixture of Experts“ (MoE) bekannt ist. Das heißt, Mathe-Anfragen werden vom Mathe-Experten, Wissens-Anfragen vom Wissens-Experten beantwortet usw., anstelle eines Monolithen, der alles beantworten kann. Dieser Ansatz wird beispielsweise auch von Databricks‘ LLM DBRX verwendet, ist also durchaus branchenüblich.

Das Besondere: DeepSeek nutzt frei verfügbare Open-Source-Komponenten und kann so zu einem unschlagbaren Preis angeboten werden: Das Modell ist für reguläre Nutzer kostenfrei zugänglich und richtet sich an eine breite Anwendergruppe, um den offenen Zugang zu modernster KI-Technologie zu fördern.

Bildergalerie

Die Github-Präsenz von DeepSeek ist noch sehr jung und nicht umfangreich.(Bild: Deepseek.ai/Matzer)

Drei Varianten von DeepSeek können OpenAI-LLMs durchaus das Wasser reichen, wie diese DeepSeek-Benchmark-Grafik zu erkennen gibt.(Bild: Deepseek.ai)

Während das Sprachmodell eine Frage zum chinesischen Staatschef Xi Jinping verweigert, antwortet es diese beim indischen Regierungschef Narendra Modi problemlos. (Bild: / CC0)

Chinesische Partei-Propaganda über die Geschichte Taiwans(Bild: / CC0)

Technologie

Am 20. Januar 2025 präsentierte DeepSeek das Large Language Model „DeepSeek-R1“, welches auf maschinellen Lerntechnologien basiert. „Wir stellen unsere Reasoning-Modelle der ersten Generation vor: DeepSeek-R1 Zero und DeepSeek-R1. DeepSeek-R1 Zero, das mit groß skaliertem Verstärkungslernen (RL) ohne überwachtes Feintuning (SFT) als vorläufige Stufe trainiert wurde, zeigt bemerkenswerte Reasoning-Fähigkeiten“, schreibt DeepSeek-CEO Liang Wenfeng in der Produktbeschreibung, die er online gestellt hat. Mit Reasoning ist Räsonieren gemeint, also vernunftbasiertes „Denken“. Allerdings sei Zero noch mit Problemen wie „mangelhafter Lesbarkeit“ und dem „Vermischen von Sprachen“ behaftet.

So funktioniert Retrieval Augmented Generation (RAG) im Zusammenspiel mit einer Graph-Datenbank. (Bild: Neo4J)

R1 soll diese Mängel beheben und die Reasoning-Leistung erhöhen. Es umfasse mehrstufiges Lernen und Kaltstart-Datenbereitstellung, bevor das Reinforcment Learning (RL) beginne. „R1 erreicht eine Reasoning-Leistung, die mit OpenAI-o1 vergleichbar ist“, so Wenfeng. „Um die Forschungsgemeinschaft zu unterstützen, stellen wir R1-Zero und R1 Open Source, ebenso wie sechs Modelle, die aus R1, (Alibaba) Qwen und (Meta) Llama destilliert wurden.“

Transformer-Architektur

DeepSeek R1 verwendet eine Architektur, die konzeptionell mit den gängigen Transformer-Modellen vergleichbar ist. Diese Machine-Learning-Modelle wurden ursprünglich von Google entwickelt.

Ein Transformer ist eine von Google entwickelte Deep-Learning-Architektur, die einen Aufmerksamkeitsmechanismus integriert, der erstmals im Artikel „Attention Is All You Need“ aus dem Jahr 2017 vorgestellt wurde. Dabei wird Text in numerische Darstellungen, die als Token bezeichnet werden, und anschließend durch Worteinbettung in Vektoren umgewandelt.

Das kann beispielsweise dazu benutzt werden, Text von einer Sprache in eine andere zu übersetzen. Dazu wird ein Transformer mittels Machine Learning anhand einer (großen) Menge von Beispieltexten trainiert, bevor das trainierte Modell dann zur Übersetzung verwendet werden kann. Weitere Beispielanwendungen von Transformern sind die Textgenerierung oder die Zusammenfassung längerer Texte, die als gängige GenAI-Funktionen bereits im Einsatz sind.

Constantin Gonzalez, Solution Architect bei AWS Deutschland (Bild: blende11_Fotografen)

Transformer sind hierbei nach Expertenansicht effizienter als Long-short-term-memory-Architekturen (LSTM) und bilden die Grundarchitektur des generativen vortrainierten Transformers (GPT) sowie anderer vortrainierter Machine-Learning-Modelle.

Lizenzen

DeepSeek-R1 wurde unter der MIT-Lizenz veröffentlicht. Die MIT-Lizenz, auch X-Lizenz oder X11-Lizenz genannt, ist eine vom Massachusetts Institute of Technology (MIT) stammende freizügige Open-Source-Lizenz. Sie erlaubt die Wiederverwendung der unter ihr stehenden Software sowohl für Software, deren Quelltext frei verwendbar ist (Open Source), als auch für Software, deren Quelltext nicht frei verwendbar ist (Closed Source).

Diese Lizenz fördert uneingeschränkten Open Access zu wissenschaftlicher Literatur und anderen Materialien im Internet. Ein wissenschaftliches Dokument unter Open-Access-Bedingungen zu publizieren, gibt jedem die Erlaubnis, dieses Dokument zu lesen, herunterzuladen, zu speichern, es zu verlinken, zu drucken und damit kostenlos zu nutzen. Open Access erlaubt sowohl kommerzielle als auch akademische Nutzungen ohne Einschränkungen. Damit setzt DeepSeek bewusst einen Kontrast zu zahlreichen proprietären KI-Systemen, die durch restriktive Lizenzen gekennzeichnet sind.

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

DeepSeek habe laut Eigendokumentation seine KI-Modelle so optimiert, dass der Energieverbrauch im Vergleich zu traditionellen, energieintensiveren KI-Modellen um bis zu 70 Prozent gesenkt werden kann, was durch effizientere Algorithmen und „spezialisierte Hardware“ ermöglicht werde. Was unter der „spezialisierten Hardware“ zu verstehen ist, ist unklar, aber es dürfte sich nach Expertenmeinung um veraltete Generationen von GPUs handeln, denn die USA haben schon 2022 ein entsprechendes Embargo gegen China verhängt.

Einschränkungen

Hinter dem Start-up DeepSeek steht als alleiniger Finanzier der chinesische Hedgefonds HighFlyer, den drei Ingenieure 2015 gegründet haben. Liang Wenfeng gründete DeepSeek im April 2023. Er hat beste Verbindungen zur Parteispitze, und es ist kein Zufall, dass das Release von DeepSeek R-1 auf seinen Besuch bei Staatspräsident Xi Jinping fiel.

Die Antworten, die DeepSeek R-1 liefert, sind mit Vorsicht zu genießen. Es wurde Analysten und Testern beobachtet, dass die offizielle API-Version von R1 bei sensiblen Themen, insbesondere solchen, die in China als politisch heikel gelten, Zensurmechanismen anwendet. So verweigert das Modell etwa Antworten auf Fragen zum Massaker auf dem Tian’anmen-Platz 1989, zur Unterdrückung der Uiguren oder Menschenrechten in China. Auch Fragen nach Xi Jinping werden abgewiesen. Mitunter generiert die KI eine Antwort, ersetzt diese jedoch kurz darauf durch eine Mitteilung wie: „Sorry, das liegt außerhalb meines aktuellen Aufgabenbereichs. Lass uns über etwas anderes sprechen.“

Die internen Zensurmechanismen und Einschränkungen lassen sich in der quelloffenen und modifizierbaren Open-Source-Version des R1-Modells nur aufwendig entfernen. Sobald von chinesischen Internet-Regulierungsbehörden definierte „sozialistische Grundwerte“ tangiert oder die Taiwan-Frage thematisiert wird, werden Diskussionen beendet.

Der Gründer von DeepSeek, Liang Wenfeng, hat enge Verbindungen zur Kommunistischen Partei. Daher befürchten Kritiker, dass das KI-System auch zur ausländischen Einflussnahme, Desinformation, Überwachung und zur Entwicklung von Cyberwaffen (wie neuen Hacking-Tools) für den chinesischen Geheimdienst verwendet werden könnte. Zudem warnen Datenschützer (ähnlich wie bei TikTok), dass die App persönliche Daten nach China übermitteln könnte.

Analystenkommentar

Der Zugang zur Neuregistrierung ist bei DeepSeek derzeit suspendiert. DeepSeek macht „massive Cyberattacken“ dafür verantwortlich, dass die Server vom Netz genommen wurden. Der Analyst Aras Nazarovas von Cybernews.com nimmt an, dass „groß angelegte Cyberattacken üblicherweise Taktiken wie etwa Distributed Denial of Service (DDoS)-Angriffe umfassen.“ Dabei werden die Server des Ziels mit einer großen Anzahl von mehr oder weniger unsinnigen Anfragen überlastet, bis sie nicht mehr antworten können.

„Die Schwierigkeit eines Start-ups im KI-Bereich besteht darin, dass die KI bei Antworten auf die Prompts auf große Bestände an Daten zugreifen und diese mit Rechenkapazitäten verarbeiten müssen“, so der Analyst. Es gebe eine Achillesferse für KI-Start-ups, die quelloffene Software-Komponenten verwenden. „Weil DeepSeek auf Open-Source-Modelle setzt und rasch skalieren musste, könnten Angreifer Software-Schwachstellen und Zero-day Exploits ausgenutzt haben“, so Nazarovas. „Die Ziele könnten schwache Stelle in DeepSeeks APIs oder Server-Konfiguration gewesen sein.“

Denkbar sei auch, dass weniger sichere Drittanbieter-Infrastruktur eine Rolle gespielt dabei haben, das Unternehmen ungeschützt zu lassen. „Start-ups, die sich leichter verfügbare oder alternative Rechenressourcen stützen, könnten sich unwissentlich größeren Risiken aussetzen, während sie ihren Betrieb skalieren.“

Anthropics Claude-3-Modelle laufen auch im Framework Amazon Bedrock. (Bild: Anthropic)

Was bedeutet dies für Bestandskunden? Sie müssen sich Sorgen machen, dass der Schutz ihrer vertraulichen Daten kompromittiert worden ist“, so Nazarovas. „Generative KI-Modelle wie DeepSeek verarbeiten große Mengen von Nutzereingaben, so etwa private Fragen, Unterhaltungen und Suchanfragen. Hat es ein Datenleck gegeben, könnten diese Informationen offengelegt und potenziell – zusammen mit Interaktionsmustern – in künftigen Angriffen ausgenutzt werden.“

„Datenschutz ist in China nicht gerade großgeschrieben. Das macht das KI-Modell von DeepSeek wenig vertrauenswürdiger.“ meint Ismet Koyun, CEO der Kobil Gruppe. (Bild: Blackdorian - stock.adobe.com)

(ID:50307922)