Deepseeks neuer Chatbot hat in der KI -Branche Wellen geführt und sich als beeindruckender Konkurrent positioniert. Das Unternehmen stellte seine KI mit dem faszinierenden Slogan vor: "Hallo, ich wurde erstellt, damit Sie alles fragen und eine Antwort erhalten können, die Sie sogar überraschen könnte." Diese mutige Erklärung hat bei den Benutzern Anklang gefunden, und heute haben die Fortschritte von Deepseek zu einem der größten Aktienkursabfälle für NVIDIA beigetragen, wodurch die Auswirkungen seiner Technologie hervorgehoben werden.
Bild: Ensigame.com
Was das Modell von Deepseek auszeichnet, sind seine innovativen Architektur- und Trainingsmethoden. Hier sind die Schlüsseltechnologien, die ihre KI betreiben:
Multi-Token-Vorhersage (MTP): Im Gegensatz zu herkömmlichen Modellen, die jeweils ein Wort vorhersagen, prognostiziert Deepseeks MTP-Ansatz mehrere Wörter gleichzeitig, indem verschiedene Teile eines Satzes analysiert werden. Diese Methode verbessert sowohl die Genauigkeit als auch die Effizienz des Modells.
Mischung von Experten (MOE): Diese Architektur verwendet verschiedene neuronale Netze, um Eingabedaten zu verarbeiten. Es beschleunigt das KI -Training und verbessert die Leistung. In Deepseek V3 werden 256 neuronale Netze verwendet, wobei acht für jede Token -Verarbeitungsaufgabe aktiviert werden.
Multi-Head Latent Achtung (MLA): Dieser Mechanismus konzentriert sich auf die wichtigsten Teile eines Satzes. MLA extrahiert wichtige Details aus Textfragmenten wiederholt und verringert die Wahrscheinlichkeit, wichtige Informationen zu fehlen. Dies stellt sicher, dass die KI wichtige Nuancen in den Eingabedaten erfasst.
Bild: Ensigame.com
Deepseek, ein prominentes chinesisches Startup, behauptet, ein wettbewerbsfähiges KI -Modell mit minimalen Kosten entwickelt zu haben. Sie erklärte, sie hätten nur 6 Millionen US -Dollar für die Schulung des leistungsstarken neuronalen Netzwerks Deepseek V3 ausgegeben und nur 2048 Grafikprozessoren verwendet. Analysten aus der semianalyse haben jedoch gezeigt, dass Deepseek eine riesige Computerinfrastruktur mit rund 50.000 NVIDIA Hopper -GPUs betreibt, darunter 10.000 H800 -Einheiten, 10.000 fortschrittlichere H100s und zusätzliche H20 -GPUs. Diese Ressourcen werden über mehrere Rechenzentren verteilt und für KI -Schulungen, Forschung und Finanzmodellierung verwendet.
Die Gesamtinvestition des Unternehmens in Server beträgt rund 1,6 Milliarden US -Dollar, wobei die operativen Ausgaben auf 944 Mio. USD geschätzt werden. Deepseek ist eine Tochtergesellschaft des chinesischen Hedgefonds-High-Flyer, das das Startup als separate Abteilung ausgab, die sich 2023 auf KI-Technologien konzentriert. Im Gegensatz zu den meisten Startups, die Computerleistung von Cloud-Anbietern mieten, besitzt Deepseek seine eigenen Datenzentren, die die vollständige Kontrolle über AI-Modelloptimierung und eine fasterende Implementierung von Faster-Implementierungen von Innovationen in der Lage haben. Das Unternehmen bleibt selbst finanziert, was sich positiv auf seine Flexibilität und Entscheidungsgeschwindigkeit auswirkt.
Bild: Ensigame.com
Darüber hinaus verdienen einige Forscher von Deepseek jährlich über 1,3 Millionen US -Dollar und ziehen Top -Talente von führenden chinesischen Universitäten an (das Unternehmen stellt keine ausländischen Spezialisten ein). Selbst wenn man bedenkt, erscheint Deepseeks jüngster Anspruch, sein jüngstes Modell für nur 6 Millionen US -Dollar auszubilden, unrealistisch. Diese Zahl bezieht sich nur auf die Kosten der GPU-Nutzung während der Vorausbildung und berücksichtigt keine Forschungskosten, die Verfeinerung der Modellverarbeitung, die Datenverarbeitung oder die Gesamtkosten der Infrastruktur.
Seit seiner Gründung hat Deepseek über 500 Millionen US -Dollar in die KI -Entwicklung investiert. Im Gegensatz zu größeren Unternehmen, die durch die Bürokratie belastet sind, ermöglicht die kompakte Struktur von Deepseek sie jedoch, KI -Innovationen aktiv und effektiv umzusetzen.
Bild: Ensigame.com
Das Beispiel von Deepseek zeigt, dass ein gut finanziertes unabhängiges KI-Unternehmen mit Branchenführern konkurrieren kann. Trotzdem betonen Experten, dass der Erfolg des Unternehmens hauptsächlich auf Milliarden an Investitionen, technischen Durchbrüchen und einem starken Team zurückzuführen ist, während die Behauptungen über ein "revolutionäres Budget" für die Entwicklung von KI -Modellen etwas übertrieben sind. Dennoch bleiben die Kosten der Wettbewerber deutlich höher. Vergleichen Sie beispielsweise die Kosten für das Modelltraining: Deepseek gab 5 Millionen US -Dollar für R1 aus, während Chatgpt4O 100 Millionen US -Dollar kostete.