Deepseek'in yeni chatbot'u AI endüstrisinde dalgalar yaptı ve kendisini zorlu bir rakip olarak konumlandırdı. Şirket, AI'sını ilginç bir sloganla tanıttı: "Merhaba, yaratıldım, böylece herhangi bir şey sorabilir ve sizi şaşırtabilecek bir cevap alabilirsiniz." Bu cesur ifade kullanıcılarla yankı buldu ve bugün Deepseek'in gelişmeleri, NVIDIA için en büyük hisse senedi fiyat düşüşlerinden birine katkıda bulundu ve teknolojisinin etkisini vurguladı.
Resim: ensigame.com
Deepseek'in modelini ayıran şey, yenilikçi mimarisi ve eğitim yöntemleridir. İşte AI'sına güç veren temel teknolojiler:
Çoklu Tahmini Tahmin (MTP): Her seferinde bir kelimeyi tahmin eden geleneksel modellerin aksine, Deepseek'in MTP yaklaşımı, bir cümlenin farklı bölümlerini analiz ederek aynı anda birden fazla kelimeyi öngörür. Bu yöntem, modelin hem doğruluğunu hem de verimliliğini artırır.
Uzmanların Karışımı (MOE): Bu mimari, girdi verilerini işlemek için çeşitli sinir ağları kullanır. AI eğitimini hızlandırır ve performansı artırır. Deepseek V3'te 256 sinir ağı kullanılır, sekizi her bir jeton işleme görevi için etkinleştirilir.
Çok Baş Gizli Dikkat (MLA): Bu mekanizma bir cümlenin en önemli kısımlarına odaklanır. MLA, metin parçalarından gelen temel ayrıntıları tekrar tekrar çıkarır ve önemli bilgilerin eksik olma olasılığını azaltır. Bu, AI'nın giriş verilerindeki önemli nüansları yakalamasını sağlar.
Resim: ensigame.com
Önemli bir Çin girişim olan Deepseek, minimum maliyetlerle rekabetçi bir AI modeli geliştirdiğini iddia ediyor ve güçlü sinir ağı Deepseek V3'ü eğitmek için sadece 6 milyon dolar harcadıklarını ve sadece 2048 grafik işlemcisi kullandıklarını belirtiyor. Bununla birlikte, Semianaliz analistleri, Deepseek'in 10.000 H800 birim, 10.000 daha gelişmiş H100'ler ve ek H20 GPU'lar dahil olmak üzere yaklaşık 50.000 NVIDIA hunper GPU'du. Bu kaynaklar çeşitli veri merkezlerine dağıtılır ve AI eğitim, araştırma ve finansal modelleme için kullanılır.
Şirketin sunuculara toplam yatırımı yaklaşık 1,6 milyar dolar, operasyonel giderlerin 944 milyon dolar olduğu tahmin ediliyor. Deepseek, 2023'te AI teknolojilerine odaklanan ayrı bir bölüm olarak başlatılan Çin Hedge Fonu High-Flyer'in bir yan kuruluşudur. Bulut sağlayıcılarından bilgi işlem gücünü kiralayan çoğu girişimin aksine, Deepseek kendi veri merkezlerine sahiptir ve AI model optimizasyonu üzerinde tam kontrol sağlar ve inovasyonların daha hızlı uygulanması. Şirket, esnekliğini ve karar verme hızını olumlu yönde etkileyen kendi kendini finanse ediyor.
Resim: ensigame.com
Dahası, Deepseek'teki bazı araştırmacılar yılda 1.3 milyon doların üzerinde para kazanıyor ve önde gelen Çin üniversitelerinden en iyi yetenekleri çekiyor (şirket yabancı uzmanları işe almıyor). Bunu göz önünde bulundurarak, Deepseek'in son modelini sadece 6 milyon dolarlık eğitme iddiası gerçekçi görünmüyor. Bu rakam sadece eğitim öncesi GPU kullanımının maliyetini ifade eder ve araştırma giderleri, model iyileştirme, veri işleme veya genel altyapı maliyetlerini açıklamaz.
Deepseek, kuruluşundan bu yana AI gelişimine 500 milyon doların üzerinde yatırım yaptı. Bununla birlikte, bürokrasi ile yüklenen daha büyük şirketlerin aksine, Deepseek'in kompakt yapısı AI yeniliklerini aktif ve etkili bir şekilde uygulamasını sağlar.
Resim: ensigame.com
Deepseek örneği, iyi finanse edilen bağımsız bir AI şirketinin endüstri liderleriyle rekabet edebileceğini göstermektedir. Bununla birlikte, uzmanlar şirketin başarısının büyük ölçüde milyarlarca yatırım, teknik atılımlar ve güçlü bir ekipten kaynaklandığını vurgularken, AI modelleri geliştirmek için "devrimci bir bütçe" iddiaları biraz abartılıdır. Yine de, rakiplerin maliyetleri önemli ölçüde daha yüksek. Örneğin, model antrenman maliyetini karşılaştırın: Deepseek R1'e 5 milyon dolar harcadı, ChatGpt4o ise 100 milyon dolara mal oldu.