Nowy chatbot Deepseka sprawił, że faluje w branży AI, pozycjonując się jako potężny konkurent. Firma wprowadziła swoją sztuczną inteligencję z intrygującym hasłem: „Cześć, zostałem stworzony, abyś mógł zapytać o wszystko i uzyskać odpowiedź, która może cię nawet zaskoczyć”. To odważne oświadczenie rezonowało z użytkownikami, a dziś postępy Deepseek przyczyniły się do jednego z największych spadków cen akcji dla NVIDIA, podkreślając wpływ jej technologii.
Zdjęcie: engame.com
To, co wyróżnia model Deepseek, jest innowacyjna architektura i metody szkolenia. Oto kluczowe technologie, które zasilają to AI:
Prognozowanie wielofunkcyjne (MTP): W przeciwieństwie do tradycyjnych modeli, które przewidują jedno słowo na raz, podejście MTP Deepseek przewiduje wiele słów jednocześnie poprzez analizę różnych części zdania. Ta metoda zwiększa zarówno dokładność, jak i wydajność modelu.
Mieszanka ekspertów (MOE): Architektura ta wykorzystuje różne sieci neuronowe do przetwarzania danych wejściowych. Przyspiesza szkolenie AI i poprawia wydajność. W Deepseek V3 wykorzystywane jest 256 sieci neuronowych, a osiem jest aktywowanych dla każdego zadania przetwarzania tokenu.
Utrzymująca uwaga wielowłócona (MLA): Ten mechanizm koncentruje się na najważniejszych częściach zdania. MLA wielokrotnie wyodrębnia kluczowe szczegóły z fragmentów tekstu, zmniejszając prawdopodobieństwo braku ważnych informacji. Zapewnia to, że sztuczna inteligencja przechwytuje kluczowe niuanse w danych wejściowych.
Zdjęcie: engame.com
Deepseek, wybitny chiński startup, twierdzi, że opracował konkurencyjny model AI o minimalnych kosztach, stwierdzając, że wydali tylko 6 milionów dolarów na szkolenie potężnej sieci neuronowej Deepseek V3 i zastosowali zaledwie 2048 procesorów graficznych. Jednak analitycy z semianalizy ujawnili, że Deepseek prowadzi ogromną infrastrukturę obliczeniową obejmującą około 50 000 GPU Nvidia Hopper, w tym 10 000 jednostek H800, 10 000 bardziej zaawansowanych H100 i dodatkowych GPU H20. Zasoby te są dystrybuowane w kilku centrach danych i są wykorzystywane do szkolenia AI, badania i modelowanie finansowe.
Całkowita inwestycja Spółki w serwerach wynosi około 1,6 miliarda dolarów, a wydatki operacyjne szacują na 944 mln USD. Deepseek jest spółką zależną chińskiego funduszu hedgingowego High-Flyer, która odrzuciła start-upa jako odrębny podział koncentrujący się na technologiach AI w 2023 r.. W przeciwieństwie do większości startupów, które wynajmują siłę obliczeniową od dostawców chmur, Deepseek jest właścicielem własnych centrów danych, co daje mu pełną kontrolę nad optymalizacją modelu AI i włączając szybką wdrażanie innowacji. Firma pozostaje finansowana, co pozytywnie wpływa na jego elastyczność i szybkość podejmowania decyzji.
Zdjęcie: engame.com
Ponadto niektórzy badacze Deepseek zarabiają ponad 1,3 miliona dolarów rocznie, przyciągając najlepsze talenty wiodących chińskich uniwersytetów (firma nie zatrudniał zagranicznych specjalistów). Nawet biorąc to pod uwagę, ostatnie twierdzenie Deepseeka o szkolenie najnowszego modelu za jedyne 6 milionów dolarów wydaje się nierealne. Liczba ta odnosi się jedynie do kosztu wykorzystania GPU podczas wstępnego treningu i nie uwzględnia kosztów badań, udoskonalania modelu, przetwarzania danych lub ogólnych kosztów infrastruktury.
Od samego początku Deepseek zainwestował ponad 500 milionów dolarów w rozwój AI. Jednak w przeciwieństwie do większych firm obciążonych biurokracją, kompaktowa struktura Deepseek pozwala jej aktywnie i skutecznie wdrażać innowacje AI.
Zdjęcie: engame.com
Przykład Deepseek pokazuje, że dobrze finansowana niezależna firma AI może konkurować z liderami branży. Niemniej jednak eksperci podkreślają, że sukces firmy wynika głównie z miliardów inwestycji, przełomów technicznych i silnego zespołu, podczas gdy twierdzenia o „rewolucyjnym budżecie” dla opracowywania modeli AI są nieco przesadzone. Mimo to koszty konkurencji pozostają znacznie wyższe. Na przykład porównaj koszty treningu modelowego: Deepseek wydał 5 milionów dolarów na R1, podczas gdy Chatgpt4O kosztował 100 milionów dolarów.