DeepSeek的新聊天機器人在AI行業中引起了轟動,將自己定位為強大的競爭對手。該公司以有趣的標語介紹了AI:“嗨,我是由創建的,所以您可以問任何東西,並得到一個甚至可能讓您感到驚訝的答案。”這一大膽的聲明引起了用戶的共鳴,如今,DeepSeek的進步促成了NVIDIA最大的股票價格下跌之一,強調了其技術的影響。
圖片:ensigame.com
DeepSeek模型與眾不同的是其創新的建築和培訓方法。這是為AI提供動力的關鍵技術:
多語預測(MTP):與一次預測一個單詞的傳統模型不同,DeepSeek的MTP方法通過分析句子的不同部分同時預測了多個單詞。該方法提高了模型的準確性和效率。
專家的混合物(MOE):該體系結構採用各種神經網絡來處理輸入數據。它加速了AI培訓並提高了性能。在DeepSeek V3中,使用了256個神經網絡,每個令牌處理任務都會激活8個神經網絡。
多頭潛在註意力(MLA):這種機制著重於句子的最重要部分。 MLA反復從文本片段中提取關鍵細節,從而減少了缺少重要信息的可能性。這樣可以確保AI捕獲輸入數據中的重要細微差別。
圖片:ensigame.com
DeepSeek是一家著名的中國初創公司,聲稱已經開發了一種具有最低成本的競爭性AI模型,並指出他們在培訓強大的神經網絡DeepSeek V3上僅花費了600萬美元,僅使用了2048個圖形處理器。但是,半分析的分析師表明,DeepSeek運營著大量的計算基礎設施,其中包括大約50,000個NVIDIA HOPPER GPU,其中包括10,000 H800單位,10,000個高級H100和其他H20 GPU。這些資源分佈在幾個數據中心,並用於AI培訓,研究和財務建模。
該公司對服務器的總投資約為16億美元,運營費用估計為9.44億美元。 DeepSeek是中國對沖基金高飛行器的子公司,該基金在2023年以獨立的AI部門為重點,該部門在2023年側重於AI技術。與大多數從Cloud Profister租用計算能力的初創公司不同,DeepSeek擁有其自己的數據中心,使其對AI模型的優化和實現Innovation Innerovation for Innerovation in Innerovation for Innerovation進行了完全控制。該公司仍然是自籌資金的,這對其靈活性和決策速度產生了積極影響。
圖片:ensigame.com
此外,DeepSeek的一些研究人員每年收入超過130萬美元,吸引了中國領先的大學的頂尖人才(該公司不僱用外國專家)。即使考慮到這一點,DeepSeek最近以600萬美元的價格培訓其最新模式的主張似乎是不現實的。該數字僅是指在預培訓期間使用GPU的成本,並且不考慮研究費用,改進,數據處理或整體基礎設施成本。
自成立以來,DeepSeek已在AI開發方面投資了超過5億美元。但是,與官僚主義負擔負擔的大型公司不同,DeepSeek的緊湊結構使其可以積極有效地實施AI創新。
圖片:ensigame.com
DeepSeek的例子表明,一家資金充足的獨立AI公司可以與行業領導人競爭。儘管如此,專家們強調,該公司的成功主要是由於數十億美元的投資,技術突破和強大的團隊,而對開發AI模型的“革命性預算”的說法有些誇張。儘管如此,競爭對手的成本仍然更高。例如,比較模型培訓的成本:DeepSeek在R1上花費了500萬美元,而Chatgpt4o的成本為1億美元。