दीपसेक के नए चैटबॉट ने एआई उद्योग में लहरें बनाई हैं, जो खुद को एक दुर्जेय प्रतियोगी के रूप में रखती है। कंपनी ने अपने एआई को पेचीदा टैगलाइन के साथ पेश किया: "हाय, मैं बनाया गया था ताकि आप कुछ भी पूछ सकें और एक उत्तर प्राप्त कर सकें जो आपको आश्चर्यचकित भी कर सके।" इस बोल्ड स्टेटमेंट ने उपयोगकर्ताओं के साथ प्रतिध्वनित किया है, और आज, डीपसेक की प्रगति ने एनवीडिया के लिए सबसे बड़े स्टॉक प्राइस ड्रॉप्स में से एक में योगदान दिया है, जो इसकी तकनीक के प्रभाव को उजागर करता है।
चित्र: ensigame.com
डीपसेक के मॉडल को अलग करने के लिए इसकी अभिनव वास्तुकला और प्रशिक्षण के तरीके हैं। यहाँ प्रमुख प्रौद्योगिकियां हैं जो अपने AI को शक्ति प्रदान करती हैं:
मल्टी-टोकन भविष्यवाणी (एमटीपी): पारंपरिक मॉडल के विपरीत, जो एक समय में एक शब्द की भविष्यवाणी करते हैं, डीपसेक का एमटीपी दृष्टिकोण एक वाक्य के विभिन्न हिस्सों का विश्लेषण करके एक साथ कई शब्दों की भविष्यवाणी करता है। यह विधि मॉडल की सटीकता और दक्षता दोनों को बढ़ाती है।
विशेषज्ञों का मिश्रण (MOE): यह आर्किटेक्चर इनपुट डेटा को संसाधित करने के लिए विभिन्न तंत्रिका नेटवर्क को नियुक्त करता है। यह एआई प्रशिक्षण को तेज करता है और प्रदर्शन में सुधार करता है। दीपसेक V3 में, 256 तंत्रिका नेटवर्क का उपयोग किया जाता है, जिसमें प्रत्येक टोकन प्रसंस्करण कार्य के लिए आठ सक्रिय होते हैं।
मल्टी-हेड लेटेंट ध्यान (एमएलए): यह तंत्र एक वाक्य के सबसे महत्वपूर्ण भागों पर केंद्रित है। MLA बार -बार पाठ के टुकड़ों से महत्वपूर्ण विवरण निकालता है, जिससे लापता महत्वपूर्ण जानकारी लापता होने की संभावना कम होती है। यह सुनिश्चित करता है कि एआई इनपुट डेटा में महत्वपूर्ण बारीकियों को पकड़ ले।
चित्र: ensigame.com
दीपसेक, एक प्रमुख चीनी स्टार्टअप, ने कम से कम लागत के साथ एक प्रतिस्पर्धी एआई मॉडल विकसित करने का दावा किया है, जिसमें कहा गया है कि उन्होंने शक्तिशाली तंत्रिका नेटवर्क डीपसेक वी 3 को प्रशिक्षित करने पर केवल $ 6 मिलियन खर्च किए और सिर्फ 2048 ग्राफिक्स प्रोसेसर का उपयोग किया। हालांकि, सेमियनलिसिस के विश्लेषकों ने खुलासा किया है कि डीपसेक एक विशाल कम्प्यूटेशनल बुनियादी ढांचे का संचालन करता है जिसमें लगभग 50,000 एनवीडिया हॉपर जीपीयू शामिल हैं, जिसमें 10,000 एच 800 यूनिट, 10,000 अधिक उन्नत एच 100 एस और अतिरिक्त एच 20 जीपीयू शामिल हैं। इन संसाधनों को कई डेटा केंद्रों में वितरित किया जाता है और एआई प्रशिक्षण, अनुसंधान और वित्तीय मॉडलिंग के लिए उपयोग किया जाता है।
सर्वर में कंपनी का कुल निवेश लगभग 1.6 बिलियन डॉलर है, जिसमें परिचालन खर्च $ 944 मिलियन है। दीपसेक चीनी हेज फंड हाई-फ्लायर की एक सहायक कंपनी है, जो 2023 में एआई प्रौद्योगिकियों पर केंद्रित एक अलग डिवीजन के रूप में स्टार्टअप को बंद कर देती है। क्लाउड प्रदाताओं से कम्प्यूटिंग पावर को किराए पर लेने वाले अधिकांश स्टार्टअप्स के विपरीत, डीपसेक अपने स्वयं के डेटा केंद्रों का मालिक है, यह एआई मॉडल अनुकूलन पर पूर्ण नियंत्रण देता है और नवाचारों के तेजी से कार्यान्वयन को सक्षम करता है। कंपनी स्व-वित्त पोषित बनी हुई है, जो इसके लचीलेपन और निर्णय लेने की गति को सकारात्मक रूप से प्रभावित करती है।
चित्र: ensigame.com
इसके अलावा, दीपसेक के कुछ शोधकर्ता सालाना $ 1.3 मिलियन से अधिक कमाते हैं, प्रमुख चीनी विश्वविद्यालयों से शीर्ष प्रतिभा को आकर्षित करते हैं (कंपनी विदेशी विशेषज्ञों को काम पर नहीं रखती है)। यहां तक कि इस पर विचार करते हुए, दीपसेक के हालिया $ 6 मिलियन के लिए अपने नवीनतम मॉडल को प्रशिक्षित करने का दावा अवास्तविक लगता है। यह आंकड़ा केवल पूर्व-प्रशिक्षण के दौरान GPU उपयोग की लागत को संदर्भित करता है और अनुसंधान व्यय, मॉडल शोधन, डेटा प्रसंस्करण, या समग्र बुनियादी ढांचे की लागत के लिए जिम्मेदार नहीं है।
अपनी स्थापना के बाद से, दीपसेक ने एआई विकास में $ 500 मिलियन से अधिक का निवेश किया है। हालांकि, बड़ी कंपनियों के विपरीत नौकरशाही से बोझिल, डीपसेक की कॉम्पैक्ट संरचना इसे सक्रिय रूप से और प्रभावी रूप से एआई नवाचारों को लागू करने की अनुमति देती है।
चित्र: ensigame.com
दीपसेक का उदाहरण दर्शाता है कि एक अच्छी तरह से वित्त पोषित स्वतंत्र एआई कंपनी उद्योग के नेताओं के साथ प्रतिस्पर्धा कर सकती है। फिर भी, विशेषज्ञ इस बात पर जोर देते हैं कि कंपनी की सफलता काफी हद तक निवेश, तकनीकी सफलताओं और एक मजबूत टीम में अरबों के कारण है, जबकि एआई मॉडल विकसित करने के लिए "क्रांतिकारी बजट" के बारे में दावे कुछ हद तक अतिरंजित हैं। फिर भी, प्रतियोगियों की लागत काफी अधिक है। उदाहरण के लिए, मॉडल प्रशिक्षण की लागत की तुलना करें: दीपसेक ने R1 पर $ 5 मिलियन खर्च किए, जबकि CHATGPT4O की लागत $ 100 मिलियन है।