Новый чат -бот DeepSeek выдвинул волны в индустрии ИИ, позиционируя себя как грозный конкурент. Компания представила свой ИИ интригующий слоган: «Привет, я был создан, чтобы вы могли спросить что угодно и получить ответ, который может даже удивить вас». Это смелое заявление откликнулось с пользователями, и сегодня достижения DeepSeek способствовали одному из крупнейших падений цен на акции для Nvidia, что подчеркивает влияние ее технологии.
Изображение: Ensigame.com
То, что отличает модель Deepseek, - это ее инновационная архитектура и методы обучения. Вот ключевые технологии, которые питают его ИИ:
Multi-Token Production (MTP): в отличие от традиционных моделей, которые предсказывают по одному слову за раз, подход DeepSeek MTP предсказывает несколько слов одновременно, анализируя различные части предложения. Этот метод повышает как точность, так и эффективность модели.
Смесь экспертов (MOE): в этой архитектуре используются различные нейронные сети для обработки входных данных. Это ускоряет обучение ИИ и повышает производительность. В Deepseek V3 используются 256 нейронных сетей, причем восемь активируются для каждой задачи обработки токенов.
Многоугольное скрытое внимание (MLA): этот механизм фокусируется на наиболее значимых частях предложения. MLA извлекает ключевые детали из фрагментов текста неоднократно, снижая вероятность отсутствия важной информации. Это гарантирует, что ИИ захватывает решающие нюансы во входных данных.
Изображение: Ensigame.com
DeepSeek, известный китайский стартап, утверждает, что разработал конкурентную модель ИИ с минимальными затратами, заявив, что они потратили всего 6 миллионов долларов на обучение мощной нейронной сети Deepseek V3 и использовали только 2048 графических процессоров. Тем не менее, аналитики полуанализа показали, что Deepseek управляет обширной вычислительной инфраструктурой, включающей приблизительно 50 000 графических процессоров Nvidia, в том числе 10 000 единиц H800, более 10 000 продвинутых H100 и дополнительных графических процессоров H20. Эти ресурсы распределены по нескольким центрам обработки данных и используются для обучения, исследований и финансового моделирования искусственного интеллекта.
Общая инвестиция компании в серверы составляет около 1,6 млрд. Долл. США, а эксплуатационные расходы оцениваются в 944 млн. Долл. США. DeepSeek является дочерней компанией китайского хедж-фонда High-Flyer, который отключился от стартапа как отдельное подразделение, ориентированное на технологии искусственного интеллекта в 2023 году. В отличие от большинства стартапов, которые арендуют вычислительную власть от облачных провайдеров, Deepseek владеет своими собственными центрами обработки обработки данных, предоставляя ему полный контроль над оптимизацией модели ИИ и обеспечивая более быстрое реализацию инноваций. Компания остается самофинансированной, что положительно влияет на его гибкость и скорость принятия решений.
Изображение: Ensigame.com
Более того, некоторые исследователи в DeepSeek зарабатывают более 1,3 миллиона долларов в год, привлекая лучших талантов от ведущих китайских университетов (компания не нанимает иностранных специалистов). Даже учитывая это, недавняя претензия Deepseek о обучении своей последней модели всего за 6 миллионов долларов кажется нереальным. Эта цифра относится только к стоимости использования графических процессоров во время предварительного обучения и не учитывает расходы на исследования, уточнение модели, обработку данных или общие затраты на инфраструктуру.
С момента своего создания DeepSeek инвестировала более 500 миллионов долларов в разработку ИИ. Однако, в отличие от более крупных компаний, обремененных бюрократией, компактная структура Deepseek позволяет ей активно и эффективно внедрять инновации в области ИИ.
Изображение: Ensigame.com
Пример DeepSeek демонстрирует, что хорошо финансируемая независимая компания ИИ может конкурировать с лидерами отрасли. Тем не менее, эксперты подчеркивают, что успех компании в значительной степени связан с миллиардами инвестиций, технических прорывов и сильной командой, в то время как заявления о «революционном бюджете» для разработки моделей ИИ несколько преувеличены. Тем не менее, затраты конкурентов остаются значительно выше. Например, сравните стоимость модельного обучения: Deepseek потратил 5 миллионов долларов на R1, а Chatgpt4o стоила 100 миллионов долларов.