DeepSeek: Всё, что нужно знать о чат-боте на основе ИИ

Китайский чат-бот DeepSeek взлетел на вершину чартов App Store и Google Play, вызвав вопросы о лидерстве США в области ИИ и спросе на чипы. Узнайте историю стремительного успеха DeepSeek и о технологиях, стоящих за его мощными моделями.

4 минуты

Происхождение DeepSeek

DeepSeek — компания, основанная китайским квантовым хедж-фондом High-Flyer Capital Management, использующим ИИ для принятия торговых решений. Liang Wenfeng, энтузиаст искусственного интеллекта, основал High-Flyer в 2015 году. В 2019 году фонд трансформировался в хедж-фонд, ориентированный на разработку и внедрение алгоритмов ИИ. В 2023 году High-Flyer создала DeepSeek как исследовательскую лабораторию, которая впоследствии стала независимой компанией.

С самого начала DeepSeek создавала собственные кластеры дата-центров для обучения моделей. Однако, как и другие китайские компании, DeepSeek столкнулась с ограничениями, связанными с американскими экспортными санкциями на оборудование. Для обучения одной из последних моделей пришлось использовать менее мощные чипы Nvidia H800 вместо H100, доступных американским компаниям.

В DeepSeek работает преимущественно молодая команда, активно привлекающая исследователей ИИ с докторскими степенями из ведущих китайских университетов. Компания также нанимает сотрудников без опыта в компьютерных науках для расширения кругозора и понимания различных областей знаний.

Мощные модели DeepSeek

Первые модели DeepSeek (DeepSeek Coder, DeepSeek LLM и DeepSeek Chat) были представлены в ноябре 2023 года. Однако широкое внимание индустрии ИИ компания привлекла весной следующего года, с выходом семейства моделей DeepSeek-V2. DeepSeek-V2, универсальная система анализа текста и изображений, продемонстрировала высокие результаты в различных бенчмарках, при этом оказалась значительно дешевле в эксплуатации, чем аналогичные модели.

DeepSeek V3, выпущенная в декабре 2024 года, ещё больше укрепила репутацию компании. По результатам внутреннего тестирования, DeepSeek V3 превосходила как общедоступные модели, такие как Llama от Meta, так и модели с закрытым доступом, например, GPT-4 от OpenAI.

Модель логического вывода R1, выпущенная в январе, по утверждениям DeepSeek, демонстрирует результаты, сопоставимые с моделью o1 от OpenAI. R1 эффективно проверяет себя на фактические ошибки, что помогает избежать распространённых проблем других моделей. Модели логического вывода работают медленнее, но более надёжны в таких областях, как физика, наука и математика. Например, R1 успешно справляется со сложными математическими задачами и физическими расчетами, выдавая точные и обоснованные ответы.

Однако, модели DeepSeek, будучи разработаны в Китае, проходят оценку китайского интернет-регулятора на соответствие «основным социалистическим ценностям». В чат-боте DeepSeek, например, R1 не отвечает на вопросы о площади Тяньаньмэнь или статусе Тайваня, что обусловлено политической цензурой.

В марте количество посещений DeepSeek превысило 16,5 миллионов. Несмотря на снижение трафика на 25% по сравнению с февралём, DeepSeek остаётся на высоких позициях, хотя и значительно уступает ChatGPT по популярности.

Нестандартная бизнес-модель

Бизнес-модель DeepSeek не совсем прозрачна. Компания устанавливает цены значительно ниже рыночных, а некоторые продукты раздаёт бесплатно. DeepSeek не привлекает инвестиций, несмотря на большой интерес со стороны венчурных инвесторов. Компания объясняет это высокой эффективностью своих разработок. Однако, некоторые эксперты оспаривают предоставленные компанией данные, указывая на возможные несоответствия и недостаток прозрачности в финансовой отчетности.

Влияние DeepSeek на рынок и реакция конкурентов

Несмотря на закрытый исходный код, модели DeepSeek доступны по разрешительным лицензиям, допускающим коммерческое использование. Разработчики активно используют эти модели: на платформе Hugging Face было создано более 500 «производных» моделей R1, загруженных в общей сложности 2,5 миллиона раз.

Успех DeepSeek вызвал неоднозначную реакцию. Его описывали как «переворот в сфере ИИ» и как «чрезмерно разрекламированный». Успех компании, по крайней мере частично, способствовал падению цены акций Nvidia на 18% в январе и вызвал публичный ответ генерального директора OpenAI Сэма Альтмана. В марте Министерство торговли США запретило использование DeepSeek на правительственных устройствах.

Microsoft интегрировала DeepSeek в свою службу Azure AI Foundry. Meta, в ответ на вопрос о влиянии DeepSeek на расходы на ИИ, заявила, что инвестиции в ИИ-инфраструктуру останутся стратегическим приоритетом. OpenAI назвала DeepSeek «субсидируемой государством» и «контролируемой государством», призвав к запрету моделей DeepSeek в США.

Генеральный директор Nvidia Дженсен Хуанг, напротив, высоко оценил инновации DeepSeek, отметив, что такие модели требуют значительных вычислительных мощностей, что выгодно для Nvidia. Тем не менее, ряд компаний, а также Южная Корея и Нью-Йорк запретили использование DeepSeek на правительственных устройствах.

Будущее DeepSeek

Будущее DeepSeek остается неопределенным. Появление более совершенных моделей неизбежно. Однако растущие опасения правительства США по поводу потенциального иностранного влияния могут привести к дальнейшим ограничениям. Запрет DeepSeek на правительственных устройствах в США остается вероятным сценарием.

Источник:techcrunch.com

Предыдущая статья Следующая статья

DeepSeek: Всё, что нужно знать о чат-боте на основе ИИ

Происхождение DeepSeek

Мощные модели DeepSeek

Нестандартная бизнес-модель

Влияние DeepSeek на рынок и реакция конкурентов

Будущее DeepSeek

Другие статьи

Первые впечатления от Gemini в Chrome: ожидание и реальность

Новые возможности GPT-4 в автоматизации бизнеса