DeepSeek: Всё, что нужно знать о новом AI-чат-боте

Китайский чат-бот DeepSeek покоряет мир! Узнайте, как стартап, выросший из хедж-фонда, бросает вызов американским AI-гигантам и влияет на спрос на чипы.

5 минут

DeepSeek: Взлет китайского AI-гиганта

Китайская AI-лаборатория DeepSeek стремительно набирает популярность, а её чат-бот приложение лидирует в Apple App Store и Google Play. Модели DeepSeek, обученные с использованием эффективных вычислительных методов, заставляют аналитиков Уолл-стрит и технологов задаваться вопросом о лидерстве США в AI-гонке и спросе на AI-чипы.

От трейдинга к AI-прорыву: История DeepSeek

DeepSeek поддерживается High-Flyer Capital Management, китайским хедж-фондом, использующим AI для принятия торговых решений. Лян Вэнфэн, энтузиаст AI, стал соучредителем High-Flyer в 2015 году.

Основание и развитие

Вэнфэн, начавший заниматься трейдингом еще будучи студентом, запустил High-Flyer Capital Management как хедж-фонд в 2019 году. Его целью была разработка и внедрение AI-алгоритмов. В 2023 году High-Flyer основала DeepSeek как лабораторию, занимающуюся исследованиями AI-инструментов отдельно от финансового бизнеса.

Лаборатория выделилась в отдельную компанию, также названную DeepSeek, при поддержке High-Flyer в качестве одного из инвесторов.

С самого начала DeepSeek создавала собственные кластеры дата-центров для обучения моделей. Однако, как и другие AI-компании в Китае, DeepSeek столкнулась с американскими экспортными запретами на оборудование. Для обучения одной из последних моделей компании пришлось использовать чипы Nvidia H800, менее мощную версию H100, доступную американским компаниям.

Команда DeepSeek: Молодые таланты и разносторонний опыт

Техническая команда DeepSeek состоит в основном из молодых специалистов. Компания активно переманивает докторов наук в области AI из ведущих китайских университетов.

DeepSeek также нанимает людей без опыта работы в сфере информатики, чтобы улучшить понимание различных предметных областей, что способствует созданию более универсальных и применимых на практике AI-решений.

Сильные стороны моделей DeepSeek

DeepSeek представила свой первый набор моделей — DeepSeek Coder, DeepSeek LLM и DeepSeek Chat — в ноябре 2023 года. Признание в AI-индустрии пришло весной, когда стартап выпустил модели нового поколения DeepSeek-V2.

DeepSeek-V2, универсальная система анализа текста и изображений, показала хорошие результаты в AI-бенчмарках и была значительно дешевле в эксплуатации, чем сопоставимые модели. Это вынудило конкурентов, включая ByteDance и Alibaba, снизить цены на использование своих моделей и сделать некоторые из них бесплатными.

DeepSeek-V3: Превосходя ожидания

DeepSeek-V3, выпущенная в декабре 2024 года, укрепила репутацию DeepSeek. Согласно внутренним тестам, V3 превосходит как общедоступные модели, такие как Llama от Meta, так и "закрытые" модели, например GPT-4o от OpenAI. Не менее впечатляет модель рассуждений DeepSeek R1.

DeepSeek R1: Модель рассуждений

DeepSeek утверждает, что R1, выпущенная в январе, показывает такие же результаты, как и модель o1 от OpenAI, по ключевым бенчмаркам. Являясь моделью рассуждений, R1 эффективно проверяет факты, что помогает ей избежать некоторых ошибок, типичных для других моделей.

Модели рассуждений требуют больше времени для получения решения, однако они более надежны в таких областях, как физика, наука и математика.

Например, при решении сложной задачи по физике, R1 не только выдает ответ, но и предоставляет цепочку логических рассуждений, подтверждающих его правильность.

Ограничения и цензура

У R1, DeepSeek V3 и других моделей DeepSeek есть и недостатки. Будучи разработанными в Китае, они подлежат бенчмаркингу со стороны китайского интернет-регулятора, чтобы их ответы "воплощали основные социалистические ценности".

В приложении-чатботе DeepSeek, например, R1 не отвечает на вопросы о площади Тяньаньмэнь или автономии Тайваня.

Подрывной подход и неясная бизнес-модель

Несмотря на впечатляющие результаты, бизнес-модель DeepSeek остается неясной. Компания предлагает свои продукты и услуги по ценам значительно ниже рыночных, а некоторые из них предоставляет бесплатно. DeepSeek также не привлекает инвестиции, несмотря на большой интерес со стороны венчурных фондов.

DeepSeek объясняет это прорывами в эффективности, которые позволяют поддерживать высокую конкурентоспособность по затратам. Однако некоторые эксперты оспаривают предоставленные компанией данные.

Влияние на индустрию

Разработчики обратили внимание на модели DeepSeek, которые не являются открытым исходным кодом в общепринятом смысле, но доступны под разрешительными лицензиями, допускающими коммерческое использование. Разработчики создали более 500 "производных" моделей R1, которые в совокупности были загружены 2,5 миллиона раз.

Успех DeepSeek в противостоянии более крупным и устоявшимся конкурентам был охарактеризован как "переворот в ИИ" и "переоцененный". Успех компании, по крайней мере частично, был причиной падения цены акций Nvidia на 18% в январе и вызвал публичный ответ генерального директора OpenAI Сэма Альтмана.

В марте, по данным Reuters, бюро Министерства торговли США сообщили сотрудникам, что DeepSeek будет запрещен на их государственных устройствах. Microsoft объявила, что DeepSeek доступен в ее сервисе Azure AI Foundry, платформе Microsoft, объединяющей сервисы ИИ для предприятий под единым брендом.

Реакция крупных игроков

Во время конференц-звонка по поводу доходов за первый квартал был задан вопрос о влиянии DeepSeek на расходы Meta на ИИ, генеральный директор Марк Цукерберг заявил, что расходы на инфраструктуру ИИ останутся "стратегическим преимуществом" для Meta. В марте OpenAI назвала DeepSeek "субсидируемой государством" и "контролируемой государством" и рекомендовала правительству США рассмотреть возможность запрета моделей от DeepSeek.

Реакция индустрии и правительств

Во время конференц-звонка Nvidia по поводу доходов за четвертый квартал генеральный директор Дженсен Хуанг подчеркнул "превосходные инновации" DeepSeek, заявив, что она и другие модели "рассуждения" отлично подходят для Nvidia, потому что им требуется гораздо больше вычислительных мощностей.

В то же время некоторые компании запрещают DeepSeek, как и целые страны и правительства, включая Южную Корею. Штат Нью-Йорк также запретил использование DeepSeek на государственных устройствах.

Неопределенное будущее

В мае вице-председатель и президент Microsoft Брэд Смит заявил на слушаниях в Сенате, что сотрудникам Microsoft не разрешено использовать DeepSeek из-за проблем с безопасностью данных и пропагандой. Что касается будущего DeepSeek, то оно неясно. Улучшенные модели - это данность.

Правительство США, похоже, все больше настораживается в отношении того, что оно воспринимает как вредное иностранное влияние.

Перспективы и опасения

В марте The Wall Street Journal сообщила, что США, вероятно, запретят DeepSeek на государственных устройствах.

Источник:techcrunch.com

Предыдущая статья Следующая статья