logo

Meta против DeepSeek: встречайте Llama 4!

В январе 2025 года китайский стартап DeepSeek выпустил мощную модель DeepSeek R1, превзойдя американских гигантов. Это заставило Meta срочно выпустить новую серию моделей Llama 4, включая гигантскую Llama 4 Behemoth с 2 триллионами параметров. Узнайте подробности о новой гонке в области ИИ.

Meta против DeepSeek: встречайте Llama 4!
В январе 2025 года китайский стартап DeepSeek выпустил мощную модель DeepSeek R1, превзойдя американских гигантов. Это заставило Meta срочно выпустить новую серию моделей Llama 4, включая гигантскую Llama 4 Behemoth с 2 триллионами параметров. Узнайте подробности о новой гонке в области ИИ.

Внезапное появление DeepSeek R1

В январе 2025 года малоизвестный китайский стартап DeepSeek, дочерняя компания гонконгской фирмы High-Flyer Capital Management, представил мощную модель языкового моделирования с открытым исходным кодом — DeepSeek R1. Эта модель превзошла аналогичные разработки американских технологических гигантов, включая Meta.

Быстрое распространение DeepSeek R1 среди исследователей и компаний вызвало обеспокоенность в Meta. Модель была обучена за несколько миллионов долларов — сумму, сопоставимую с годовым доходом руководителей некоторых команд Meta, — и при этом демонстрировала лучшие результаты среди моделей с открытым исходным кодом.

Ответ Meta: серия моделей Llama 4

Выпуск DeepSeek R1, превосходящей Llama 3.3, поставил под угрозу стратегию Meta по созданию лучших open-source моделей под брендом Llama. Это вынудило компанию пересмотреть свои планы.

В ответ Марк Цукерберг анонсировал новую серию моделей — Llama 4. Две из них — Llama 4 Maverick (400 миллиардов параметров) и Llama 4 Scout (109 миллиардов параметров) — доступны для загрузки на llama.com и Hugging Face. Третья модель, Llama 4 Behemoth (2 триллиона параметров), находится на стадии обучения.

Ключевые особенности Llama 4

Все модели Llama 4 являются мультимодальными, способными обрабатывать и генерировать текст, видео и изображения.

Они обладают исключительно длинными контекстными окнами: 1 миллион токенов для Llama 4 Maverick и 10 миллионов для Llama 4 Scout (примерно 1500 и 15000 страниц текста соответственно). Это позволяет обрабатывать огромные объемы информации, например, целые книги или обширные базы кода.

Архитектура и эффективность

Все три модели используют архитектуру "смеси экспертов" (MoE), объединяющую несколько меньших моделей, специализирующихся на различных задачах. Каждая модель Llama 4 состоит из 128 экспертов.

Благодаря MoE, для обработки каждого токена активируется только необходимый эксперт, что повышает эффективность и снижает вычислительные затраты. Llama 4 Maverick может работать на одном сервере Nvidia H100 DGX. Scout и Maverick доступны для самостоятельного развертывания. Meta сосредоточилась на распространении моделей через открытую загрузку и интеграцию с Meta AI в WhatsApp, Messenger, Instagram и веб-приложениях.

Стоимость вычислений

Meta оценивает стоимость вычислений для Llama 4 Maverick в $0,19–$0,49 за 1 миллион токенов (при соотношении ввода/вывода 3:1). Это значительно дешевле, чем у проприетарных моделей, таких как GPT-4.

По данным поставщика облачных вычислений Groq:

  • Llama 4 Scout: $0,11 за миллион токенов ввода и $0,34 за миллион токенов вывода (смешанный тариф $0,13).
  • Llama 4 Maverick: $0,50 за миллион токенов ввода и $0,77 за миллион токенов вывода (смешанный тариф $0,53).

Улучшения и инновации в обучении

Meta разработала собственные пост-тренировочные конвейеры для улучшения логических выводов в Llama 4. Эти конвейеры включают удаление тривиальных запросов, внедрение цикла непрерывного обучения с подкреплением, использование оценки pass@k и выборок по учебной программе для повышения производительности в математике, логике и кодировании, а также реализацию MetaP — новой техники настройки гиперпараметров.

MetaP позволяет настраивать гиперпараметры на одной модели и применять их к другим размерам моделей и типам токенов, сохраняя при этом предполагаемое поведение модели. Это значительно ускоряет и удешевляет процесс обучения, особенно для моделей гигантского размера, таких как Behemoth (использующая 32 000 графических процессоров и обрабатывающая более 30 триллионов токенов).

Сравнение с конкурентами

Llama 4 Behemoth демонстрирует высокие результаты в различных бенчмарках, превосходя GPT-4.5, Gemini 2.0 Pro и Claude Sonnet 3.7 по показателям MATH-500 (95,0), GPQA Diamond (73,7), MMLU Pro (82,2).

Llama 4 Maverick превосходит GPT-4o и Gemini 2.0 Flash в большинстве многомодальных тестов логических выводов. Llama 4 Scout соответствует или превосходит Mistral 3.1, Gemini 2.0 Flash-Lite и Gemma 3 по ряду показателей. Ее уникальная особенность — контекстное окно в 10 миллионов токенов.

В сравнении с DeepSeek R1 и OpenAI o1, Llama 4 Behemoth показывает конкурентоспособные результаты, хотя и уступает в некоторых конкретных бенчмарках. Тем не менее, она остается сильным игроком в своем классе.

Безопасность и минимизация предвзятости

Meta уделила большое внимание безопасности и минимизации предвзятости в Llama 4. Для этого были разработаны инструменты Llama Guard, Prompt Guard и CyberSecEval для обнаружения небезопасных входных/выходных данных и враждебных запросов, а также реализовано автоматизированное тестирование на проникновение (GOAT).

Компания также заявляет о значительном улучшении в отношении политической предвзятости, утверждая, что Llama 4 демонстрирует более сбалансированный подход к спорным политическим и социальным вопросам.

Заключение

Семейство моделей Meta Llama 4 предлагает эффективное, открытое и высокопроизводительное решение для различных задач, включая многомодальные и требующие логических выводов. С уже доступными моделями Scout и Maverick и перспективной моделью Behemoth, Llama 4 представляет собой конкурентоспособную открытую альтернативу ведущим проприетарным моделям на рынке.