Meta уличена в манипулировании результатами тестирования ИИ
Meta обманула в бенчмарках своей новой модели Llama 4, представив её лучше, чем конкуренты. Исследователи обнаружили, что на LMArena использовалась экспериментальная версия, отличающаяся от публичной. Узнайте подробности о скандале с искусственным интеллектом от Meta.
Meta и подтасовка результатов тестирования Llama 4
Компания Meta подверглась критике за использование не совсем честных методов при тестировании своей новой модели искусственного интеллекта Llama 4. В частности, речь идет о представлении двух новых моделей, Scout (меньшего размера) и Maverick (среднего размера), и утверждении о превосходстве Maverick над GPT-4 и Gemini 2.0 по многим параметрам.
Maverick на LMArena: второе место с оговорками
Модель Maverick быстро заняла второе место на платформе LMArena, специализирующейся на сравнении моделей ИИ. Высокий балл ELO (1417) позиционировал Llama 4 как серьезного конкурента закрытым моделям от OpenAI, Anthropic и Google. Однако, вскоре выяснилось, что версия Maverick, прошедшая тестирование на LMArena, отличалась от публично доступной версии.
Экспериментальная версия и обновление правил LMArena
Meta признала, что на LMArena тестировалась «экспериментальная чат-версия» Maverick, оптимизированная для диалогового взаимодействия. В ответ на эту ситуацию LMArena обновила свои правила, подчеркнув несоответствие между интерпретацией Meta политики сайта и ожиданиями от разработчиков моделей. Представитель Meta заявил, что компания экспериментировала с различными вариантами, и оптимизированная для чата версия также продемонстрировала хорошие результаты на LMArena. В настоящее время доступна открытая версия модели, и Meta ожидает отзывов от разработчиков.
Сомнения в достоверности результатов и манипулирование данными
Хотя действия Meta формально не нарушали правил LMArena, платформа выразила обеспокоенность по поводу потенциального манипулирования результатами и приняла меры для предотвращения подобных ситуаций в будущем. Использование специально настроенных версий моделей для тестирования ставит под сомнение значимость рейтингов LMArena как показателя реальной производительности. Независимый исследователь ИИ Саймон Уиллисон отметил, что высокое место Llama 4 на LMArena произвело на него впечатление, но он сожалеет о недостаточном внимании к деталям.
Слухи о тренировке на тестовых наборах и нестандартный релиз
В сообществе разработчиков ИИ появились слухи о том, что Meta обучала модели Llama 4 для лучшей работы на бенчмарках, скрывая реальные ограничения модели. Вице-президент Meta по генеративному ИИ опроверг эти обвинения в использовании тестовых наборов для обучения. Выпуск Llama 4 в выходные дни также вызвал вопросы. Генеральный директор Meta Марк Цукерберг объяснил это тем, что модель была готова к релизу. Уиллисон подчеркнул запутанность ситуации вокруг релиза и бесполезность полученного балла для практического применения, поскольку доступная модель отличается от тестируемой.
Задержки в релизе и высокие внутренние ожидания
Согласно недавнему отчету, Meta неоднократно откладывала запуск Llama 4 из-за несоответствия модели внутренним ожиданиям, которые были особенно высоки после выхода успешной открытой модели от китайского стартапа DeepSeek.
Заключение: бенчмарки как поля битвы в развитии ИИ
Использование оптимизированной модели в LMArena ставит разработчиков в затруднительное положение. При выборе моделей, таких как Llama 4, для своих приложений, они обращаются к бенчмаркам за руководством. Однако, как показал случай с Maverick, эти бенчмарки могут отражать возможности, которые недоступны в общедоступных версиях моделей. В условиях быстрого развития ИИ этот эпизод демонстрирует, как бенчмарки превращаются в поля битвы, и как компании, такие как Meta, стремятся к лидерству, даже если это означает манипулирование результатами тестирования.