Nvidia: Безоговорочный лидер в тестах генеративного ИИ
Nvidia снова лидирует в тестах производительности AI-чипов, значительно опережая конкурентов. Новые бенчмарки MLPerf фокусируются на скорости обработки запросов в генеративных моделях ИИ, таких как большие языковые модели. Узнайте, как видеокарты Nvidia показали себя в тестах.
Лидерство Nvidia в тестах производительности ИИ
В последних тестах MLPerf, моделирующих скорость ответа чат-бота, графические процессоры Nvidia вновь продемонстрировали лучшие результаты. Этот бенчмарк, один из наиболее популярных для оценки производительности ИИ-чипов, в этот раз был ориентирован на генеративные приложения, такие как большие языковые модели (LLM).
Системы от SuperMicro, Hewlett Packard Enterprise, Lenovo и других производителей, использующие до восьми чипов Nvidia, заняли большинство лидирующих позиций в тестах MLPerf, организованных консорциумом MLCommons.
Новые тесты для генеративного ИИ
Тесты MLPerf измеряют скорость генерации токенов, обработки запросов и вывода данных (так называемый вывод ИИ). В обновленной версии были добавлены два новых теста, отражающих распространенные сценарии использования генеративного ИИ.
Один тест оценивает производительность чипов на открытой LLM Llama 3.1 405b от Meta. Другой тест – интерактивная версия меньшей модели Llama 2 70b, имитирующая работу чат-бота, где скорость ответа является критическим фактором. Оценка производительности в обоих тестах проводится по скорости генерации первого выходного токена.
Третий тест измеряет скорость обработки графовых нейронных сетей, важного компонента многих программ, использующих генеративный ИИ. Графовые нейронные сети обрабатывают данные, представляющие собой множество сущностей и их взаимосвязи (например, в социальных сетях).
Четвертый новый тест оценивает скорость обработки данных LiDAR для создания автомобильных карт. MLCommons разработали собственную нейронную сеть для этого теста, объединив существующие открытые подходы.
Результаты тестов: Nvidia против конкурентов
В соревнованиях MLPerf участвовали компьютеры от Lenovo, HPE и других компаний, собранные в соответствии со строгими требованиями к точности. Каждая система предоставила MLCommons отчеты о максимальной скорости вывода в секунду. В некоторых задачах оценивалась средняя задержка – время получения ответа.
Графические процессоры Nvidia продемонстрировали лучшие результаты практически во всех тестах закрытого дивизиона, где правила настройки программного обеспечения наиболее строгие.
AMD, используя свой графический процессор MI300X, занял первое место в двух тестах с Llama 2 70b, показав скорость 103 182 токена в секунду. Это значительно лучше, чем результат нового графического процессора Blackwell от Nvidia. Данную систему AMD собрал стартап MangoBoost, специализирующийся на платах расширения для ускорения передачи данных между GPU-стойками, и разрабатывающий программное обеспечение LLMboost для оптимизации работы с генеративным ИИ.
Nvidia оспаривает сравнение результатов AMD и Blackwell, указывая на необходимость нормализации результатов с учетом количества чипов и узлов в каждой системе. По мнению Nvidia, результат MangoBoost не отражает точного сравнения производительности.
Google также представила свою систему с чипом Trillium (шестая итерация TPU). Эта система значительно отстала от Nvidia Blackwell в тесте на скорость ответа в задаче генерации изображений Stable Diffusion.
В этом раунде бенчмарков MLPerf участвовало меньше конкурентов Nvidia, чем в предыдущих. Например, Habana от Intel и Qualcomm не представили результаты.
Роль центрального процессора
Важно отметить, что помимо GPU, для работы систем ИИ необходимы центральные процессоры (CPU) для управления задачами, памятью и хранилищем. В семи из одиннадцати лучших систем использовался процессор Intel Xeon, а процессор AMD EPYC – лишь в трех. Это улучшение позиций Intel по сравнению с предыдущими годами. Интересно, что одиннадцатая по производительности система (тест Llama 3.1 405b) была создана Nvidia без использования процессоров Intel или AMD, а на базе собственного комбинированного чипа Grace-Blackwell 200.