logo

Искусственный интеллект всё ещё бессилен перед багами: исследование Microsoft

Исследование Microsoft показало, что даже лучшие модели ИИ, такие как Claude 3.7 и OpenAI, пока не справляются с отладкой кода на уровне опытных программистов. Нехватка данных о процессе отладки – основная причина низкой эффективности. Узнайте, насколько далеко от совершенства современные AI-помощники для программистов.

Искусственный интеллект всё ещё бессилен перед багами: исследование Microsoft
Исследование Microsoft показало, что даже лучшие модели ИИ, такие как Claude 3.7 и OpenAI, пока не справляются с отладкой кода на уровне опытных программистов. Нехватка данных о процессе отладки – основная причина низкой эффективности. Узнайте, насколько далеко от совершенства современные AI-помощники для программистов.

Ограничения ИИ в отладке кода

Хотя модели искусственного интеллекта от таких компаний, как OpenAI и Anthropic, активно используются для вспомогательного программирования, и многие технологические гиганты заявляют о широком внедрении ИИ в процесс разработки (например, Google сообщает о генерации 25% кода с помощью ИИ), современные модели пока не способны эффективно решать задачи отладки, с которыми легко справляются опытные разработчики.

Исследование Microsoft: результаты тестирования

Недавнее исследование Microsoft Research продемонстрировало ограничения ИИ в отладке кода. В ходе тестирования на бенчмарке SWE-bench Lite модели Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, а также другие модели, показали низкую эффективность в решении задач отладки. Эксперимент заключался в использовании девяти различных моделей в качестве основы для «агента на основе одного запроса», имеющего доступ к инструментам отладки, включая отладчик Python. Агенту было поставлено 300 задач по отладке программного обеспечения. Даже самые мощные модели редко справлялись более чем с половиной задач. Лучший результат показал Claude 3.7 Sonnet (48,4%), за ним следуют o1 от OpenAI (30,2%) и o3-mini (22,1%).

Причины низкой эффективности

Авторы исследования выявили две основные причины низкой эффективности моделей. Во-первых, некоторые модели испытывали трудности с использованием доступных инструментов отладки и пониманием их применения для решения конкретных проблем. Однако, более значительной проблемой исследователи считают нехватку данных в обучающих выборках. В частности, отмечается недостаток данных, отражающих «последовательные процессы принятия решений» – траекторий отладки, выполненных человеком. Авторы подчеркивают необходимость обучения моделей на специализированных данных, таких как записи взаимодействия разработчика с отладчиком, которые бы отражали процесс поиска и исправления ошибок.

Выводы и перспективы

Результаты исследования подтверждают уже известные проблемы: модели генерации кода часто создают уязвимости и ошибки из-за недостаточного понимания логики программирования. Например, недавняя оценка популярного инструмента Devin показала его низкую эффективность (3 из 20 пройденных тестов). Исследование Microsoft подробно описывает существующие проблемы, и хотя вряд ли это снизит инвестиционный интерес к ИИ в разработке, это должно заставить разработчиков и руководителей проектов более осмотрительно подходить к использованию ИИ в кодировании.

Важно отметить, что многие лидеры технологических компаний, включая Билла Гейтса (Microsoft), Амджада Масада (Replit), Тодда Маккиннона (Okta) и Арвинда Кришну (IBM), выражают уверенность в сохранении востребованности профессии программиста, несмотря на развитие ИИ.