Neuropolis

Тест Тьюринга сломался: GPT-4.5 от OpenAI доказал это

GPT-4.5 успешно прошёл тест Тьюринга, но это не значит, что достигнут искусственный общий интеллект. Узнайте, почему тест Тьюринга не является окончательным доказательством мышления машин и что это значит для будущего ИИ.

5 минут

Тест Тьюринга: новые горизонты с GPT-4.5

Тест Тьюринга, разработанный Аланом Тьюрингом, служит общепринятой мерой прогресса в области искусственного интеллекта. Однако его часто ошибочно воспринимают как доказательство наличия мышления у машин. Недавние исследования ученых из Калифорнийского университета в Сан-Диего демонстрируют, что GPT-4.5, последняя крупная языковая модель от OpenAI, способна обмануть человека, заставив поверить в её человеческое происхождение, и делает это даже лучше, чем человек может убедить другого человека в своей человечности.

Это значительный прорыв в способности генеративного ИИ создавать убедительные ответы. Несмотря на это, исследователи подчеркивают, что успешное прохождение теста Тьюринга не свидетельствует о достижении «общего искусственного интеллекта» (ОИИ) — уровня обработки информации, сопоставимого с человеческим мышлением. Ученый-специалист по ИИ Мелани Митчелл в статье для журнала Science отмечает, что тест Тьюринга скорее проверяет человеческие предположения, чем интеллект, утверждая, что «способность звучать естественно, подобно игре в шахматы, не является убедительным доказательством общего интеллекта».

Как работает тест Тьюринга

Традиционно тест Тьюринга предполагает текстовый обмен сообщениями между человеком-«судьей» и двумя «свидетелями»: человеком и компьютером. Цель свидетелей — убедить судью в своей человечности. Судья знает, что только один из участников — человек, но не знает, кто именно, и должен определить это.

Это трехсторонний тест. Если судья ошибочно принимает компьютер за человека, это указывает на то, что он не распознал признаки человечности у настоящего человека. Таким образом, тест проверяет как восприятие человека, так и возможности компьютера.

Существует обновленная версия теста, разработанная Джонсом и Бергеном, доступная онлайн.

Результаты эксперимента

В эксперименте участвовали GPT-4.5, предыдущая модель GPT-4 от OpenAI, Llama 3.1 405b от Meta Platforms и бот ELIZA из 1960-х годов (в качестве контрольной группы). GPT-4.5 продемонстрировал «процент побед» в 73%, то есть обманул судью в 73% случаев. Модель тестировалась с двумя разными подсказками: одна содержала минимальную информацию, а вторая (PERSONA) — подробное описание персоны, которую следовало изображать (например, молодого интроверта, знакомого с интернет-культурой и использующего сленг).

Версия GPT-4.5 с минимальным запросом и три другие модели ИИ показали значительно худшие результаты (от 21% до 56%), даже при предоставлении подробного запроса PERSONA. GPT-4.5 значительно превзошел результаты GPT-4 в аналогичном тесте, проведенном годом ранее Джонсом и Бергеном (54%). Джонс и Берген пришли к выводу, что «допрашивающие не только не смогли определить настоящего человека-свидетеля, но и с большей вероятностью считали эту модель человеком, чем других участников-людей».

Возникает вопрос: является ли этот тест действительно мерой интеллекта? Авторы исследования признают, что «самый спорный вопрос» о тесте Тьюринга — это действительно ли он измеряет интеллект. Один из аспектов заключается в том, что машины стали настолько совершенными, что способны «адаптировать своё поведение к различным сценариям, что делает их гибкими и, по-видимому, способными выдавать себя за человека». Запрос PERSONA, разработанный людьми, стал тем, к чему GPT-4.5 «адаптировался», чтобы добиться успеха. Это значительный технический прорыв, однако главная претензия к тесту заключается в том, что люди могут просто плохо распознавать интеллект. Авторы считают, что их эксперимент частично подтверждает это предположение. Они отмечают, что в 23% случаев старая программа ELIZA обманывала судей-людей. Это было не из-за превосходства её интеллекта, а потому что «многие участники выбрали ELIZA, потому что она не соответствовала их ожиданиям от системы ИИ (например, «они были саркастичны» или «я не думаю, что ИИ был бы таким грубым»).» Эти догадки, пишут они, «показывают, что решения допрашивающих включают в себя сложные предположения о том, как люди и системы ИИ могут вести себя в этих контекстах, а не просто выбирают наиболее интеллектуально выглядящего агента». Судьи-люди задавали мало вопросов о знаниях, хотя Тьюринг считал это главным критерием. «Один из наиболее предсказуемых факторов точных вердиктов» судьи-человека, пишут они, «заключался в том, что свидетель был человеком, потому что ему не хватало знаний».

Общительность, а не интеллект

Люди улавливали такие качества, как общительность, а не интеллект, что привело Джонса и Бергена к выводу, что «в основном, тест Тьюринга — это не прямой тест интеллекта, а тест на человекоподобие». Для Тьюринга интеллект, возможно, казался главным препятствием для имитации человека и прохождения теста. Но по мере того, как машины становятся всё более похожими на людей, другие различия становятся более заметными, и интеллекта недостаточно, чтобы убедительно казаться человеком. Авторы также отмечают, что люди настолько привыкли к общению с компьютерами (людьми или машинами), что тест перестал быть новым тестом взаимодействия человека и компьютера. Это тест на онлайн-привычки человека. В связи с этим необходимо расширить тест. Авторы пишут, что «интеллект сложен и многогранен», и «никакой единственный тест интеллекта не может быть решающим». Они предполагают, что результаты теста могут сильно отличаться в зависимости от условий. Они предлагают привлечь экспертов в области ИИ в качестве судей, так как у них другие ожидания от машин. Финансовый стимул также мог бы повлиять на внимательность судей. Это указывает на то, что отношение и ожидания играют важную роль. «В той мере, в какой тест Тьюринга индексирует интеллект, его следует рассматривать среди других видов доказательств», — заключают они.

Это предложение согласуется с растущей тенденцией в исследованиях ИИ привлекать людей к оценке работы машин. Остается открытым вопрос о достаточности человеческого суждения. По мере развития ОИИ и понимания сложности его определения, людям, возможно, придется полагаться на машины для оценки машинного интеллекта. Возможно, придется спрашивать машины о том, что машины «думают» о людях, создающих запросы, чтобы обмануть других людей.

Источник:www.zdnet.com