Исследователи из Калифорнийского университета в Сан-Диего заявили, что современная ИИ-система впервые прошла тест Тьюринга в строгом эксперименте.
В эксперименте участвовали почти 500 человек. Они общались с разными моделями, включая GPT-4.5, LLaMa-3.1-405B, GPT-4o и классического чат-бота ELIZA из 1960-х.
Лучше всех показала себя GPT-4.5. Её принимали за человека в 73% случаев. LLaMa-3.1-405B выбрали как человека в 56% случаев, то есть примерно на уровне реальных участников.
Старые и базовые системы справились заметно хуже: ELIZA принимали за человека примерно в 23% случаев, GPT-4o — в 21%.
Важный нюанс: модели хорошо проходили тест только при правильных промптах. Им задавали стиль общения, характер, манеру речи. Без таких инструкций результат GPT-4.5 падал до 36%, а LLaMa-3.1 — до 38%.
Авторы считают, что тест Тьюринга теперь показывает не столько «интеллект» машины, сколько её способность быть похожей на человека.
Модели побеждали не за счёт знаний, а потому что могли звучать естественно: шутить, ошибаться, отвечать неидеально и вести себя социально правдоподобно. [UC San Diego]


🙈 Нет комментариев