Рады вас на нашем сайте!

Модели ИИ показали разрыв в результатах IQ-тестов

Программы искусственного интеллекта для обработки и генерации текста показали высокие результаты в вербальных заданиях традиционных IQ-тестов, но значительно хуже справились с визуальными и числовыми задачами. К такому выводу пришли исследователи, протестировавшие 18 коммерческих и open-source моделей на заданиях, изначально разработанных для оценки человеческого интеллекта.

Исследование было посвящено тому, насколько большие языковые модели способны к общему, абстрактному мышлению, а не только к воспроизведению уже усвоенной информации. В отличие от стандартных тестов, проверяющих знание фактов в отдельных областях, IQ-тесты оценивают так называемый текучий интеллект — способность логически мыслить и решать новые задачи независимо от накопленных знаний.

Для оценки использовался набор самопроверяемых IQ-тестов, впервые опубликованный в 1996 году. Он включает 14 категорий заданий в трех областях: вербальной, числовой и визуальной. Участникам нужно было подбирать синонимы и завершать аналогии, решать арифметические задачи и находить закономерности в числовых последовательностях, а также анализировать геометрические фигуры, мысленно вращать их и предсказывать следующий элемент в визуальных матрицах.

Чтобы сделать ответы моделей последовательными, исследователи установили параметр temperature на ноль, снизив случайность генерации. Это позволило получать наиболее вероятный ответ на каждый одинаковый запрос, поскольку без такой настройки одна и та же модель может отвечать по-разному на идентичные задания.

Результаты показали, что производительность заметно зависела от размера модели. Самые компактные системы, содержащие около 7 миллиардов параметров, набрали результаты, эквивалентные человеческому IQ в диапазоне от 89 до 110. Наиболее крупные и продвинутые модели показали уровень от 111 до 131. Для сравнения, показатель 100 считается средним по популяции.

При этом общий высокий результат крупных моделей скрывал резкие различия между типами задач. Алгоритмы явно превосходили в вербальных заданиях. В частности, GPT-4 правильно ответила на 79% вопросов в языковом блоке, но в числовом достигла лишь 53% точности. Исследователи связывают этот разрыв с тем, что такие системы в основном обучаются на текстовых данных, а не на числовой логике.

Еще более заметным оказался разрыв между текстовым и визуальным мышлением. Лучшие модели получили расчетный IQ около 125 в заданиях на основе текста, но около 103 в визуальных тестах. Некоторые разделы визуального мышления оказались для них полностью недоступными. Во всех моделях был зафиксирован нулевой результат в заданиях, где требовалось подсчитать определенные фигуры, скрытые внутри сложного перекрывающегося геометрического рисунка.

Серьезные трудности вызвали и абстрактные числовые головоломки. Даже самые продвинутые коммерческие модели очень слабо справлялись с заданиями на поиск пропущенного числа, где нужно определить скрытую математическую связь внутри последовательности. Ни одна модель не превысила 20% точности в этом разделе. Исследователи отмечают, что таким системам не хватает внешней памяти для удержания промежуточной информации при многошаговых вычислениях.

Различия между режимами работы

Отдельно были проверены специализированные режимы интерфейса Microsoft Bing Chat, в котором можно выбрать стиль работы чат-агента: творческий, точный или сбалансированный. Хотя все три режима используют одну и ту же базовую архитектуру, скрытые инструкции меняют поведение системы.

Наилучший результат показал творческий режим: его расчетный IQ достигал 132. Он особенно успешно выполнял аналогии и задания, требующие гибкого мышления. Точный режим показал немного более низкий общий результат, но лучше справлялся со строгими логическими последовательностями. Худшим из трех оказался сбалансированный режим. По оценке исследователей, попытка совместить точность и креативность в одном наборе инструкций может ухудшать качество рассуждений.

Проверка многоагентной схемы

Исследователи также протестировали систему из нескольких ИИ-агентов. В этой схеме одна модель давала первоначальный ответ, вторая его критиковала, третья предлагала исправление, после чего первая пыталась ответить заново с учетом замечаний.

Такой подход заметно влиял на итоговые результаты. Когда маленькая модель отвечала на вопрос, а крупная и более мощная выступала критиком, результат второй попытки улучшался. Но если изначально отвечала крупная модель, а критику давала маленькая, итог становился хуже: слабая критика заставляла сильную модель сомневаться в собственных правильных ответах. Когда самые крупные модели критиковали сами себя, заметного улучшения почти не было, что может указывать на временный предел их способностей к рассуждению в такой конфигурации.

Ограничения исследования

Авторы отмечают, что у работы есть ограничения, связанные с самим понятием интеллекта и способами его измерения. Примененные тесты создавались для оценки когнитивных способностей людей и могут не отражать особенности работы искусственного интеллекта, который способен за секунды обработать огромные объемы текста, но не взаимодействует с физическим миром. Кроме того, сама валидность IQ-тестов как универсального инструмента оценки интеллекта остается предметом дискуссий и в психологии.

В дальнейшем исследователи планируют использовать современные клинические диагностические методики, применяемые психологами, а также провести более масштабные испытания, сосредоточенные исключительно на изображениях, поскольку визуальное мышление остается одним из самых слабых мест нынешнего поколения генеративного ИИ.

Facebook
Pinterest
LinkedIn
Twitter
Email