Рады вас на нашем сайте!

LLM-модели перенимают иерархические предвзятости

Большие языковые модели воспроизводят социальные предвзятости, связанные с человеческой иерархией, когда им задают разные профессиональные роли. Исследование показало, что такие системы имитируют, в частности, подчинение вредным указаниям и предвзятость к авторитету, что влияет одновременно на безопасность и реалистичность автоматизированных агентов.

Выводы особенно важны на фоне все более широкого использования ИИ в ролях, связанных с медицинскими консультациями, юридической помощью и образовательной поддержкой. В подобных сферах системы должны вызывать доверие, но при этом не поддаваться манипуляциям.

В работе изучалось, воспроизводят ли языковые модели социально-когнитивные эффекты, характерные для общения людей в условиях неравного статуса. Среди таких эффектов — «эффект местоимений», при котором люди с более высоким статусом чаще используют формы вроде «мы», а также языковая координация, когда собеседник подстраивает лексику и грамматику под партнера. Отдельное внимание исследователи уделили предвзятости к авторитету и вредному подчинению, когда указания высокостатусного собеседника получают больший вес или исполняются даже в небезопасных ситуациях.

Для эксперимента ученые организовали симулированные текстовые диалоги между шестью моделями из трех основных семейств, включая версии Llama 3.1 на 8 и 70 млрд параметров, Qwen 2.5 на 7 млрд параметров, Phi-3-Med, GPT-4.1 и GPT-5. Моделям назначили профессиональные образы, создающие дисбаланс власти: всего использовалось 14 пар ролей, среди них директор школы и учитель, судья и юрист, шеф-повар и су-шеф.

Аннотаторы подтвердили, что выбранные пары действительно отражают иерархические различия. После этого модели вели диалоги по 10–15 реплик. Было сгенерировано 576 разговоров для проверки «эффекта местоимений» и 1270 разговоров для анализа языковой координации.

Результаты показали, что языковые модели в целом действительно воспроизводят «эффект местоимений». Почти во всех протестированных системах агенты с более высоким статусом чаще использовали местоимения множественного числа и реже — единственного. Наиболее выраженно это проявилось у моделей GPT.

При анализе языковой координации выяснилось, что модели действительно подстраивают стиль речи друг под друга. Однако, в отличие от людей, эта адаптация оказалась в основном взаимной: и высокостатусные, и низкостатусные агенты меняли стиль почти одинаково, без характерной для человеческого общения асимметрии. У моделей GPT общий уровень такой координации оказался ниже, вероятно, из-за обучения на поддержание нейтрального и полезного тона.

Эксперименты на убеждение выявили устойчивую предвзятость к авторитету во всех протестированных моделях. Агенты заметно чаще меняли свою позицию, если аргумент исходил от персонажа с более высоким статусом. В одном из примеров модель Qwen соглашалась изменить мнение в 25% случаев, когда тот же аргумент исходил от низкостатусного агента, и почти в 31% случаев, когда его выдвигал высокостатусный.

Проверка на вредное подчинение также выявила риски для безопасности. Если небезопасный запрос исходил от агента с высоким статусом, низкостатусные агенты значительно чаще подчинялись и выполняли команду. Это указывает на то, что защитные механизмы, работающие в нейтральной среде, могут ослабевать, если пользователь просто заявляет, что занимает авторитетную должность, например судьи или врача.

Исследователи также проследили, как эти эффекты меняются по ходу общения. Убеждение, вредное подчинение и «эффект местоимений» сильнее всего проявлялись в самом начале разговора, когда формируются первые впечатления и нормы взаимодействия. По мере продолжения диалога их выраженность постепенно снижалась, хотя у высокостатусных агентов сохранялось базовое преимущество. Языковая координация, напротив, усиливалась по ходу беседы.

Авторы проверили, можно ли ослабить такие проявления прямой инструкцией игнорировать различия в статусе. Более крупные закрытые модели GPT смогли подавить предвзятость к авторитету и вредное подчинение после такого указания. Модели с открытым исходным кодом скорректировать поведение не смогли и сохраняли предвзятости, несмотря на прямые инструкции их избегать.

Наиболее сильную предвзятость к авторитету продемонстрировали небольшие модели. Более крупные системы оказались устойчивее к убеждению, основанному на статусе, хотя полностью этот эффект не исчезал. Сравнение моделей после базовой донастройки и после настройки предпочтений, направленной на повышение полезности и безопасности, показало, что этапы обучения почти не влияют на такие социально-когнитивные эффекты. Это может означать, что подобные предвзятости возникают уже на ранних этапах обучения на человеческих данных.

Авторы считают, что результаты помогают лучше выявлять уязвимости до внедрения таких систем в практику. При этом они отмечают ограничения работы: исследование целиком опиралось на симулированные текстовые взаимодействия между искусственными агентами и не учитывало эмоции, интонацию и культурный контекст, характерные для реального общения. Кроме того, само понятие власти в эксперименте было сведено к профессиональным ролям, тогда как в реальной жизни социальный статус формируется множеством пересекающихся факторов.

Результаты исследования опубликованы в Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics.

Facebook
Pinterest
LinkedIn
Twitter
Email