Искусственно созданные клоны человеческих голосов оказались более разборчивыми в шумной обстановке, чем голоса реальных людей, которых они имитируют. К такому выводу пришли исследователи, опубликовавшие работу в The Journal of the Acoustical Society of America. Результаты указывают на то, что синтетическая речь может заметно улучшить вспомогательные средства коммуникации для людей с нарушениями речи.
В основном эксперименте участники распознавали слова, произнесенные ИИ-голосами, с точностью 67,5%, тогда как для настоящих человеческих голосов этот показатель составил 54,1%. Преимущество синтетической речи в 13,4 процентного пункта сохранялось на всех четырех уровнях фонового шума.
Исследование провели Патти Аданк из Университетского колледжа Лондона и Хан Ван из Университета Рохэмптона, которые изучают восприятие нечеткой речи. Изначально они предполагали, что клоны голосов будут менее понятными из-за своей непривычности, однако получили противоположный результат: в шуме они оказались до 20% разборчивее.
В онлайн-эксперименте участвовали 80 человек — 40 мужчин и 40 женщин в возрасте от 18 до 35 лет. Все они были носителями британского английского, проживали в Великобритании и использовали проводные наушники для обеспечения стабильного качества звука.
Для исследования ученые взяли базу из 10 человеческих голосов из разных регионов Англии и выделили для каждого около 348 секунд записи. Эти фрагменты загрузили в систему ElevenLabs, которая на их основе создала 10 полностью искусственных голосовых клонов, соответствующих оригинальным дикторам.
Затем исследователи подготовили 80 тестовых предложений для проверки слухового восприятия. Половину произнесли реальные люди, половину — ИИ-клоны. Все записи смешали с так называемым речеподобным шумом — фоновым звуком, похожим на непрерывное шипение и эффективно маскирующим речь. Участники слушали предложения при четырех уровнях громкости шума и записывали услышанные слова, после чего ученые оценивали точность ответов.
Дополнительные проверки, проведенные с другими группами, показали тот же эффект. Преимущество клонов сохранилось у пожилых добровольцев, у американских участников и даже при использовании фильтра, имитирующего работу кохлеарных имплантов.
Участники также оценивали субъективные качества голосов. По семибалльной шкале они считали искусственные голоса более четкими и выразительными, чем реальные, а их региональный акцент — немного более сильным.
При этом слушатели в целом могли отличить настоящий голос от синтетического. Когда им предлагали пары одинаковых предложений и просили указать, где говорит человек, правильный ответ давался в 70,4% случаев. Это говорит о том, что при высокой разборчивости ИИ-копии все еще сохраняют слегка неестественные черты.
Чтобы понять причину различий, ученые проанализировали 47 акустических характеристик записей, включая высоту голоса, темп речи и гармоническую насыщенность звука. Отдельно они изучили показатели нестабильности голоса — jitter и shimmer, то есть микроскопические колебания высоты и громкости, которые естественным образом возникают в живой речи.
Анализ показал, что искусственным голосам не хватает этих микрофлуктуаций, поэтому они звучат более гладко и стабильно. Статистические модели также выявили различия в восприятии: для человеческой речи понимание сильнее зависело от формант — акустических характеристик, связанных с формой речевого тракта, тогда как для клонов ключевую роль играли общая высота тона и ровная гармоническая структура. По оценке исследователей, такая акустическая стабилизация облегчает мозгу отделение голоса от фонового шума.
Авторы отмечают, что у работы есть ограничения. В эксперименте использовались заранее подготовленные предложения, которые не отражают естественную повседневную речь. Кроме того, проверка проводилась только на одном типе постоянного шума, тогда как в реальной жизни люди сталкиваются с более сложными звуковыми помехами, например шумом ресторана или разговором нескольких собеседников одновременно.
В дальнейшем исследователи планируют изучать разговорную речь и сотрудничать со специалистами по синтезу текста в речь, чтобы адаптировать систему клонирования с открытым исходным кодом для новых тестов.
Полученные результаты могут быть полезны для медицинских и вспомогательных технологий. Для людей с заболеваниями, лишающими возможности говорить, персонализированные ИИ-голоса могут не только сохранить индивидуальность, но и сделать общение в шумной среде более удобным. Авторы также указывают, что подобные подходы потенциально могут применяться и в технологиях улучшения слуха.



