ИИ-голоса понятнее человеческих в шумной обстановке

ИИ-голоса, разборчивость речи, шум, синтез речи, исследование

Созданные искусственным интеллектом копии человеческих голосов в шуме оказались в среднем на 13,4% понятнее оригиналов. К такому выводу пришли британские специалисты после сравнения реальных голосов и их цифровых клонов.

В эксперименте участвовали 80 носителей британского английского языка. Они прослушивали 80 предложений, которые произносили как реальные люди, так и созданные на их основе ИИ-клоны. Записи воспроизводили на фоне шума разной громкости, чтобы проверить, насколько хорошо слушатели смогут разобрать сказанное.

Во всех условиях преимущество оставалось за искусственно созданными голосами. Люди правильно распознавали слова в 67,5% случаев при прослушивании ИИ-копий и в 54,1% случаев при прослушивании человеческой речи. Причем этот разрыв сохранялся независимо от уровня шума.

Анализ показал, что цифровые копии отличаются от оригиналов целым рядом акустических особенностей. Они звучат более ровно и стабильно, содержат меньше случайных колебаний и шумовых компонентов, а отдельные характеристики голоса оказываются более выраженными. По мнению авторов работы, именно эти особенности помогают лучше различать речь на фоне помех.

При этом современные системы пока не способны полностью воспроизвести естественное звучание человека. Когда участникам давали послушать человеческий голос и его клон, они примерно в 70% случаев правильно определяли, какая запись принадлежит человеку.

Полученные результаты могут найти применение в технологиях восстановления голоса для людей, потерявших способность говорить из-за болезни или травмы. Кроме того, более разборчивая синтетическая речь будет полезна в слуховых аппаратах, системах голосового оповещения и сервисах синтеза речи.