Новая компьютерная модель имитирует аудиовизуальное восприятие человека

10.11.2025

Ученые из Ливерпульского университета разработали компьютерную модель, способную объединять зрительную и слуховую информацию подобно тому, как это делает человеческий мозг. Система открывает новые горизонты для развития искусственного интеллекта и машинного восприятия.

Существенным преимуществом новой модели стала ее способность решать задачи, которые ранее ставили в тупик исследователей, например, определять синхронность аудио и видео в реальных условиях. Программа успешно воспроизводит результаты 69 известных экспериментов с участием людей, обезьян и крыс. Более того, она показала лучшую производительность по сравнению с ведущей Байесовской моделью причинно-следственного вывода, при этом требуя меньше настраиваемых параметров.

В отличие от предыдущих моделей, оперировавших абстрактными параметрами, разработка Ливерпульского университета напрямую работает с видео и звуком. Это позволяет ей также моделировать такие сложные явления, как эффект МакГурка, когда несоответствие между визуальной информацией (движением губ) и звуком создает новую иллюзию восприятия, или эффект, когда голос кажется исходящим не от говорящего, а от другого объекта.