Стартап представил технологию для клонирования голосов

18.03.2025

Модель содержит 1 миллиард параметров и доступна для коммерческого использования по открытой лицензии Apache 2.0. Она преобразует текст и аудио в аудиокоды с помощью технологии остаточной векторной квантизации — метода, применяемого в разработках Google и Meta*.

Стартап Sesame отмечает, что базовая версия модели не настроена на конкретные голоса, но может создавать различные голосовые варианты. Однако с неанглоязычными запросами модель справляется слабо.

При этом в компании признают, что модель не имеет встроенных механизмов защиты. Пользователей лишь призывают не использовать ее для клонирования голосов без согласия, создания фейковых новостей или другой вредоносной деятельности.

Sesame привлек внимание в феврале благодаря своей технологии, которая делает виртуальных ассистентов максимально реалистичными. Ассистенты Maya и Miles имитируют дыхание, делают паузы, их можно прервать в разговоре.

*— запрещена в России