Модель содержит 1 миллиард параметров и доступна для коммерческого использования по открытой лицензии Apache 2.0. Она преобразует текст и аудио в аудиокоды с помощью технологии остаточной векторной квантизации — метода, применяемого в разработках Google и Meta*.
Стартап Sesame отмечает, что базовая версия модели не настроена на конкретные голоса, но может создавать различные голосовые варианты. Однако с неанглоязычными запросами модель справляется слабо.
При этом в компании признают, что модель не имеет встроенных механизмов защиты. Пользователей лишь призывают не использовать ее для клонирования голосов без согласия, создания фейковых новостей или другой вредоносной деятельности.
Sesame привлек внимание в феврале благодаря своей технологии, которая делает виртуальных ассистентов максимально реалистичными. Ассистенты Maya и Miles имитируют дыхание, делают паузы, их можно прервать в разговоре.
*— запрещена в России