Французская компания Mistral представила модель синтеза речи Voxtral TTS с открытым исходным кодом, она работает в реальном времени, ее можно запускаться даже на мобильных устройствах.
Модель поддерживает девять языков, включая английский, французский, немецкий и арабский. Она воспроизводит пользовательский голос по короткому аудиофрагменту длительностью менее пяти секунд, сохраняя особенности речи — акцент, интонацию и ритм.
По данным разработчиков, система оптимизирована для работы в реальном времени: задержка перед началом воспроизведения составляет около 90 миллисекунд, а генерация 10-секундного аудио занимает примерно 1,6 секунды.
Отдельный акцент сделан на компактности: модель можно запускать не только в облаке, но и на устройствах с ограниченными ресурсами — смартфонах, ноутбуках и носимой электронике. В компании рассчитывают, что открытый код и гибкая настройка ускорят внедрение технологии в продукты и сервисы.




