Французский стартап разработал открытый ИИ для озвучивания текста

27.03.2026

Французская компания Mistral представила модель синтеза речи Voxtral TTS с открытым исходным кодом, она работает в реальном времени, ее можно запускаться даже на мобильных устройствах.

Модель поддерживает девять языков, включая английский, французский, немецкий и арабский. Она воспроизводит пользовательский голос по короткому аудиофрагменту длительностью менее пяти секунд, сохраняя особенности речи — акцент, интонацию и ритм.

По данным разработчиков, система оптимизирована для работы в реальном времени: задержка перед началом воспроизведения составляет около 90 миллисекунд, а генерация 10-секундного аудио занимает примерно 1,6 секунды.

Отдельный акцент сделан на компактности: модель можно запускать не только в облаке, но и на устройствах с ограниченными ресурсами — смартфонах, ноутбуках и носимой электронике. В компании рассчитывают, что открытый код и гибкая настройка ускорят внедрение технологии в продукты и сервисы.