Ученые Новосибирского государственного университета создали улучшенную систему распознавания русской речи. Она работает на базе модели Whisper от OpenAI, но команда НГУ переработала архитектуру и адаптировала ее под особенности русского языка, сообщил ТАСС.
Инженеры обучили нейросеть на более чем 500 часах разговорной русской речи. Они сгенерировали часть аудио с помощью других ИИ-моделей, чтобы расширить набор данных. Такой подход обеспечил высокую точность распознавания и устойчивость к языковым особенностям.
Система правильно расставляет знаки препинания и передает интонацию, что отличает ее от типичных решений, работающих «в нижнем регистре». Тесты на записях речей ученых и политиков показали высокую точность, даже при сложной терминологии.
Сейчас система обрабатывает запрос за 40 секунд. Разработчики планируют сократить время до 5 секунд и расширить функции, включая перевод на английский язык.




