Компания OpenAI представила новые модели для распознавания речи — gpt-4o-transcribe и gpt-4o-mini-transcribe. Новая система должна принять эстафету у уже устаревшей Whisper.
Как заявил представитель OpenAI Джефф Харрис, новые алгоритмы обучены на «разнообразных и высококачественных аудиоданных» и лучше справляются с акцентами и фоновым шумом.
Разработчики отметили, что добились снижения вероятности так называемых галлюцинаций. Это эффект, когда нейросеть сама выдумывает слова, несоответствующие оригиналу слова. Порой такие «галлюцинации» складываются в целые фрагменты текста, лишая его всякого смысла. Whisper зачастую «грешила» подобными фантазиями даже в текстах на медицинскую тематику.
Точность работы моделей зависит от языка. Так, для индийских языков (тамильский, телугу, малаялам и каннада) gpt-4o-transcribe имеет погрешность порядка 30%. То есть, что три из десяти слов могут не совпадать с реальной расшифровкой.
В отличие от предыдущих версий Whisper, OpenAI не планирует открытый доступ к новым моделям. Харрис пояснил, что gpt-4o-transcribe и gpt-4o-mini-transcribe гораздо сложнее и требуют значительных вычислительных мощностей, поэтому их нельзя просто запустить на локальном компьютере.