В Новосибирске студентка разработала приложение для анализа текстов на тибетском языке

OCR для тибетских текстов, распознавание тибетской письменности, сохранение древних манускриптов, машинное обучение в лингвистике, оцифровка тибетских документов

Студентка Новосибирского государственного университета (НГУ) Анна Мурашкина создала приложение для анализа классических тибетских текстов.

Мурашкина применила машинное обучение для создания своей модели. Она вручную выполнила лингвистическую разметку тибетского текста, разработала систему оценки качества оптического распознавания символов (OCR) с учетом специфики тибетской графики, а затем выбрала и дообучила сверхточную нейросеть.

В результате она создала полный модульный алгоритм OCR, включающий этапы предобработки, сегментации, распознавания и постобработки. Приложение по точности превосходит все существующие открытые решения.

В вузе уверены, что платформа будет востребована у исследователей, архивных работников и библиотекарей. Проект актуален еще и потому, что поможет оцифровать бумажные носители древних текстов.

Старопечатные документы, рукописи и ксилографы XVIII–XX веков содержат уникальные сведения о философии, религии, медицине, истории и искусстве. Однако со временем они разрушаются, что ведет к утрате бесценной информации и ограничивает доступ к этим уникальным материалам.