В Осетии разработали программу для распознавания дигорских текстов на фотографиях, она позволит оцифровать литературу и периодику

Об этом Ossetia News рассказал разработчик проекта Мурат Будаев. Он отметил, что система позволит переводить в текстовый формат книги и газеты.

Об этом Ossetia News рассказал разработчик проекта Мурат Будаев. Он отметил, что система позволит переводить в текстовый формат книги и газеты. Это необходимо для цифровизации дигорского, а также создания синтезатора речи, который тоже базируется на текстах.

«Эта функция крайне необходима для дальнейшей цифровизации любого языка, так как в большинстве разработок завязано на текстах — это и синтезатор речи, языковые корпуса текстов, морфологические анализаторы и тд. Если у нас будет большая база текстов, система сможет расставлять знаки препинания, анализировать правильность сочетаний слов. Программа поможет создать языковой корпус — научно-практический ресурс, который базируется на большом объеме текстов, позволяет изучать слова в контексте, сделать частотный словарь, словарь сочетаемости слов, изучать исходя из запроса употребление глаголов», — рассказал Будаев.

Он отметил, что попытки создать подобный корпус уже предпринимались около 10 лет назад, однако работа не была завершена, кроме того, в ней много ошибок. Для дигорского корпуса ученые тогда накопили около 3 млн словоформ. Для сравнения, языковой корпус русского языка включает около 300 млн словоформ, английского — свыше миллиарда.

«У нас все тексты находятся в формате PDF и DjVu. Оттуда извлекать тексты не всегда получается, они могут распознаваться неправильно. Мы все эти варианты учли и адаптировали программу под дигорский. Человек может загрузить файл PDF и получить чистый текст в формате текстового редактируемого документа. И он уже может этим текстом манипулировать в интересующей его области. Мы не только качественно улучшим наш язык и информацию, которую будем получать, но и создадим практический, научный и доступный для людей ресурс», — добавил Будаев.

 

Последние новости

Владикавказ подводит итоги ушедшего года

Иристонская префектура. Деяния и дела. Итоги 2024. Более 10 несанкционированных свалок ликвидировали сотрудники Иристонской префектуры в уходящем году.

Владикавказ подводит итоги ушедшего года

Управление по строительству АМС г. Владикавказа подводит итоги уходящего года.

Владикавказ подводит итоги ушедшего года

Промышленный район. Деяния и дела. Итоги 2024.  9 несанкционированных свалок ликвидировано сотрудниками Промышленной префектуры в уходящем году.

Частотник

Осуществляем поставку в оговоренные сроки, обеспечивая быструю отправку

На этом сайте вы найдете актуальные вакансии в Барнауле с предложениями работы от ведущих работодателей города

Комментарии (0)

Добавить комментарий

Ваш email не публикуется. Обязательные поля отмечены *