Планируется, что к концу 2024 года «Яндекс Переводчик» будет дополнен не менее чем 100 тысячами выровненных русско-удмуртских предложений. В 2025–2027 годах база данных пополнится еще 300 тысячами параллельных предложений, созданных в рамках гранта Российского научного фонда (РНФ). Дополнительно будет использован монокорпус удмуртского языка, доступный на платформе udmcorpus.udman.ru.
В рамках сотрудничества ученые и разработчики уделят внимание не только текстовому переводу, но и технологиям распознавания и синтеза речи. Для создания синтезатора удмуртской речи будут использованы записи, озвученные ведущей радио «Моя Удмуртия» Светланой Пикулевой. Все разработки внедрят в сервисы и приложения «Яндекса», такие как «Переводчик», «Поиск», «Браузер», и другие.
«С компанией «Яндекс» у нас налажен хороший диалог, - рассказывает руководитель гранта, старший научный сотрудник Удмуртского института истории, языка и литературы УдмФИЦ УрО РАН Мария Безенова. - С текстами работать умеем, вычиткой занимаются уже опытные люди. К тому же недавно у нас появился молодой программист, подготовил автовыравниватель. Так что даже выравнивать тексты вручную, как изначально планировалось, нам не придется. Поэтому никаких трудностей в реализации проекта на данный момент мы не видим».
Это сотрудничество откроет новые возможности для сохранения и популяризации удмуртского языка, улучшив его доступность в цифровых технологиях.