Мы рады представить амбициозный некоммерческий проект по обучению нейросетевого переводчика между вепсским и русским языком.

Этапы проекта:

1. Сбор параллельных предложений и словаря

Мы собрали около 3000 пар предложений (оригинал — перевод) и создали словарь из примерно 20000 слов и выражений.

2. Аугментация данных

Мы планируем провести аугментацию данных (замену слов синонимами). Это позволит нам создать дополнительные синтетические предложения.

3. Обучение первой простой модели

Обучение первой простой модели на основе собранных данных, инициация проекта.

4. Использование синтетического корпуса

Далее мы используем полученную простую модель для создания синтетического корпуса (обратный перевод моноязычного текста с вепсского на русский) для обучения модели перевода с русского на вепсский язык.

5. Итеративный обратный перевод

Мы планируем использовать метод итеративного обратного перевода, повторяя процесс обучения для улучшения качества перевода.

6. Метод переноса обучения

Мы также планируем использовать метод переноса обучения с помощью обучения мультиязычного переводчика, включающего финский и эстонский языки из финно-угорской семьи.

В данный момент мы уже собрали моноязычные данные только на вепсском языке в объеме 75000 уникальных предложений. Кроме того, мы продолжаем работу над извлечением и обработкой данных из открытого корпуса на сайте VepKar и других открытых источников.

Для реализации проекта мы призываем всех заинтересованных лиц предоставить любые дополнительные данные, так как они увеличат наши шансы на успех. Обращаемся к авторам текстов, журналистам, издательствам, лингвистам. Нас интересуют параллельные тексты (русский-вепсский варианты одного и того же текста) или тексты только на вепсском языке в формате txt в кодировке UTF-8 без дополнительного форматирования.

Мы готовы к сотрудничеству и будем рады любой поддержке и помощи в этом важном проекте. Если вы можете нам помочь — свяжитесь, пожалуйста, с администратором сайта: e-mail / telegram. Наша цель — создать высококачественный доступный каждому переводчик, способный эффективно переводить тексты между этими языками.

 

Над проектом работают:

Малюта Мигука — создатель проекта Vepsläine.ru

Алексей Владимирович Куташов — специалист по ML, aleksej.kutashov@gmail.com

Максим Юрьевич Кузнецов — научный сотрудник лаборатории многофакторного гуманитарного анализа и когнитивной филологии Казанского научного центра РАН, kuzur0712@yandex.ru

Вы можете ознакомиться с попыткой сделать такой переводчик от разработчиков из Тартуского университета: https://translate.majbyr.com/vep/rus

Насколько нам известно, нейросеть в их подходе обучалась только на вепсском и русском вариантах текста Библии.