Создан новый русско-татарский переводчик на основе нейросетей

29 октября 2019

Создан новый русско-татарский переводчик на основе нейросетей

29 октября 2019

Проект Tatsoft разработан сотрудниками Института прикладной семиотики Академии наук Республики Татарстан при участии ассистента Лаборатории машинного обучения и представления данных Университета Иннополис Альбины Хусаиновой. Для тренировки нейросети разработчики собрали миллион пар предложений.

Архитектура переводчика основана на нейросетевых технологиях. Альбина Хусаинова и сотрудник Академии наук Татарстана Айдар Хусаинов испытывали и комбинировали разные модели машинного перевода, исследуя применимость научных трендов в этой области. Студенты бакалавриата ИТ-вуза участвовали в начальных экспериментах на небольшой выборке данных. На финальном этапе, когда нейросеть обучилась на данных — переводах книг, билингвальных новостях и переведенных профессиональными переводчиками текстах, — разработчики провели нагрузочное тестирование, чтобы сервис выдерживал большой трафик пользователей.

Всего работа над переводчиком велась 5 лет: с 2014 года в Институте прикладной семиотики собирались и оцифровывались данные, изучались модели автоматизированного перевода для оптимальной работы, в начале 2018 года появилась первая версия сервиса. В 2019 году к работе присоединились представители российского ИТ-вуза.

Ранее, по словам Альбины Хусаиновой, качественно переводить не отдельные слова, а тексты с татарского на русский язык и наоборот мог только сервис «Яндекс.Переводчик». Сейчас, по результатам проверки качества перевода по метрике BLEU (Bilingual Evaluation Understudy Score), Tatsoft справляется лучше аналогов.

Tatsoft.jpg

Официальная презентация переводчика прошла 25 октября. Tatsoft переводит как с русского на татарский язык, так и наоборот. Пользователи могут запустить синтезированное озвучивание текста и оценить полученный перевод. В ближайшее время планируется выпустить мобильное приложение, а также увеличить количество тренировочных пар предложений до 15 миллионов.

Ассистент Лаборатории машинного обучения и представления данных Университета Иннополис Альбина Хусаинова: «Я занимаюсь проблемами малоресурсного машинного перевода и поэтому, конечно, этот проект меня очень заинтересовал. Я подключилась к работе на той стадии, когда данные для тренировки модели уже были собраны. Это первый разработанный в Татарстане и доступный для широкой публики высококачественный машинный переводчик для татарского языка. Я сама им активно пользуюсь. Часто выдает очень хорошие результаты (я сама бы так не смогла), но иногда, конечно, бывают проблемы. Они, как правило, возникают, когда в тренировочных данных не было похожих предложений. Вообще индустриальные системы тренируют модели перевода на десятках миллионов пар предложений, в нашем же случае пока что удалось собрать только один миллион. Поэтому, чтобы улучшить качество перевода, нужно прежде всего работать над сбором данных. Я очень надеюсь, что у Института прикладной семиотики получится это сделать. Мне бы хотелось помочь сделать его еще лучше, но для этого прежде всего необходимы новые данные. Сейчас работаем над идеей использовать данные других тюркских языков, чтобы улучшить качество перевода».