Создан новый русско-татарский переводчик на основе нейросетей

Проект Tatsoft разработан сотрудниками Института прикладной семиотики Академии наук Республики Татарстан при участии ассистента Лаборатории машинного обучения и представления данных Университета Иннополис Альбины Хусаиновой. Для тренировки нейросети разработчики собрали миллион пар предложений.

Архитектура переводчика основана на нейросетевых технологиях. Альбина Хусаинова и сотрудник Академии наук Татарстана Айдар Хусаинов испытывали и комбинировали разные модели машинного перевода, исследуя применимость научных трендов в этой области. Студенты бакалавриата ИТ-вуза участвовали в начальных экспериментах на небольшой выборке данных. На финальном этапе, когда нейросеть обучилась на данных — переводах книг, билингвальных новостях и переведенных профессиональными переводчиками текстах, — разработчики провели нагрузочное тестирование, чтобы сервис выдерживал большой трафик пользователей.

Всего работа над переводчиком велась 5 лет: с 2014 года в Институте прикладной семиотики собирались и оцифровывались данные, изучались модели автоматизированного перевода для оптимальной работы, в начале 2018 года появилась первая версия сервиса. В 2019 году к работе присоединились представители российского ИТ-вуза.

Ранее, по словам Альбины Хусаиновой, качественно переводить не отдельные слова, а тексты с татарского на русский язык и наоборот мог только сервис «Яндекс.Переводчик». Сейчас, по результатам проверки качества перевода по метрике BLEU (Bilingual Evaluation Understudy Score), Tatsoft справляется лучше аналогов.

Официальная презентация переводчика прошла 25 октября. Tatsoft переводит как с русского на татарский язык, так и наоборот. Пользователи могут запустить синтезированное озвучивание текста и оценить полученный перевод. В ближайшее время планируется выпустить мобильное приложение, а также увеличить количество тренировочных пар предложений до 15 миллионов.

Ассистент Лаборатории машинного обучения и представления данных Университета Иннополис Альбина Хусаинова: «Я занимаюсь проблемами малоресурсного машинного перевода и поэтому, конечно, этот проект меня очень заинтересовал. Я подключилась к работе на той стадии, когда данные для тренировки модели уже были собраны. Это первый разработанный в Татарстане и доступный для широкой публики высококачественный машинный переводчик для татарского языка. Я сама им активно пользуюсь. Часто выдает очень хорошие результаты (я сама бы так не смогла), но иногда, конечно, бывают проблемы. Они, как правило, возникают, когда в тренировочных данных не было похожих предложений. Вообще индустриальные системы тренируют модели перевода на десятках миллионов пар предложений, в нашем же случае пока что удалось собрать только один миллион. Поэтому, чтобы улучшить качество перевода, нужно прежде всего работать над сбором данных. Я очень надеюсь, что у Института прикладной семиотики получится это сделать. Мне бы хотелось помочь сделать его еще лучше, но для этого прежде всего необходимы новые данные. Сейчас работаем над идеей использовать данные других тюркских языков, чтобы улучшить качество перевода».

Создан новый русско-татарский переводчик на основе нейросетей

Популярные новости

Объявили победителей Республиканской робототехнической олимпиады, которые представят Татарстан на всероссийских соревнованиях в Оренбурге

Университет Иннополис и Rubetek Lab открыли лабораторию робототехники и ИИ для разработки умных устройств

Университет Иннополис и Фонд русско-арабских исследований и информации договорились о партнёрстве в науке и образовании

Создан новый русско-татарский переводчик на основе нейросетей

Популярные новости

Объявили победителей Республиканской робототехнической олимпиады, которые представят Татарстан на всероссийских соревнованиях в Оренбурге

Университет Иннополис и Rubetek Lab открыли лабораторию робототехники и ИИ для разработки умных устройств

Университет Иннополис и Фонд русско-арабских исследований и информации договорились о партнёрстве в науке и образовании

Мы используем файлы cookies