Учёные Университета Иннополис выиграли в научном конкурсе AI Journey Science

23 ноября 2023

Учёные Университета Иннополис выиграли в научном конкурсе AI Journey Science

23 ноября 2023

Статья команды исследователей искусственного интеллекта из российского ИТ-вуза и МФТИ — Михаила Рудакова, Александра Безносикова, Ярослава Холодова и Александра Гасникова — «Техники сжатия активаций слоев и градиентов для распределенного обучения моделей ИИ» признана лучшей научной работой на конференции Sber AI Journey.

По словам авторов статьи, для обучения современных моделей искусственного интеллекта (ChatGPT, LLaMA, BLOOM) требуется много вычислительных ресурсов, так как модель может не поместиться в память одного устройства. Обучение происходит распределённо на нескольких серверах, между которыми модель делится последовательно с помощью техники параллелизации. Передача информации между этими устройствами может занимать много времени, поэтому для ускорения процессов обучения применяется сжатие информации. Результаты исследования показывают, с какими параметрами сжатия можно эффективно тренировать и применять эти модели.

Михаил Рудаков, студент первого курса магистратуры Университета Иннополис: «Мы экспериментируем с разными техниками сжатия активаций слоёв нейронных сетей и их градиентов: квантизация, сжатие TopK или “жадное” сжатие, добавляем техники компенсации ошибки. Наши результаты показывают особенности применения сжатия во время обучения, дообучения и применения моделей машинного обучения. Мы также обозначаем границы применимости сжатия, для которых качество модели соответствует исходному. С помощью наших экспериментов мы выяснили, что можно сжимать передаваемую информацию в 10 раз практически без потери качества модели».

Также авторы статьи выяснили, что градиенты нейронных сетей более чувствительны к сжатию, чем активации, поэтому нужно уменьшать сжатие для градиентов. Для TopK сжатия важно, если модель обучалась со сжатием, использовать сжатие и на валидации. Использование техники компенсации ошибки исправляет этот недостаток.

Исследователи отмечают, что они одними из первых ставят эксперименты над сжатием информации в задаче распределённого машинного обучения с разделением модели по разным устройствам и исследуют применимость разных техник компенсации ошибки.

Cтатья признана лучшей на конкурсе AI Journey Science, который прошёл в рамках конференции в сфере технологий искусственного интеллекта SberAIJourney. За неё команда авторов получила 1 миллион рублей, также работа будет опубликована в журналах «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics. Работа поддержана Российским научным фондом (проект No 23-11-00229).