23 ноября 2023
23 ноября 2023
Статья команды исследователей искусственного интеллекта из российского ИТ-вуза и МФТИ — Михаила Рудакова, Александра Безносикова, Ярослава Холодова и Александра Гасникова — «Техники сжатия активаций слоев и градиентов для распределенного обучения моделей ИИ» признана лучшей научной работой на конференции Sber AI Journey.
По словам авторов статьи, для обучения современных моделей искусственного интеллекта (ChatGPT, LLaMA, BLOOM) требуется много вычислительных ресурсов, так как модель может не поместиться в память одного устройства. Обучение происходит распределённо на нескольких серверах, между которыми модель делится последовательно с помощью техники параллелизации. Передача информации между этими устройствами может занимать много времени, поэтому для ускорения процессов обучения применяется сжатие информации. Результаты исследования показывают, с какими параметрами сжатия можно эффективно тренировать и применять эти модели.
Михаил Рудаков, студент первого курса магистратуры Университета Иннополис: «Мы экспериментируем с разными техниками сжатия активаций слоёв нейронных сетей и их градиентов: квантизация, сжатие TopK или “жадное” сжатие, добавляем техники компенсации ошибки. Наши результаты показывают особенности применения сжатия во время обучения, дообучения и применения моделей машинного обучения. Мы также обозначаем границы применимости сжатия, для которых качество модели соответствует исходному. С помощью наших экспериментов мы выяснили, что можно сжимать передаваемую информацию в 10 раз практически без потери качества модели».
Также авторы статьи выяснили, что градиенты нейронных сетей более чувствительны к сжатию, чем активации, поэтому нужно уменьшать сжатие для градиентов. Для TopK сжатия важно, если модель обучалась со сжатием, использовать сжатие и на валидации. Использование техники компенсации ошибки исправляет этот недостаток.
Исследователи отмечают, что они одними из первых ставят эксперименты над сжатием информации в задаче распределённого машинного обучения с разделением модели по разным устройствам и исследуют применимость разных техник компенсации ошибки.
Cтатья признана лучшей на конкурсе AI Journey Science, который прошёл в рамках конференции в сфере технологий искусственного интеллекта SberAIJourney. За неё команда авторов получила 1 миллион рублей, также работа будет опубликована в журналах «Доклады Российской академии наук. Математика, информатика, процессы управления» и его англоязычной версии Doklady Mathematics. Работа поддержана Российским научным фондом (проект No 23-11-00229).
24 февраля 2025
Университет Иннополис продолжает серию историй о талантливых обучающихся. Аспирантка Замира Холматова совмещает работу в Передовой инженерной школе с написанием кандидатской диссертации и исследованиями в области программной инженерии. Она рассказала, почему решила заниматься наукой и чем игра на фортепиано, спорт и рисование полезны для исследователя.
25 февраля 2025
Мероприятие для обсуждения трендов в торговле пройдёт 2—5 июня в московском Центре международной торговли. На форуме состоятся пленарные заседания, экспертные сессии, конференции, презентации и круглые столы об инновациях в работе торговых сетей, маркетинге, fashion- и банковском ритейле, е-commerce, HoReCa, логистике, ESG, коммерческой недвижимости, международных рынках и HR. Также участников ждут экспозона новинок отрасли, Retail Week Awards, антиконтрафакт и турнир по мини-футболу. Регистрация открыта до 2 июня.
17 февраля 2025
22—29 марта Центр довузовской подготовки российского ИТ-вуза проведёт очные курсы по изучению языков программирования Python и C++, 3D-моделированию и олимпиадному программированию. Также в программе — квесты, квизы, игры и спортивные мероприятия. По итогам обучения участники получат сертификаты. Регистрация открыта до 17 марта, количество мест ограничено.