Российские учёные разработали новый метод умного тюнинга гиперпараметров в ИИ-моделях

21 марта 2025

Российские учёные разработали новый метод умного тюнинга гиперпараметров в ИИ-моделях

21 марта 2025

Метод JAGUAR сохраняет эффективность в сложных и гладких функциях, функциях с особыми свойствами, а также ситуациях, когда расчёт сопровождается случайными ошибками. Совместную работу исследователей Лаборатории искусственного интеллекта Сбербанка, МФТИ и Университета Иннополис опубликовал научный журнал Chaos, Solitons & Fractals.

Авторы исследования предложили новый метод оптимизации нулевого порядка, который использует не градиент целевой функции, а только значения в точках. JAGUAR рассмотрен в классическом и стохастическом алгоритмах Франка-Вульфа. Результаты работы позволяют оптимизировать сложные недифференцируемые функции потерь, специфичные для прикладной задачи, за меньшее число итераций для умного тюнинга гиперпараметров в моделях машинного обучения.

Например, с помощью такого подхода можно оптимизировать двухэтапные процедуры, когда на первом этапе обучается нейронная сеть для извлечения эмбеддингов данных, которые обеспечивают максимальную точность классификации или регрессии на втором этапе. Кроме того, метод может быть использован в случаях, при которых вычисление градиента целевой функции сложно с вычислительной точки зрения или затрат по памяти при дообучении больших языковых моделей.

В статье рассматриваются вопросы оптимизации, когда отсутствует доступ к точной формуле для расчёта результата и приходится оценивать его приближённо. Представленный метод обучения AI-моделей сохраняет информацию из предыдущих шагов и требует определённого количества запросов к системе. В своем исследовании ученые внедрили его в два известных алгоритма оптимизации, которые остались эффективными даже с таким приближённым расчётом.

Учёные также проанализировали использование метода в сложных и гладких функциях, функциях с особыми свойствами и ситуациях, когда расчёт сопровождается случайными ошибками. Во всех рассмотренных случаях он продемонстрировал стабильную эффективность, обеспечивая рост качества на тестовых множествах примерно в 10% по сравнению с доступными аналогами, которые есть в открытом доступе на рынке.

Подробное описание метода опубликовано в статье «Новые перспективы метода условного градиента "чёрного ящика": снижение дисперсии и одноточечная обратная связь» (New aspects of black box conditional gradient: Variance reduction and one point feedback).


ПАО Сбербанк — один из крупнейших банков в России и один из ведущих глобальных финансовых институтов. На долю Сбербанка приходится около трети активов всего российского банковского сектора. Сбербанк является ключевым кредитором для национальной экономики и занимает одну из крупнейших долей на рынке вкладов.
sberbank.ru

МФТИ — ведущий российский вуз по подготовке специалистов в области теоретической, экспериментальной и прикладной физики, математики, информатики, химии, биологии и смежных дисциплин.
mipt.ru