Физики объяснили, почему большие нейросети не переобучаются

Американские физики с помощью упрощенной математической модели объяснили одну из главных загадок глубокого обучения: почему огромные нейросети не переобучаются, а успешно обобщают данные.

Группа американских ученых разработала упрощенную математическую модель обучения в нейронных сетях, которую можно анализировать с помощью инструментов статистической физики. Современные системы искусственного интеллекта, такие как ChatGPT, Claude, DeepSeek или Gemini, обладают огромной мощностью, но их внутренняя работа остается в значительной степени «черным ящиком». Предложенная «игрушечная модель» предоставляет контролируемую теоретическую лабораторию для изучения фундаментальных механизмов нейросетей.

Ученые проводят аналогию с эпохой Кеплера, который сформулировал законы движения планет на основе наблюдений, еще не зная законов гравитации Ньютона. Сегодня в области глубокого обучения известны эмпирические законы масштабирования — производительность модели растет с увеличением ее размера или объема данных, — но отсутствует глубокая теория, объясняющая, почему это происходит. Нейронные сети не программируются вручную, а скорее «выращиваются» подобно биологическим организмам, и их коллективное поведение чрезвычайно сложно предсказать, несмотря на знание операций каждого отдельного нейрона.

Одна из величайших загадок глубокого обучения заключается в том, что очень большие модели, вопреки теоретическим ожиданиям, не переобучаются — то есть не запоминают обучающие данные, а успешно обобщают.Ученые предложили возможное объяснение, связанное с теорией перенормировки из статистической физики. В пространствах с тысячами или миллионами переменных возникают малые случайные вариации — статистические флуктуации, которые, согласно теории перенормировки, могут быть эффективно описаны небольшим числом параметров.

Анализируя упрощенную модель гребневой регрессии, ученые показали, что эти многомерные флуктуации не дестабилизируют обучение, а наоборот, стабилизируют его, предотвращая переобучение даже при сильной перепараметризации. Хотя модель значительно проще реальных нейросетей, она позволяет различить универсальные свойства обучения, общие для многих архитектур, и те, что зависят от конкретных деталей. В перспективе такой подход может помочь разработать более эффективные и надежные системы искусственного интеллекта, а также заложить основы более глубокой теоретической «теории гравитации» для глубокого обучения.

Подписывайтесь на наш Telegram Подписаться