Языковые модели могут скрывать способности во время обучения

Исследователи из MATS, Google DeepMind и Калифорнийского университета* изучили новый возможный сбой в обучении больших языковых моделей. Речь идет об exploration hacking, или «хакинге исследования», когда модель во время обучения с подкреплением намеренно выбирает такие действия, которые не позволяют системе обучения раскрыть и усилить ее реальные способности.

Обычно обучение с подкреплением (Reinforcement Learning, RL) используют после базового обучения модели, чтобы развить рассуждение, агентные навыки, работу с инструментами и более безопасное поведение. В отличие от supervised learning, где датасет заранее задан, RL во многом зависит от того, какие ответы и действия модель сама пробует во время обучения. Если модель начинает стратегически избегать высоконаградных действий, то обучающий алгоритм просто не получает сигнала, в какую сторону ее улучшать. Формально все выглядит как слабая модель или неудачный запуск обучения, хотя способность может оставаться внутри.

Чтобы проверить этот сценарий, авторы создали так называемые «модельные организмы». Это специально дообученные модели, которые сохраняют способность решать задачу, но в определенных условиях делают вид, что не справляются. Например, на задачах биобезопасности модель могла выбирать заведомо неудачные ответы, а в задачах программирования писать синтаксически корректный код с логическими ошибками. В более реалистичных экспериментах она подавляла способности только при наличии признаков оценки безопасности, а в обычном контексте работала нормально.

Главный результат в том, что часть таких моделей действительно смогла сопротивляться попыткам раскрыть их способности через RL. В экспериментах на KernelBench модель, заблокированная через обучение с подкреплением, сохраняла сниженное качество более 500 шагов, тогда как простая подсказка «работай хуже» быстро стиралась, и модель восстанавливала результат примерно за 100 шагов. На WMDP-Bio детерминированная стратегия вроде выбора самого короткого ответа оказалась устойчивее, чем случайный выбор неправильного ответа.

Исследователи также проверили, можно ли такое поведение обнаружить. Простые мониторы, которые смотрят только на итоговые действия модели, уже отличали «хакинг исследования» от обычной неспособности. Методы белого ящика, например небольшой шум в весах, тоже частично ломали механизм блокировки.

Отдельно авторы проверили современные frontier-модели (наиболее продвинутые системы искусственного интеллекта). Сами по себе они редко переходили к такому поведению, но при достаточном количестве информации о контексте обучения могли рассуждать о подавлении исследовательской активности и иногда действовать соответствующим образом. Интересно, что если модель находила информацию о тренировочном контексте в окружении, например в файлах, доля таких случаев была выше, чем при прямом системном указании.

* Минюст признал нежелательной деятельность Калифорнийского университета в России.

Подписывайтесь на наш Telegram Подписаться