Исследователи из T-Bank AI Research представили новый метод управления языковыми моделями

Исследователи из T-Bank AI Research представили метод управления языковыми моделями, который позволяет точечно корректировать их поведение — от стиля ответов до фильтрации нежелательного контента — без изменения архитектуры или дополнительного обучения.

Ученые из лаборатории T-Bank AI Research придумали простой способ разобраться, как работают современные системы искусственного интеллекта типа ChatGPT, и научились ими лучше управлять. Их новая технология основана на методе SAE Match.

В своей работе ученые из T-Bank AI Research предложили новый подход к визуализации данных в моделях искусственного интеллекта. Они создали концепцию графа потока признаков — это своего рода карта, которая показывает, как и когда в модели появляются, изменяются или исчезают важные смысловые элементы.

При этом анализ проводится не только между различными уровнями модели, но и внутри каждого уровня — между такими компонентами, как attention (механизм внимания, который анализирует контекст) и feedforward (компонент, отвечающий за использование внутренних знаний модели).

Главным итогом исследования стало подтверждение того, что комплексное воздействие на модель на различных уровнях и модулях позволяет более эффективно управлять моделью с меньшими потерями в качестве текста по сравнению с попытками воздействия на отдельные уровни.

Это дает возможность точно настраивать поведение модели прямо во время работы, не меняя ее структуру и не проводя дополнительного обучения. Например, можно заставить модель говорить вежливее или избегать определенных тем.

Разработка важна еще и потому, что упрощает проверку безопасности и надежности систем искусственного интеллекта, помогая предотвратить появление проблемных ситуаций. Ученые представили свою работу на крупной научной конференции ICML в Канаде летом 2025 года.

Что будем искать? Например,ChatGPT

Мы в социальных сетях