Определены границы сжатия информации для языковых моделей

Экспериментально показано, что вычислительные затраты могут быть уменьшены в 1500 раз, хотя примененный для этого метод пока остается вычислительно тяжелым.

Ученые из AIRI, МФТИ и Лондонского математического института (LIMS) изучили пределы вместимости языковых моделей, используя сжатие текста для оценки их емкости. Результаты показали, что текст в 1500 слов или токенов можно сжать в один вектор — набор чисел, который модель понимает и может использовать для восстановления исходного текста. Это открытие повысит эффективность обработки данных в различных областях.

Когда текст поступает в языковую модель, он разбивается на токены — слова или их части, каждому из которых соответствует вектор — последовательность из тысяч чисел. Обычно текст из 1500 слов может быть трансформирован в 1500 векторов, что требует значительных вычислительных ресурсов как для их хранения так и обработки. Ученые показали, что всю эту информацию можно уместить в один-единственный вектор, сохраняя исходный текст. Например, книга «Хоббит или Туда и обратно» объемом около 120 тысяч токенов может быть представлена всего в 100–200 векторах, в зависимости от размера модели.

Сокращение длины входных данных для языковых моделей снижает вычислительные затраты. Чем длиннее текст, тем больше ресурсов требуется для его обработки. Замена длинного контекста на векторы ускоряет работу и снижает расходы. Исследователи отмечают, что текущие методы сжатия достигают коэффициента 10–100, а не 1500.

Ключевая проблема в сжатии данных — обеспечение работы языковой модели с сжатым вектором как с исходным текстом. Важную роль играет энтропия, мера сложности текста. Чем более предсказуем текст, тем ниже энтропия и проще его сжать. Случайный набор слов с высокой энтропией сжимать сложнее. Это аналогично тому, как человек пересказывает знакомый текст и с трудом запоминает бессмысленный набор символов.

Еще один аспект исследования — разрыв между теоретической емкостью векторов и их практическим использованием. Векторы теоретически могут хранить много информации, но языковая модель работает только с понятными ей векторами, что ограничивает их использование до 10–30% емкости. Избыточность полезна для исправления ошибок, но указывает на неэффективное использование данных.

«Удивительно, что один небольшой вектор способен управлять поведением огромной языковой модели с миллиардами параметров. Мы задаем с помощью него поведение системы на тысячи слов вперед, и она строго ему следует. Это открывает широкие перспективы для создания более эффективных и мощных технологий обработки текстов».

Юрий Куратов, руководитель группы «Модели с памятью» лаборатории когнитивных систем искусственного интеллекта Института AIRI

Методы оптимизации основаны на градиентном спуске для точного восстановления текста, что требует нескольких шагов и пока остается дорогостоящим. Исследователи стремятся показать пределы сжатия, а не предложить готовое решение, и ставят задачу разработать одношаговые методы сжатия текста в один вектор.

Подписывайтесь на наш Telegram Читать