Специалисты из AIRI, НИУ ВШЭ и Университета Иннополис изучили, как языковые модели могут использовать элементы разговорной речи с высокой смысловой плотностью для компрессии русскоязычных текстов, сохраняя их основное содержание.

В рамках работы проверялась гипотеза о том, что замена некоторых языковых конструкций на более краткие эквиваленты позволяет сократить объем текста без существенной потери его смысла. Эксперименты проводились на коротких предложениях и новостных статьях. Исследование было представлено на конференции AAAI в Сингапуре.
Исходный интерес ученых был связан с разработкой фильтров для контента. В процессе работы они сосредоточились на задаче преобразования текста в нейтральный регистр с минимальными смысловыми потерями. Наблюдения показали, что в некоторых типах речи одно слово или короткая фраза могут нести смысл, для передачи которого в нейтральном стиле требуется более развернутое высказывание. Это свойство языковой «плотности» было исследовано как потенциальный метод сжатия информации, отличный от классической суммаризации.
Для экспериментов использовались модели Qwen2.5-7B-Instruct и Llama-3.1-8B-Instruct. На этапе дообучения применялся подход с подкрепляющим обучением (RL), где модель поощрялась за сокращение длины текста при сохранении его исходного значения. Для этого использовалась специально составленная функция вознаграждения.
Основной вызов в работе заключался в характере доступных данных. Большинство открытых датасетов содержат ограниченный контекст, что затрудняет точную интерпретацию функций кратких языковых конструкций. В будущем исследователи планируют работу с более качественными и контекстно богатыми данными.
«Наша главная цель — не научить ИИ ругаться как человек, а использовать лингвистический феномен «смысловой плотности» для улучшения алгоритмов. Рабочая модель в итоге не использует нецензурную лексику при обработке обычных текстов. Тренировка на контрастных примерах (нейтральная фраза → очень короткая эмоциональная замена) позволила ИИ тоньше улавливать суть высказываний».
Илья Макаров, ведущий научный сотрудник AIRI
Авторы подчеркивают, что итоговая модель предназначена для исследовательских целей и не предполагает использование в публичных интерфейсах, образовании или официальной коммуникации.