Новая система на основе больших языковых моделей не только определяет происхождение текста, но и помогает редактировать его для снижения «машинного» стиля. Разработка найдет применение в образовании, медиа и бизнесе для маркировки контента и проверки документов.

Ученые ИТМО разработали инструмент на основе больших языковых моделей, который с высокой точностью определяет, кем написан текст: человеком, искусственным интеллектом или ИИ, но с последующим перефразированием. Точность системы достигает 94% при анализе текстов, полностью созданных человеком или машиной, и около 80% — для гибридных текстов.
Особенность сервиса заключается в его адаптации к русскому языку и способности анализировать не только прямое порождение, но и редактирование текстов нейросетями. Инструмент использует две независимые языковые модели для оценки «степени неожиданности» текста, а также анализирует лингвистические признаки: длину предложений, разнообразие лексики, распределение частей речи и другие параметры.
Для обучения классификатора исследователи создали собственный корпус из более чем четырех тысяч русскоязычных текстов разных типов: написанных людьми, полностью сгенерированных моделями вроде ChatGPT, DeepSeek и Gemini, а также перефразированных версий человеческих текстов.
Помимо детектора, разработка включает инструмент для редактирования — обфускатор. Он помогает снизить «машинное» происхождение текста, преобразуя списки в абзацы, удаляя лишние переносы и переписывая шаблонные предложения без потери смысла. Авторы подчеркивают, что этот модуль предназначен не для маскировки авторства, а для проверки устойчивости детекторов и подготовки текстов к чистовой публикации.
«Сейчас мы разрабатываем удобный интерфейс для нашего сервиса и готовим пакетную обработку, которая позволит анализировать несколько текстов одновременно и ускорить процесс. Осенью мы будем набирать дополнительную команду из молодых исследователей, чтобы развивать проект, а уже к весне попытаемся внедрить сервис в пилотном режиме в ИТМО — для поиска и исправления машинного текста в дипломных работах студентов».
Вячеслав Шаламов, научный руководитель проекта, сотрудник факультета информационных технологий и программирования ИТМО
Сервис может быть использован в образовании для проверки академических работ, в медиаиндустрии для маркировки контента, а также в бизнесе для контроля корпоративной документации. Демонстрационная версия алгоритма уже доступна для тестирования на платформе Hugging Face Spaces.
