Российские разработчики создали инструмент для обучения языковых моделей — фреймворк ATGen. Он использует методы активного обучения, сокращая объем необходимых данных в 2–4 раза и значительно снижая затраты на создание ИИ-решений. Технология особенно полезна для узкоспециализированных задач, где традиционно требуется дорогостоящая разметка экспертами.

Команда специалистов из R&D-центра Т-Технологий, AIRI, ВШЭ, Университета Иннополис и Сбера представила ATGen — инновационный фреймворк, который упрощает и удешевляет обучение больших языковых моделей (LLM) для генерации текста. Этот инструмент делает передовые технологии ИИ доступными даже для небольших компаний с ограниченными бюджетами.
Одна из ключевых проблем в создании специализированных ИИ-решений — необходимость в большом количестве размеченных данных, что требует привлечения дорогостоящих экспертов или дорогих API. ATGen решает эту проблему с помощью активного обучения (AL), где модель сама определяет, какие данные ей нужны для улучшения. Это позволяет сократить объем разметки в 2–4 раза без потери качества.
Фреймворк объединяет передовые методы AL, инструменты для оценки моделей, интеграцию с крупными LLM (включая OpenAI и Anthropic), а также современные технологии эффективного обучения, такие как PEFT и vLLM. ATGen поддерживает все актуальные стратегии активного обучения для генерации текста, предоставляет удобный веб-интерфейс для настройки и мониторинга обучения, а также позволяет использовать как локальные модели, так и облачные API.
В ходе экспериментов на задачах TriviaQA, GSM8K, RACE и AESLC стратегии HUDS, HADAS и Facility Location показали значительное преимущество перед случайной выборкой данных. Благодаря ATGen для достижения того же уровня качества модели требуется всего 33% данных, что сокращает затраты на разметку в три раза.
ATGen доступен на GitHub под лицензией MIT и подходит для разработки ИИ-решений в разных сферах — от юриспруденции до медицины. Его главные преимущества — снижение затрат, ускорение обучения и возможность быстрого вывода кастомизированных продуктов на рынок.
