RAG и большие языковые модели: как бизнесу избежать «галлюцинаций» ИИ

На сегодняшний день можно уже с уверенностью сказать, что искусственный интеллект в виде больших языковых моделей (LLM) прочно обосновался как на корпоративном рынке, так и в «домашнем» использовании. Сценариев применения множество: от интеллектуальных чат-ботов и голосовых ассистентов до продвинутых ИИ-помощников, способных не только отвечать на пользовательские запросы, но и выполнять определенные. В статье расскажем, как бизнесу использовать связку LLM+RAG без рисков.

Объединение LLM с методом поиска и дополненной генерации (RAG) стало важным достижением за последние годы. Генеративные возможности LLM, улучшенные получением актуальных данных через RAG, значительно повышают качество и релевантность ответов, генерируемых LLM.

Раньше только крупные компании с большими ресурсами могли внедрять технологии ИИ, но RAG-технология упростила этот процесс. Теперь «RAG-доступ» к данным компании позволяет использовать LLM без ее предварительного обучения под специфику задач компании.

«RAG обрабатывает запрос пользователя, подбирает релевантные запросу данные из подключенных источников, добавляет их к запросу и передает в LLM, а уже LLM использует эти данные для генерации релевантного ответа. При этом саму LLM обучать на данных компании не обязательно, что экономит время и ресурсы на дорогостоящие работы; кроме того, исчезает риск потери инвестиций в обучение LLM в случае перехода на другую модель».

Дмитрий Лактионов, директор продуктового направления Базы знаний компании BSS

Однако даже эта комбинация требует правильной настройки, иначе модель начинает галлюцинировать, выдавать нерелевантную, неактуальную или неточную информацию, сообщать конфиденциальные данные.

Как работает LLM и RAG и почему RAG меняет правила игры

Большие языковые модели (LLM) обучены на больших объемах текстов из книг, статей и веб-сайтов, что помогает им осваивать грамматику, семантику, связи между словами и предложениями, понимать контекст. При ответе на запрос пользователя модель опирается на эти знания.

Однако, если вы хотите, чтобы модель снабжала пользователей актуальной информацией, вам необходимо ее постоянно дообучать, пополнять новой информацией, удалять неактуальную — сама по себе LLM этого не сделает, нужна работа дорогостоящих специалистов. Да и бесконечное увеличение размеров LLM не всегда приемлемо, т. к. падают скорости ответов и повышаются требования к дорогостоящему оборудованию.

«Применение RAG решает эту проблему, позволяя извлекать актуальные данные из внешних источников, анализировать их и генерировать на их основе релевантные ответы без затрат на обучение модели», — отметил Дмитрий Лактионов.

RAG включает два основных элемента: извлечение и генерацию. Вот как это работает:

Пользователь задает вопрос.
RAG ищет релевантные запросу данные в подключенных источниках.
После обработки извлеченные тексты, вернее их фрагменты, наиболее близкие к тематике запроса, передаются в LLM, которая формирует связный и информативный ответ, опираясь на найденные данные, контекст запроса и данные самой LLM.

«Например, банк внедряет чат-бота для клиентов. На вопрос «Как оформить кредит под залог авто?» RAG находит в базе знаний актуальные условия программ, а LLM структурирует их в понятный текст ответа. Если условия изменятся, достаточно будет обновить информацию в базе знаний, из которой RAG черпает информацию, — переобучать саму модель не придется», — объяснил Лактионов.

Почему ИИ «галлюцинирует» и как это исправить

Главный миф о RAG: «Достаточно загрузить в систему файлы — остальное сделает ИИ». Ведь на первый взгляд ситуация выглядит исключительно позитивно: берете мощную комбинацию LLM и RAG, подключаетесь к источникам информации, настраиваете систему и выводите результаты в удобный и привычный интерфейс. Что может пойти не так?

Однако на практике внедрение таких технологий в бизнесе сталкивается с множеством трудностей. И это касается не только качества и технических характеристик моделей, таких как устойчивость к ошибкам и адаптивность, но также того, откуда именно RAG будет получать информацию:

RAG в «чистом» виде не может определить, сколько данных нужно для ответа на конкретный вопрос. Происходит подбор контента, который далее будет использован для генерации ответов, по критерию «похожести» на сам запрос.
RAG и LLM сами по себе не понимают, используют ли они для построения ответа актуальную информацию или же она устарела.
Чем больше информации использует LLM для формирования ответа, тем выше риск «галлюцинаций» и ошибок, особенно если источник содержит большой объем многопрофильных данных по разным тематикам. Возникает риск, что в пул RAG-выборки, которая будет передана в LLM для построения ответа, попадет нерелевантный документ из другой области знаний.
Еще один момент, про который многие забывают: для многих сценариев необходимо учитывать права доступа пользователя к данным, используемым ИИ для построения ответов, чтобы не раскрыть чувствительные данные или конфиденциальную информацию при посредничестве ИИ — так задача еще больше усложняется.

Поэтому, несмотря на привлекательные обещания технологии RAG, без надлежащей подготовки источников информации эффективность ИИ сильно снижается и становится непредсказуемой.

«Нельзя просто применять RAG к неструктурированным данным, лежащим абы где (например, файловое хранилище документов) — это лишает вас инструментов управления. LLM+RAG должны работать в тесной связке или даже быть интегрированными с организованной базой знаний, которая станет надежным и непротиворечивым источником актуальной информации для ИИ».

Дмитрий Лактионов, директор продуктового направления Базы знаний компании BSS

Подписывайтесь на наш Telegram Подписаться

Каким должен быть качественный фундамент для генеративного ИИ

Основная задача — правильно организовать данные, чтобы в выборке, которая подается в LLM для построения ответа, было все необходимое и ничего лишнего или неактуального. Итогом работы должен быть максимально точный ответ без «галлюцинаций». Поэтому для успешной работы RAG-технологии важно на уровне источника (базы знаний) «сужать» кластер документов, передаваемых в модель, и поддерживать их актуальность.

Таким образом, механизмы базы знаний должны гарантировать:

Возможность точно установить область (тематику), из которой будет сформирована RAG-выборка для составления ответа, учитывая как тематику вопроса, так и права доступа автора вопроса к документам в базе знаний. Диапазон формирования таких выборок может варьироваться от одного документа до целого кластера по определенной тематике.
Актуальность и согласованность информации в хранилище.

Структура вместо хаоса

Документы классифицируются по тегам, категориям, версиям. Например, разделы «Для клиентов», «Внутренние процессы», «Юридические документы» с подкатегориями. Это позволяет задавать вопросы к ИИ в рамках выбранных тематик или более сложных фильтров, что помогает точнее формировать ответы без риска галлюцинаций.

Механизмы актуализации и жизненный цикл

Устаревшие материалы автоматически архивируются и выпадают из фокуса ИИ, а новые, если это необходимо, даже проходят модерацию. Так ИИ не будет цитировать прошлогодний прайс, или отозванную лицензию, или документ, который еще не вступил в силу.

Политики доступа

RAG настраивают так, чтобы он учитывал роль пользователя и права доступа к каждой единице контента. Например: при подготовке ответа для клиента компании ИИ использует только общую информацию, а если запрос от сотрудника, то будут использованы и внутренние инструкции.

Как выбрать Базу знаний для LLM+RAG

Помимо базовых требований к структурированию и актуализации данных, о которых мы сказали выше, ключевыми параметрами выбора становятся:

Поисковой механизм. Поиск должен эффективно обрабатывать запросы как ИИ, так и пользователей.
Адаптивный интерфейс, который подстраивается под различные бизнес-сценарии и потребности пользователей.
Удобный процесс публикации. Важно организовать четкий процесс публикации материалов от наполнения Базы знаний редакторами и пользователями, до контроля и согласования публикуемых материалов.
Омниканальные статьи. Система должна поддерживать создание контента, адаптированного под разные каналы коммуникации (например, для операторов, чат-ботов, голосовых ассистентов).
Выбор используемой LLM: важно иметь возможность быстрого перехода на новые и более эффективные инструменты.
Интеграция политик доступа к информации с RAG, чтобы при генерации ответов учитывались и права доступа автора запроса к информации в Базе знаний.
Должна быть обеспечена возможность тонкой настройки промпта под определенные бизнес-задачи, так как одна и та же База знаний может использоваться для разных целей.

«Такой подход поможет организации наладить эффективный процесс управления знаниями и повысить качество предоставляемой информации и ответов на вопросы для конечных пользователей, которыми могут быть как собственные сотрудники, так и клиенты или партнеры организации», — подчеркнул Дмитрий Лактионов.

Когда внедрять RAG — сейчас или подождать?

Скорость развития ИИ-технологий поражает: задачи, на которые раньше уходили месяцы, сегодня решаются за неделю. Однако компании, откладывающие внедрение ИИ в ожидании «идеального момента», рискуют отстать навсегда — конкуренты уже автоматизируют процессы, сокращая издержки и повышая качество сервиса.

«Эти инструменты уже превращаются в стандарт для бизнеса, но их потенциал раскрывается только при условии наличия структурированной и актуальной информации. Помочь с этим может специализированная база знаний, имеющая тесную интеграцию или встроенную RAG-технологию. Без нее даже самые продвинутые модели дают неточные или противоречивые результаты».

Дмитрий Лактионов, директор продуктового направления Базы знаний компании BSS

Поэтому главная задача при интеграции генеративного ИИ — не просто внедрить технологии, а выстроить систему постоянного обновления и верификации информации, которую ИИ будет использовать в своей работе. Ведь основа интеллектуальных решений — не только алгоритмы и модели, но и качественная информация, которую они используют в качестве источника.