AI: RAG

RAG (Retrieval-Augmented Generation) — это подход, который объединяет поиск информации (Retrieval) во внешних базах данных и генерацию ответов (Augmented Generation) языковой моделью (LLM) на основе найденного.
Для поиска информации используется векторный поиск с эмбеддингами. Эмбеддинги превращают текст в числовые векторы. Это позволяет искать информацию не по точному совпадению слов, а по близости смысла.
Полный процесс RAG состоит из 5 шагов:
    Получение запроса от пользователя.
    Векторный поиск релевантной информации в базе данных (картотеке).
    Формирование контекста из найденных фрагментов.
    Генерация ответа LLM с учетом найденных данных и "врожденных" знаний.
    Выдача ответа пользователю со ссылками на источники.


Архитектура «File-first»

Иногда вместо сложной RAG-системы с базами данных используется более простой подход File-first (работа напрямую с файлами).
Check Mark Button Когда подходит File-first:
  • У вас сотни или тысячи файлов (умеренный объем).
  • Файлы часто обновляются.
  • Нужна простота развертывания и скорость настройки.
  • Нет ресурсов или времени на построение сложных data-engineering пайплайнов.
  • Требуется сложный reasoning по тексту.
  • Нет фиксированного workflow — нужна гибкость и эксперименты.
Cross Mark Когда File-first НЕ подходит (нужен RAG):
  • У вас миллионы документов.
  • Необходим умный семантический поиск по смыслам.
  • Критична задержка (latency) < 100 миллисекунд.
  • Остро стоит вопрос стоимости токенов (отправлять тысячи файлов в LLM дорого).
  • Системой пользуется очень много людей одновременно.
  • Есть понятный бизнес-процесс (DAG) и требуется стабильная структура архитектуры.


Long-Context LLMs

Long-Context (LC) модели превосходят классический RAG по качеству ответов, так как видят документ целиком и не теряют связи. Однако RAG остается безоговорочным лидером по стоимости и скорости.
Check Mark Button Когда лучше использовать Длинный Контекст (Long-Context):
  • Для разовых задач с фиксированным пулом документов.
  • При работе с текстами, где критически важны взаимосвязи между разрозненными частями документа (например, анализ сюжета книги).
  • Для творческих задач и сложного анализа, где важен контекст всего файла целиком.
Cross Mark Когда лучше использовать RAG:
  • Актуальность данных: Базы RAG могут обновляться в реальном времени.
  • Снижение галлюцинаций: Опора на четкие извлеченные факты.
  • Приватность: Работа с закрытыми корпоративными данными.
  • Оптимизация расходов: В RAG модель читает только пару релевантных абзацев, а не книгу в 1000 страниц, что радикально снижает затраты на API.
  • Прозрачность: RAG позволяет точно указать, из какого абзаца какого документа взят ответ.
Light Bulb Гибридный подход (Self-Route):
  • Если вопрос простой, система использует дешевый RAG.
  • Если вопрос сложный, запрос отправляется в дорогой Long-Context.


Сложности и подводные камни RAG

    Качество упирается в поиск: Если поисковик или эмбеддинг-модель извлекли нерелевантные фрагменты («мусор на входе»), LLM выдаст красивый, но бесполезный ответ («мусор на выходе»).
    Задержка (Latency): Процесс преобразования запроса в вектор и поиск по базе занимает время.
    Конфликты данных: Если в базе лежат два документа с противоречащей информацией, модель может запутаться при генерации ответа.


Где это применяется

RAG — это фундамент современного корпоративного ИИ.
  • Чат-боты техподдержки, знающие всю документацию компании.
  • Внутренние поисковики (Intranet) по базам знаний и регламентам.
  • Системы генерации образовательного контента (как в Pearson).
  • Персональные ИИ-ассистенты (например, боты для подбора ИИ-инструментов, ищущие релевантные рекомендации в заранее собранной базе данных автора).