AI: RAG

URLs
Описание
2407.16833
Retrieval Augmented Generation or Long-Context LLMs?
RAG (Retrieval-Augmented Generation) — это подход, который объединяет поиск информации (Retrieval) во внешних базах данных и генерацию ответов (Augmented Generation) языковой моделью (LLM) на основе найденного.
Для поиска информации используется векторный поиск с эмбеддингами. Эмбеддинги превращают текст в числовые векторы. Это позволяет искать информацию не по точному совпадению слов, а по близости смысла.
Полный процесс RAG состоит из 5 шагов:
Получение запроса от пользователя.
Векторный поиск релевантной информации в базе данных (картотеке).
Формирование контекста из найденных фрагментов.
Генерация ответа LLM с учетом найденных данных и "врожденных" знаний.
Выдача ответа пользователю со ссылками на источники.
﻿
Архитектура «File-first»Иногда вместо сложной RAG-системы с базами данных используется более простой подход File-first (работа напрямую с файлами). 
﻿﻿ Когда подходит File-first:
У вас сотни или тысячи файлов (умеренный объем).
Файлы часто обновляются.
Нужна простота развертывания и скорость настройки.
Нет ресурсов или времени на построение сложных data-engineering пайплайнов.
Требуется сложный reasoning по тексту.
Нет фиксированного workflow — нужна гибкость и эксперименты.
﻿﻿ Когда File-first НЕ подходит (нужен RAG):
У вас миллионы документов.
Необходим умный семантический поиск по смыслам.
Критична задержка (latency) < 100 миллисекунд.
Остро стоит вопрос стоимости токенов (отправлять тысячи файлов в LLM дорого).
Системой пользуется очень много людей одновременно.
Есть понятный бизнес-процесс (DAG) и требуется стабильная структура архитектуры.
﻿
Long-Context LLMsLong-Context (LC) модели превосходят классический RAG по качеству ответов, так как видят документ целиком и не теряют связи. Однако RAG остается безоговорочным лидером по стоимости и скорости.
﻿﻿ Когда лучше использовать Длинный Контекст (Long-Context):
Для разовых задач с фиксированным пулом документов.
При работе с текстами, где критически важны взаимосвязи между разрозненными частями документа (например, анализ сюжета книги).
Для творческих задач и сложного анализа, где важен контекст всего файла целиком.
﻿﻿ Когда лучше использовать RAG:
Актуальность данных: Базы RAG могут обновляться в реальном времени.
Снижение галлюцинаций: Опора на четкие извлеченные факты.
Приватность: Работа с закрытыми корпоративными данными.
Оптимизация расходов: В RAG модель читает только пару релевантных абзацев, а не книгу в 1000 страниц, что радикально снижает затраты на API.
Прозрачность: RAG позволяет точно указать, из какого абзаца какого документа взят ответ.
﻿﻿ Гибридный подход (Self-Route):
Если вопрос простой, система использует дешевый RAG.
Если вопрос сложный, запрос отправляется в дорогой Long-Context.
﻿
Сложности и подводные камни RAGКачество упирается в поиск: Если поисковик или эмбеддинг-модель извлекли нерелевантные фрагменты («мусор на входе»), LLM выдаст красивый, но бесполезный ответ («мусор на выходе»).
Задержка (Latency): Процесс преобразования запроса в вектор и поиск по базе занимает время.
Конфликты данных: Если в базе лежат два документа с противоречащей информацией, модель может запутаться при генерации ответа.
﻿
Где это применяетсяRAG — это фундамент современного корпоративного ИИ.
Чат-боты техподдержки, знающие всю документацию компании.
Внутренние поисковики (Intranet) по базам знаний и регламентам.
Системы генерации образовательного контента (как в Pearson).
Персональные ИИ-ассистенты (например, боты для подбора ИИ-инструментов, ищущие релевантные рекомендации в заранее собранной базе данных автора).
﻿