- Она предсказывает следующее наиболее вероятное слово на основе паттернов в данных, а не "думает" или "понимает" в человеческом смысле.
- . Каждый новый запрос обрабатывается изолированно, если вы не передаете историю диалога в контексте.
- . Она не знает о событиях, произошедших после этой даты, без доступа к внешним инструментам.
- . Всегда проверяйте критически важные факты.
- каждый новый ответ на один и тот же промпт будет другим, но в рамках обозначенных требований.
- чем чётче обозначены требования и ограничения, тем меньше у LLM поводов импровизировать.
- Промпт, идеально работающий с одной LLM, может оказаться неэффективным для другой из-за различий в архитектуре и обучающих данных.
- Качество результата напрямую зависит от экспертизы. Без продуманного запроса и продуманной оценки ответа LLM лишь масштабирует ошибки и неведение.
- Чтобы работать с AI продуктивно, нужно постоянно экспериментировать и вырабатывать интуицию, какие задачи можно полностью делегировать модели, а какие требуют строгого человеческого контроля.
Генерация ответа происходит в два этапа:
- Обработка всего входного промта параллельно.
- Быстрый этап.
- Дешёвый.
- Последовательная генерация ответа токен за токеном.
- Каждое следующее слово зависит от предыдущих.
- Медленный этап.
- Может быть дороже в 3-5 раз.
- Встроенный механизм оптимизации вычислений.
- При генерации длинного ответа модель сохраняет промежуточные математические вычисления для уже обработанных токенов.
- Ускоряет Decode и экономит ресурсы.
- Сохранение на стороне сервера больших объемов неизменяемых данных, которые часто отправляются в запросах.
- Обычно документация, системные инструкции, описания инструментов и MCP.
- Чтобы сработало, данные нужно размещать строго в самом начале промпта.
- Позволяет снизить стоимость Prefill до 70%.
- Интерфейс для асинхронного выполнения массовых задач, не требующих ответа в реальном времени.
- Большой массив независимых запросов собирается в один пул и отправляется на сервер для фоновой обработки.
- Провайдеры выполняют такие задачи за счет свободных мощностей.
- Ожидание обработки сильно дольше, но предоставляется скидка до 50%.
- Генерирует текст, получает текст.
- Нет памяти между запросами.
- Используется для простого вопрос-ответ, генерации текста.
- Добавляется пошаговое мышление и техники самопроверки.
- Используется для сложных логических задач (математика, программирование).
- Автономная система, работающая в циклах:
- (наблюдение) → (рассуждение) → (действие).
- Имеет доступ к (внешние API, файловая система, выполнение кода).
- Требует (управление состоянием) для сохранения контекста между шагами.
- Может выполнить полный цикл: найти баг, исправить код, запустить тесты, создать коммит и запустить деплоймент.