AI: Критерии оценки агента

Базовые характеристики

Критерий
Описание
Ризонинг
Способность выстраивать многоходовые цепочки рассуждений, делать нетривиальные выводы, понимать неочевидные зависимости и демонстрировать глубину аналитического мышления.
Работа с контекстом
Эффективное удержание информации, минимизация галлюцинаций, экономность использования и способность проносить важные детали через компактизацию.
Следование инструкциям
Способность учитывать множество вводных ограничений одновременно, внимание к мелочам и общая управляемость агента.
Агентность
Автономное выполнение задач, умелое использование доступных инструментов (или создание новых на лету) и способность доводить начатую работу до конца.


Прикладные способности

Критерий
Описание
Планирование
Анализ требований на осуществимость и отсутствие противоречий с привязкой к реалиям текущего проекта, а также адекватная декомпозиция на этапы и подзадачи.
Архитектура
Понимание и соблюдение установленных архитектурных концепций и границ системы, умение предлагать безопасные и неконфликтующие изменения.
Рефакторинг
Распознавание code smells и знание паттернов улучшения кода. Внесение аккуратных правок без поломки логики проекта и оставленных «хвостов».
Трейсинг (Расследование)
Умение системно и качественно «идти по следу» при поиске багов, уязвимостей безопасности или при проведении глубокого Code Review.


Эксплуатация и удобство

Критерий
Описание
Инструментарий
Набор интерфейсов (CLI / GUI / Web), предоставляемых пользователю, а также возможности кастомизации воркфлоу и автоматизации процессов (SDK, App Server).
Стабильность
Предсказуемость и повторяемость результатов высокого качества на однотипных или схожих задачах.
Скорость
Время «размышления», скорость генерации токенов и общая динамика внесения изменений в кодовую базу.
Экономность
Объем сжигаемых токенов, необходимых для успешного закрытия задачи, и итоговая стоимость этого процесса.
Софт-скиллы
Манера общения