1. Понятие AI-агента: отличия от GenAI, критерии автономности и ключевые компоненты системы
Понятие AI-агента: отличия от GenAI, критерии автономности и ключевые компоненты системы
Добро пожаловать в курс «Архитектура и создание AI-агентов». Мы начинаем погружение в одну из самых быстрорастущих областей искусственного интеллекта. Если 2023 год был годом чат-ботов, то текущий этап развития технологий по праву можно назвать эрой агентных систем.
В этой статье мы разберем фундамент: что делает программу «агентом», чем это отличается от привычного ChatGPT и из каких «кирпичиков» строится такая система.
От генерации текста к выполнению действий
Долгое время взаимодействие с языковыми моделями (LLM) строилось по принципу «Запрос — Ответ». Вы задаете вопрос, модель генерирует текст. Это пассивный режим: модель не знает о внешнем мире, не может проверить факты в реальном времени и не умеет выполнять задачи за пределами диалогового окна.
AI-агент — это система, которая использует языковую модель как «мозг» для принятия решений, но при этом обладает способностью воспринимать окружающую среду, планировать действия и использовать инструменты для достижения поставленных целей.
Согласно Habr, многие компании (например, Anthropic и Hugging Face) сходятся во мнении, что агенты — это системы, где LLM динамически управляют собственными процессами и использованием инструментов.
Проще говоря: * GenAI (ChatGPT): Пишет письмо по вашему запросу. * AI-агент: Открывает почтовый клиент, находит нужный контакт, анализирует переписку, пишет письмо, отправляет его и ставит задачу в CRM.
AI-агент vs GenAI: В чем разница?
Главное отличие заключается в агентности (agency) — способности системы действовать самостоятельно. Генеративный ИИ — это лишь компонент агента, его лингвистическое ядро.
| Характеристика | GenAI (LLM) | AI-агент | | :--- | :--- | :--- | | Роль | Энциклопедия / Генератор контента | Исполнитель / Сотрудник | | Входные данные | Только промпт пользователя | Промпт + Состояние среды + Результаты инструментов | | Доступ к миру | Ограничен датой обучения (cutoff) | Реальное время (через API и поиск) | | Цикл работы | Один проход (Input Output) | Итеративный цикл (Мысль Действие Наблюдение) | | Результат | Текст, код, картинка | Выполненная работа (забронированный билет, развернутый сервер) |
Как отмечают в vc.ru, если представить ИИ-агент как самостоятельный модуль, то существуют и более сложные системы — «агентный ИИ», где множество агентов работают сообща, как оркестр.
Критерии автономности
Не любую программу, вызывающую API, можно назвать агентом. Чтобы система считалась AI-агентом, она должна соответствовать трем ключевым критериям, которые часто выделяют в индустрии (например, в документации Сбера):
> AI‑агент или агентная система — это автоматизированная система, соответствующая трем критериям: Планированию действий, Выполнению плана, Автономности. > > Habr
Архитектура: Из чего состоит агент
Классическая архитектура AI-агента состоит из четырех главных модулей. Представьте это как цифрового сотрудника.
1. Мозг (LLM)
Это ядро системы. LLM (например, GPT-4, Claude 3.5, Llama 3) отвечает за рассуждения. Она не просто генерирует текст, а анализирует задачу и выбирает, какой инструмент использовать.2. Память (Memory)
Чтобы агент был эффективным, он должен помнить контекст. Память делится на два типа: * Краткосрочная: История текущего диалога и промежуточные мысли (Chain of Thought). * Долгосрочная: База знаний (Vector Database), куда агент может сохранить информацию и извлечь её спустя дни или недели.Для поиска релевантной информации в памяти часто используется метрика косинусного сходства. Если представить запрос и документ как векторы, то сходство рассчитывается так:
где: * — степень похожести (от -1 до 1, где 1 — полная идентичность); * — вектор запроса пользователя; * — вектор документа в базе данных; * — скалярное произведение векторов; * и — длины (нормы) векторов.
Пример: Если вектор запроса (тема «финансы»), а вектор документа (статья про акции), их сходство будет близко к 1, и агент поймет, что этот документ полезен.
3. Планирование (Planning)
Агент должен уметь критиковать свои действия. Используются техники: * ReAct (Reason + Act): Модель сначала пишет «мысль» (что мне нужно сделать), затем совершает «действие», получает «наблюдение» и делает вывод. * Decomposition: Разбиение большой цели на подзадачи.4. Инструменты (Tools)
Это «руки» агента. Инструментом может быть что угодно, что имеет API: * Поисковик (Google Search, Bing). * Калькулятор или Python REPL (для точных вычислений). * Корпоративные системы (CRM, Jira, Slack).Согласно Habr, в корпоративной среде агенты не просто отвечают на вопросы, а классифицируют заявки, назначают исполнителей и инициируют процессы, работая с неструктурированными данными.
Как агент принимает решения (Пример)
Представьте, что агенту нужно выбрать лучший инструмент для задачи. Он может использовать внутреннюю логику оценки полезности. Допустим, у агента есть выбор между «Поиском в Google» и «Внутренней базой знаний».
Агент может оценить полезность инструмента () по простой взвешенной формуле:
где: * — итоговая оценка полезности инструмента; * — вес важность релевантности (насколько инструмент подходит); * — оценка релевантности (от 0 до 1); * — вес стоимости (время или деньги); * — стоимость использования инструмента.
Пример расчета: Задача: «Найти курс доллара на сегодня».
Результат: , агент выбирает Google. Это упрощенная модель того, что происходит внутри «мозга» агента при выборе Tools.
Итоги
Мы разобрали базовые понятия, необходимые для дальнейшего создания агентов. Краткое резюме:
В следующих статьях мы перейдем от теории к практике и разберем, как спроектировать простейшего агента на Python.