1. Основы ИИ-агентов: отличие от чат-ботов и базовая архитектура
Основы ИИ-агентов: отличие от чат-ботов и базовая архитектура
Представьте, что вы заказали пиццу через чат-бота. Бот принял заказ, сказал «спасибо» — и всё. А теперь представьте, что вместо бота работает система, которая сама проверила наличие ингредиентов на складе, нашла ближайшую свободную машину курьера, рассчитала оптимальный маршрут и уведомила вас о точном времени доставки. При этом никто не писал жёсткий сценарий «если заказ №123, то делай X» — система сама решила, какие шаги предпринять. Это и есть ИИ-агент.
Почему чат-бот — это не агент
Большинство людей, слыша «искусственный интеллект для бизнеса», представляют себе чат-бота: пользователь пишет вопрос, бот ищет ответ в базе FAQ и выдаёт шаблонный ответ. Такие системы работают по детерминированной логике — заранее написанным веткам диалога. Если пользователь выходит за рамки сценария, бот либо переключает на оператора, либо выдаёт «не понимаю ваш вопрос».
ИИ-агент — это система на основе языковой модели, которая способна автономно принимать решения, выбирать инструменты для выполнения задачи и адаптироваться к нестандартным ситуациям. Ключевое слово — автономность.
> Ключевая черта, отличающая агентов от других AI-систем — это автономность. То есть мы можем говорить, что имеем дело с Агентом, если наша система обладает автономностью в решении задачи. > > habr.com
Сравнение нагляднее всего показать в таблице:
| Характеристика | Чат-бот | ИИ-агент | |---|---|---| | Логика работы | Заранее написанные сценарии | Динамическое планирование шагов | | Источник ответов | FAQ, база знаний, шаблоны | LLM + внешние инструменты и API | | Работа с неопределённостью | «Не понимаю вопрос» | Адаптируется, задаёт уточнения | | Взаимодействие с внешним миро | Нет или минимальное | API, базы данных, поисковики, файлы | | Память | Сессия или отсутствует | Краткосрочная и долгосрочная | | Степень автономности | Нулевая | От частичной до полной |
Базовая архитектура агента
Чтобы понять, как устроен агент, представьте его как цифрового сотрудника. У него есть «мозг», «руки», «память» и «инструкция от работодателя». Разберём каждый компонент.
Языковая модель (LLM) — мозг агента
Large Language Model — это нейросеть, обученная на огромных массивах текста. Она умеет понимать язык, рассуждать, генерировать текст и принимать решения. В архитектуре агента LLM выполняет роль центрального процессора: она анализирует входящий запрос, решает, что делать, и формирует ответ.
Важно: LLM сама по себе — просто генератор текста. Она становится «мозгом» агента только в связке с остальными компонентами.
Инструменты (Tools) — руки агента
Инструменты — это функции, которые агент может вызвать для взаимодействия с внешним миром. LLM не может напрямую обращаться к базам данных, отправлять письма или искать информацию в интернете — для этого нужны инструменты.
Примеры инструментов:
Когда LLM понимает, что ей нужна внешняя информация, она не просто «думает» — она вызывает инструмент, получает результат и использует его для формирования ответа.
Память (Memory) — контекст взаимодействия
У агента есть два типа памяти:
Краткосрочная память (short-term memory) — история текущего диалога. Она позволяет агенту помнить, что пользователь говорил три сообщения назад, и учитывать это в ответе. По сути, это список сообщений, который передаётся в LLM при каждом запросе.
Долгосрочная память (long-term memory) — сохранённая информация между сессиями: профиль пользователя, предыдущие обращения, предпочтения. Реализуется через базы данных или векторные хранилища.
Без памяти агент — как сотрудник с амнезией: каждый раз начинает разговор с нуля.
Системный промпт — инструкция от работодателя
Системный промпт — это текстовая инструкция, которая задаёт агенту роль, правила поведения, ограничения и инструкции по работе с инструментами. Именно системный промпт превращает «голую» языковую модель в специализированного агента.
> Системный промпт — сердце и мозг агента: именно он задаёт поведение. > > habr.com
Паттерн ReAct: как агент думает и действует
Самый распространённый архитектурный паттерн для ИИ-агентов — ReAct (Reason + Act). Он описывает цикл, по которому работает агент:
Этот цикл может повторяться несколько раз. Например, агент сначала ищет информацию о компании в базе знаний, затем делает запрос в CRM для проверки статуса клиента, и только после этого формирует ответ.
Представьте себе врача на приёме: он слушает жалобы (Reason), назначает анализы (Act), получает результаты (Observe), и на основе новых данных принимает решение о лечении или назначает дополнительные обследования. Агент работает точно так же.
От абстракции к конкретике
Понимание архитектуры — это фундамент. Но чтобы построить на нём работающий проект, нужно ответить на три практических вопроса: на чём реализовывать (стек технологий), как проектировать логику (промпты, память, инструменты) и как подключить агента к реальным системам бизнеса. Именно этому посвящены следующие статьи курса.