Базовый практикум: Создание ИИ-агентов в n8n с нуля

1. Основы платформы n8n и базовые концепции ИИ-агентов

Основы платформы n8n и базовые концепции ИИ-агентов

Современный цифровой мир требует от нас выполнения сотен мелких, рутинных задач: скопировать данные из письма, внести их в таблицу, проанализировать отчет, отправить уведомление коллегам. Долгое время для автоматизации этих процессов требовались программисты. Сегодня ситуация изменилась благодаря визуальным платформам и искусственному интеллекту.

Что такое n8n и как он работает

n8n (читается как n-eight-n) — это мощная платформа с открытым исходным кодом для автоматизации рабочих процессов. Ее главная особенность заключается в визуальном подходе: вы не пишете сложный код, а соединяете между собой визуальные блоки на виртуальном холсте.

Основными строительными элементами платформы являются узлы (nodes). Каждый узел выполняет одну конкретную задачу.

> Узел в n8n — это как отдельный рабочий на конвейере. Один рабочий умеет только открывать коробки, другой — проверять их содержимое, третий — клеить этикетки. Передавая деталь от одного к другому, вы получаете готовый продукт.

Существует два главных типа узлов:

Триггеры (Triggers) — это стартовые точки любой автоматизации. Они постоянно «слушают» внешнюю среду и запускают процесс, когда происходит определенное событие. Например, триггером может быть получение нового сообщения в Telegram, наступление 9:00 утра или поступление платежа в CRM-системе.

Узлы действий (Action Nodes) — выполняют работу после срабатывания триггера. Они могут отправлять HTTP-запросы, форматировать текст, сохранять файлы в Google Drive или обращаться к нейросетям.

Представьте, что вы хотите автоматизировать сбор отзывов. Ваш сценарий (workflow) в n8n будет выглядеть так: узел-триггер ловит новое письмо на почте узел действия извлекает из него текст узел действия сохраняет текст в таблицу Excel.

От чат-ботов к ИИ-агентам

Когда мы говорим об искусственном интеллекте, большинство людей представляет себе классического чат-бота, такого как ChatGPT. Вы задаете вопрос — он генерирует текстовый ответ. Это полезно, но ограничено. Чат-бот заперт в окне диалога: он не может сам пойти в вашу базу данных, проверить остатки на складе и отправить письмо клиенту.

Здесь на сцену выходят ИИ-агенты (AI Agents).

ИИ-агент — это автономная программная система, которая использует большую языковую модель (LLM) в качестве своего «мозга», но при этом наделена «руками» для взаимодействия с внешним миром и «памятью» для удержания контекста.

Разница между ними фундаментальна: * Чат-бот: «Я прочитал твой текст и вот мой совет, как ответить недовольному клиенту». * ИИ-агент: «Я увидел жалобу клиента в системе, проверил историю его заказов в базе данных, понял, что посылка задержалась по вине курьера, сгенерировал письмо с извинениями, прикрепил промокод на скидку и отправил ему на почту».

!Схема архитектуры ИИ-агента в n8n

Анатомия ИИ-агента: как он принимает решения

Чтобы агент мог выполнять сложные задачи, он должен уметь планировать свои действия. В основе работы большинства современных ИИ-агентов лежит фреймворк ReAct (сокращение от Reason + Act, то есть «Рассуждение + Действие»).

Вместо того чтобы сразу выдать финальный ответ, агент вступает во внутренний диалог с самим собой. Этот цикл состоит из трех шагов:

Thought (Мысль): Агент анализирует задачу и решает, что нужно сделать прямо сейчас.

Action (Действие): Агент выбирает подходящий инструмент и использует его.

Observation (Наблюдение): Агент смотрит на результат действия инструмента и решает, достигнута ли финальная цель или нужен следующий шаг.

Рассмотрим пример. Вы даете агенту задачу: «Узнай, какая сейчас погода в Лондоне, и запиши это в мой календарь».

Внутренний процесс агента (ReAct) будет выглядеть так: Мысль:* Мне нужно узнать текущую погоду в Лондоне. Для этого я использую инструмент поиска погоды. Действие:* Вызов API погоды с параметром «Лондон». Наблюдение:* API вернуло ответ: «+15 градусов, дождь». Мысль:* Теперь мне нужно записать это в календарь пользователя. Я использую инструмент Google Calendar. Действие:* Вызов API календаря с текстом «Погода в Лондоне: +15, дождь». Наблюдение:* Событие успешно создано. Мысль:* Задача выполнена. Я могу сообщить об этом пользователю.

Инструменты (Tools): как дать агенту «руки»

Сама по себе языковая модель (LLM) умеет только предсказывать следующее слово в тексте. Чтобы она могла совершать действия (Action из цикла ReAct), ей нужны Инструменты (Tools).

Инструмент — это заранее написанная функция, которую агент может вызвать. В n8n инструменты реализованы в виде специальных узлов. Когда вы подключаете инструмент к агенту, вы передаете LLM не только саму функцию, но и ее подробное описание.

Например, вы даете агенту инструмент «Калькулятор». В описании (которое читает LLM) сказано: «Используй этот инструмент для точных математических вычислений. Передай в него математическое выражение». Когда пользователь просит умножить 145 на 34, агент понимает, что LLM часто ошибается в математике, и решает: «Я лучше передам эти цифры в инструмент Калькулятор и посмотрю на результат».

Базовые узлы для создания ИИ в n8n

Платформа n8n имеет специальный набор узлов (Advanced AI), предназначенных для сборки агентов. Чтобы собрать простейшего агента, вам понадобятся следующие компоненты:

Экономика ИИ-агентов: токены и стоимость

При проектировании агентов важно понимать, как рассчитывается стоимость их работы. Языковые модели не читают текст по буквам или словам, они разбивают его на токены.

> Токен — это фрагмент слова. В английском языке один токен равен примерно 4 символам (или 0,75 слова). В русском языке из-за особенностей кодировки одно слово может разбиваться на 2-4 токена.

Каждый раз, когда агент проходит цикл ReAct, он отправляет в LLM весь контекст: системный промпт, историю переписки (память), описания всех доступных инструментов и свои предыдущие мысли. Это называется входными токенами (Input Tokens). Ответ модели — это выходные токены (Output Tokens).

Для расчета стоимости одного запроса используется простая формула:

Где: * — итоговая стоимость запроса. * и — количество входных и выходных токенов. * и — цена за 1000 входных и выходных токенов (устанавливается провайдером, например, OpenAI).

Допустим, ваш агент получил запрос, который вместе с историей и инструментами занял 2000 входных токенов, и сгенерировал ответ на 500 выходных токенов. Если цена провайдера составляет 0,01 долл. за 1000 входных и 0,02 долл. за 1000 выходных токенов, расчет будет таким: Вход: 2000 / 1000 × 0,01 = 0,02 долл. Выход: 500 / 1000 × 0,02 = 0,01 долл. Итоговая стоимость одной итерации составит 0,03 долл.

Понимание этой математики критически важно. Если вы дадите агенту слишком много инструментов с длинными описаниями или заставите его помнить историю из 100 сообщений, каждый его шаг будет стоить дорого, а обработка займет много времени. Искусство создания ИИ-агентов в n8n заключается в поиске баланса между автономностью агента и эффективным использованием ресурсов.