1. Архитектура LLM и фундаментальные принципы логики промптов
Архитектура LLM и фундаментальные принципы логики промптов
Когда вы вводите запрос в ChatGPT или Claude, вы не просто общаетесь с «умным чат-ботом». Вы инициируете сложнейший процесс внутри статистической машины, которая оперирует не смыслами в человеческом понимании, а вероятностями распределения токенов в многомерном векторном пространстве. Понимание того, что происходит «под капотом» большой языковой модели (LLM), — это не академическая прихоть, а фундамент для инженера. Без знания архитектуры Transformer и механизмов внимания (Attention) промпт-инжиниринг превращается в «шаманство» с подбором слов, тогда как профессиональный подход требует понимания того, как именно веса модели и контекстное окно влияют на итоговую генерацию.
От рекурсии к трансформерам: архитектурный сдвиг
До 2017 года доминирующей архитектурой в обработке естественного языка были рекуррентные нейронные сети (RNN) и их продвинутые версии, такие как LSTM. Проблема заключалась в последовательной обработке данных: чтобы понять десятое слово в предложении, сеть должна была «пропустить» через себя девять предыдущих. Это приводило к двум критическим проблемам: исчезновению градиента (модель забывала начало длинного предложения) и невозможности параллельных вычислений на GPU.
Революция произошла с выходом статьи «Attention is All You Need», представившей архитектуру Transformer. Главное отличие — механизм Self-Attention (самовнимание). Он позволяет модели смотреть на все слова в последовательности одновременно и определять, какие из них наиболее важны для понимания контекста конкретного слова.
Рассмотрим предложение: «Банк закрыл счет клиента, потому что он был неактивен». Кому относится местоимение «он»? Человеку это понятно из логики, но для машины это вычислительная задача. Механизм Self-Attention вычисляет математическую связь (веса) между «он» и всеми остальными словами. В правильно обученном трансформере вес связи между «он» и «счет» будет выше, чем между «он» и «банк».
Математическая репрезентация внимания
В основе механизма внимания лежат три вектора, которые создаются для каждого входного токена:
Формула расчета внимания выглядит следующим образом:
Здесь — это скалярное произведение запроса и ключа, которое определяет степень «внимания» одного токена к другому. Деление на (где — размерность векторов ключей) необходимо для масштабирования, чтобы аргументы функции softmax не становились слишком большими, что могло бы привести к очень малым градиентам. Функция softmax превращает полученные веса в вероятности, сумма которых равна 1. Наконец, результат умножается на вектор значений , формируя итоговое представление токена с учетом контекста.
Токенизация: как текст превращается в числа
LLM не читают буквы. Первым этапом обработки является токенизация — процесс разбиения текста на фрагменты (токены). Это могут быть целые слова, части слов или даже отдельные символы. Современные модели, такие как GPT-4, используют алгоритм Byte Pair Encoding (BPE).
Инженерная значимость токенизации проявляется в нескольких аспектах:
> Важный нюанс: Модель воспринимает токены как индексы в огромной таблице эмбеддингов. Эмбеддинг — это вектор в многомерном пространстве (например, 1536 измерений для text-embedding-3-small), где семантически близкие понятия находятся рядом. Слово «король» в этом пространстве будет находиться на определенном расстоянии от слова «королева», и это расстояние будет математически сопоставимо с расстоянием между «мужчина» и «женщина».
Логика предсказания: Next Token Prediction
Несмотря на кажущийся интеллект, фундаментальная задача LLM — это предсказание следующего наиболее вероятного токена. Это процесс авторегрессии. Модель генерирует один токен, добавляет его к входной последовательности и снова запускает цикл генерации для следующего токена.
На этот процесс влияют два ключевых параметра, которые часто доступны в настройках LLM Ops платформ:
Структура промпта: от хаоса к системе
Промпт — это не просто вопрос, это конфигурационный файл для статистической машины. Чтобы модель выдала качественный результат, инженер должен структурировать входные данные. Базовая логика промпта строится на четырех компонентах:
Пример архитектурно обоснованного промпта
Плохой промпт:
Напиши письмо клиенту об ошибке в системе.
Хороший промпт:
Почему второй вариант работает лучше? Он сужает «вероятностное облако» модели. Указывая роль, мы заставляем модель активировать те веса и паттерны, которые соответствуют технической документации и деловой переписке, отсекая пласты данных из художественной литературы или чатов.
Системные инструкции: фундамент поведения
В архитектуре современных чат-интерфейсов (Chat Completions API) выделяют три типа сообщений: system, user и assistant.
System Message — это «конституция» для модели на время сессии. В отличие от сообщений пользователя, системная инструкция имеет более высокий приоритет (хотя это зависит от конкретной модели и метода обучения RLHF — Reinforcement Learning from Human Feedback). В системном промпте задаются глобальные правила безопасности, стиль общения и ограничения.
Например, если вы строите медицинского ассистента, в системном промпте ОБЯЗАТЕЛЬНО должно быть указано:
"Ты — ассистент врача. Ты никогда не ставишь диагнозы самостоятельно и всегда добавляешь дисклеймер о необходимости очной консультации."
Это критически важно для LLM Ops, так как системные инструкции позволяют стандартизировать поведение модели в промышленном масштабе, не заставляя пользователя каждый раз вводить длинные преамбулы.
Ограничения архитектуры: почему возникают галлюцинации
Галлюцинации — это не «ошибка» в привычном понимании программирования, это побочный эффект архитектуры предсказания следующего токена. У модели нет доступа к реальности, только к статистическим связям между токенами.
Существует три основные причины галлюцинаций:
Для инженера важно понимать: LLM всегда будет пытаться дать ответ, даже если она его не знает. Наша задача в рамках курса — научиться выстраивать такие архитектурные надстройки (например, RAG — Retrieval-Augmented Generation), которые будут подпитывать модель внешними фактами, снижая нагрузку на ее «галлюцинирующую» память.
Контекстное окно и дефицит внимания
Хотя современные модели заявляют об огромных контекстных окнах (до 1-2 млн токенов), существует феномен «Lost in the Middle» (потеря в середине). Исследования показывают, что модели лучше всего извлекают информацию из самого начала и самого конца промпта. Информация, расположенная в середине длинного контекста, часто игнорируется или обрабатывается с меньшим весом внимания.
В LLM Ops это диктует правила подготовки данных:
Эволюция от Prompt Engineering к Prompt Programming
Мы переходим от этапа «подбора слов» к этапу «программирования поведения». Это включает в себя использование формальных структур внутри промптов. Например, использование XML-тегов для разделения блоков информации стало стандартом для работы с моделями семейства Claude (Anthropic), но отлично работает и с GPT.
Такая структура помогает механизму внимания модели четко разграничить, где заканчивается инструкция и начинаются данные. Это снижает риск того, что модель воспримет текст из контекста как новую команду (атака типа Prompt Injection).
Инженерный подход к выбору модели
В рамках LLM Ops выбор архитектуры (размера модели) — это всегда компромисс между качеством, скоростью и стоимостью.
Понимание этих различий позволяет инженеру правильно планировать инфраструктуру мониторинга и API-шлюзы, о которых мы будем говорить в следующих модулях. Если ваша задача — простая классификация текста, использование тяжелой MoE-модели будет архитектурной ошибкой. И наоборот, для сложного логического вывода (Chain-of-Thought) маленькие модели окажутся бесполезными.
Замыкание логического цикла
Архитектура LLM определяет правила игры. Мы работаем с системой, которая не имеет логического модуля в классическом понимании, но имитирует его через колоссальную статистическую мощность. Фундаментальный принцип логики промптов заключается в том, чтобы максимально сузить пространство вероятных ответов, направив «внимание» модели в нужное русло с помощью структуры, контекста и системных ограничений. В следующей главе мы перейдем к продвинутым техникам, таким как Few-Shot и Chain-of-Thought, которые позволяют буквально «программировать» шаги рассуждения модели, заставляя её преодолевать ограничения стандартного предсказания следующего токена.