1. Основы промпт-инженерии: как «думают» модели и почему промты работают
Основы промпт-инженерии: как «думают» модели и почему промты работают
Промпт-инженерия начинается не с «волшебных слов», а с понимания того, что именно получает модель на вход, как она преобразует этот вход и почему одни формулировки стабильно ведут к нужному результату, а другие — к случайному. Это особенно важно, если вы хотите уверенно переключаться между разными системами: ChatGPT, Claude, Grok, DeepSeek (текст), MidJourney и Seedream (изображения), Kling, Veo, Sora и другие (видео).
Что такое «модель» в генеративном ИИ
Генеративная модель — это программа, обученная на огромном количестве примеров, чтобы:
Важно: модель не «понимает» мир как человек. Она строит ответы как наиболее вероятное продолжение на основе входных данных и статистических закономерностей.
> Ключевая идея промптинга: вы не «объясняете модели смысл», а задаёте условия, по которым ей проще сгенерировать именно нужное продолжение.
Два базовых способа генерации: текст и визуальные модели
Разные продукты используют разные внутренние подходы, но для промптинга полезно держать в голове две «семьи».
Текстовые модели: предсказание следующего фрагмента
Большинство современных LLM (ChatGPT, Claude, Grok, DeepSeek) работают как авторегрессионные модели: они генерируют ответ по шагам, добавляя фрагмент за фрагментом.
Упрощённо это выглядит так:
Это можно записать короткой формулой:
Где:
Эта формула полезна не для математики, а для мышления: модель в каждый момент выбирает наиболее подходящее продолжение из множества вариантов.
Для понимания принципов часто ссылаются на архитектуру Transformer, на которой основано большинство LLM: Attention Is All You Need.
Изображения и видео: генерация через латентное представление
Многие визуальные генераторы (изображения и видео) используют диффузионные или близкие подходы: генерация идёт не «словами», а через постепенное построение визуального сигнала.
Типичная идея диффузии:
Классический источник по теме: Denoising Diffusion Probabilistic Models.
Для промптинга из этого следуют практические выводы:
Токены, «латенты» и почему формулировки имеют значение
Токены в тексте
LLM видит ваш запрос не как «фразы», а как последовательность токенов. Из-за этого:
Латентное пространство в изображениях и видео
Визуальные модели часто работают во внутреннем «сжатом» представлении (латентах). Поэтому:
Контекст: что именно «видит» модель
Окно контекста
У модели есть ограничение на объём текста, который она учитывает одновременно. Это называют окном контекста. На практике это означает:
Иерархия инструкций
Во многих чат-системах есть несколько уровней инструкций: системные настройки, правила продукта, сообщения пользователя, файлы/инструменты. Конкретные названия уровней зависят от платформы, но общий принцип такой:
Понимание этого защищает от распространённой ошибки: пытаться «перебить» ограничение продукта фразой в промпте. Чаще это просто ухудшает ответ.
Почему модели ошибаются и «галлюцинируют»
Галлюцинация — это правдоподобный, но неверный ответ. Это происходит не потому, что модель «врёт», а потому что её задача — генерировать правдоподобное продолжение, а не проверять факты.
Типовые причины:
Практический вывод для промптинга:
Почему «температура», seed и другие параметры меняют результат
Генерация почти всегда содержит элемент случайности.
В тексте
Частые регуляторы:
В изображениях и видео
Частые регуляторы:
Называться и работать эти параметры могут по-разному в MidJourney, Kling, Veo, Sora и других, но смысл обычно близок.
Почему промты работают: механизм «условий»
Промпт работает, потому что становится частью контекста, от которого зависит генерация.
Удобная ментальная модель:
!Схема показывает, что промпт задаёт условия, а модель выбирает один из возможных вариантов генерации
Анатомия хорошего промпта: универсальный каркас
Ниже — каркас, который работает почти везде (текст, изображения, видео), меняется только детализация.
Цель
Контекст
Ограничения
Формат результата
Критерии качества
Пример (опционально)
Если вы дадите пример желаемого формата, модель обычно повторит структуру точнее.
Мини-примеры, чтобы почувствовать принцип
Текстовая задача: вместо «сделай красиво»
Плохо:
Лучше:
Визуальная задача: вместо «супер-крутое кино»
Плохо:
Лучше:
Даже если конкретный движок по-разному интерпретирует детали, такой промпт задаёт композицию, движение, сцену, стиль и запреты.
Как мыслить как промпт-инженер: цикл итераций
Промптинг — это не одно идеальное сообщение, а управляемый цикл:
Если запомнить одну привычку, то это она: исправляйте не «вкус», а причину.
Что будет дальше в курсе
В следующих материалах мы соберём практический «конструктор промптов»:
Для ориентира по базовым принципам написания запросов полезно сверяться с руководствами провайдеров: