Мастерство генерации реалистичных изображений и промт-инжиниринг

1. Введение в генеративные нейросети: выбор инструмента и первые шаги

Введение в генеративные нейросети: выбор инструмента и первые шаги

Добро пожаловать на курс «Мастерство генерации реалистичных изображений и промт-инжиниринг». Вы стоите на пороге новой эры цифрового творчества. Если раньше для создания фотореалистичного изображения требовались годы обучения фотографии или рисованию, дорогая техника и часы постобработки, то сегодня этот путь сократился до нескольких секунд и правильного набора слов.

В этой первой статье мы разберем фундамент: как работают эти технологии, какой инструмент выбрать именно вам и как сделать первый шаг от «просто картинки» к «произведению искусства».

Магия или математика? Как это работает

Прежде чем нажимать кнопки, важно понять, что происходит «под капотом». Современные генераторы изображений (такие как Midjourney, Stable Diffusion, DALL-E 3) основаны на принципе диффузионных моделей.

Представьте, что вы берете четкую фотографию кота и начинаете постепенно добавлять на нее «цифровой шум» (случайные пиксели, похожие на помехи старого телевизора). Если делать это долго, фотография превратится в хаотичное месиво из цветных точек, где кота уже не разглядеть. Нейросеть обучалась делать обратное действие: она берет абсолютный хаос (шум) и шаг за шагом «очищает» его, пытаясь найти в нем образы, которые вы запросили.

!Процесс превращения шума в изображение через этапы денойзинга

Когда вы пишете запрос (промт), вы даете нейросети карту, по которой она ищет путь от хаоса к порядку. Чем точнее карта, тем лучше результат.

Обзор «Большой тройки»: выбор инструмента

На рынке существует множество нейросетей, но для профессиональной и качественной генерации реалистичных изображений выделяют трех лидеров. Выбор зависит от ваших целей, бюджета и технической подготовки.

1. Midjourney

Это, пожалуй, самый популярный инструмент для тех, кто ищет максимальную художественность и фотореализм «из коробки».

* Плюсы: Невероятное качество света и текстур, понимание стилей, простота получения красивого результата без сложных настроек. * Минусы: Работает только через мессенджер Discord (что многим неудобно), платный доступ (нет бесплатной пробной версии), меньший контроль над композицией по сравнению со Stable Diffusion. * Для кого: Для дизайнеров, арт-директоров и тех, кому нужен «вау-эффект» с минимальными усилиями.

2. Stable Diffusion

Самый гибкий и мощный инструмент, который можно установить на свой компьютер.

* Плюсы: Полный контроль над генерацией, возможность дообучать модель на своих лицах или объектах, отсутствие цензуры, бесплатно (если у вас мощный ПК). * Минусы: Высокий порог входа (нужно разбираться в настройках), требует мощной видеокарты, сложный интерфейс. * Для кого: Для гиков, профессионалов, желающих контролировать каждый пиксель, и тех, кто хочет генерировать изображения без ограничений по количеству.

3. DALL-E 3 (внутри ChatGPT)

Самый «умный» генератор с точки зрения понимания человеческого языка.

* Плюсы: Понимает сложные длинные запросы, встроен в ChatGPT, отлично рисует текст и сложные сцены с множеством персонажей. * Минусы: Часто «додумывает» за пользователя, имеет строгую цензуру, дает меньше настроек стиля (изображения часто выглядят слишком «цифровыми»). * Для кого: Для новичков, маркетологов и тех, кому нужно быстро визуализировать сложную идею.

Ниже приведена сравнительная таблица для быстрого выбора:

Первые шаги: Анатомия промта

Главный навык в работе с нейросетями — это промт-инжиниринг. Промт (от англ. prompt — подсказка) — это текстовое описание того, что вы хотите увидеть.

Многие новички пишут просто: «Кот». Нейросеть выдаст кота, но это будет случайный кот. Чтобы получить реалистичное фото, нужно мыслить как фотограф. Давайте выразим формулу идеального промта математически:

Где — итоговый промт (Prompt), — субъект (Subject, кто или что?), — действие (Action, что делает?), — контекст (Context, где? какое освещение? детали), — технические параметры (Technical, стиль, камера, разрешение).

Разбор компонентов формулы

Субъект (): Не просто «женщина», а «молодая женщина 25 лет с рыжими кудрявыми волосами».

Действие (): Не просто «стоит», а «сидит в кафе и читает книгу, улыбаясь».

Контекст (): Окружение и свет играют решающую роль в реализме. «Уютное кафе в Париже, дождь за окном, мягкий теплый свет от лампы».

Технические параметры (): Это «заклинания», которые превращают рисунок в фото. Используйте термины: cinematic lighting (кинематографичное освещение), 8k, highly detailed (высокая детализация), shot on 35mm lens (снято на 35мм объектив), photorealistic (фотореалистично).

!Сравнение результатов генерации по простому и сложному промту

Практика: От идеи к изображению

Давайте попробуем составить наш первый профессиональный промт, используя формулу выше.

Задача: Сгенерировать портрет пожилого моряка.

S (Субъект): Пожилой моряк с густой седой бородой, обветренное лицо, глубокие морщины, носит грубый шерстяной свитер.

A (Действие): Смотрит вдаль, стоит на палубе корабля.

C (Контекст): Штормовое море на фоне, пасмурное небо, брызги соленой воды в воздухе, драматичное освещение.

T (Техника): Портретная фотография, снято на Canon 5D, фокус на глазах, высокая детализация кожи, мрачная атмосфера.

Итоговый промт (на английском, так как большинство сетей понимают его лучше): Portrait of an old sailor with a thick grey beard and weathered face, wearing a rough wool sweater, looking into the distance on a ship deck. Stormy sea background, overcast sky, salt water sprays, dramatic lighting. Portrait photography, shot on Canon 5D, sharp focus on eyes, highly detailed skin texture, moody atmosphere.

> «Нейросеть — это не телепат. Она не знает, что у вас в голове, она знает только то, что вы написали в строке ввода». — Известная мудрость промт-инженеров.

Распространенные ошибки новичков

Начиная свой путь, избегайте этих ловушек:

* Слишком короткие запросы. «Красивая девушка» — это слишком абстрактно. Красивая для кого? В каком стиле? * Противоречия. Не пишите «солнечный день» и «ночное небо» одновременно, если это не сюрреализм. * Перегрузка. Не пытайтесь впихнуть в одну картинку «космос, динозавров, средневековый замок и киберпанк». Нейросеть запутается. * Игнорирование стилей. Если вы не укажете «фото», сеть может нарисовать мультик или картину маслом.

Заключение

Сегодня мы разобрались с тем, как работают генеративные сети, выбрали инструменты и изучили формулу базового промта. Это только начало. В следующих статьях мы углубимся в настройки камеры, работу со светом и композицией, а также научимся исправлять ошибки генерации.

Ваше домашнее задание — зарегистрироваться в выбранной нейросети (Midjourney, DALL-E или установить Stable Diffusion) и попробовать сгенерировать одно изображение, используя формулу .

2. Анатомия идеального промта: структура, ключевые слова и модификаторы стиля

Анатомия идеального промта: структура, ключевые слова и модификаторы стиля

В предыдущей статье мы познакомились с базовой формулой промта . Вы уже знаете, что для получения изображения нужно описать субъект, действие, контекст и технические параметры. Однако, чтобы перейти от уровня «просто картинка» к уровню «фотореалистичный шедевр», нам нужно углубиться в детали.

Сегодня мы разберем промт на атомы. Мы изучим, как порядок слов влияет на результат, какие модификаторы превращают пластиковую 3D-модель в живую фотографию и как управлять вниманием нейросети.

Иерархия токенов: почему порядок имеет значение

Нейросети читают ваш запрос слева направо, подобно тому, как мы читаем книгу. Но их внимание работает иначе. Первые слова в промте имеют наибольший «вес» (значимость), а последние — наименьший. Это можно описать концептуальной формулой распределения внимания:

Где — вес (значимость) конкретного слова, а — порядковый номер слова в предложении. Чем больше (чем дальше слово стоит от начала), тем меньше его влияние на итоговый результат.

Практическое правило: Самое важное (кто или что изображено) всегда ставьте в начало. Стиль и освещение — в середину. Технические параметры (разрешение, модель камеры) — в конец.

!Схема приоритетности слов в промте: от самого важного к вспомогательному

Словарь реализма: ключевые модификаторы

Чтобы нейросеть перестала рисовать «мультики» и начала выдавать фотореализм, нужно говорить с ней на языке фотографов. Рассмотрим основные категории модификаторов.

1. Освещение (Lighting)

Свет — это кисть фотографа. Без указания света нейросеть выберет усредненное, скучное освещение.

* Golden Hour (Золотой час): Теплый, мягкий, золотистый свет (рассвет или закат). Идеально для портретов и пейзажей. * Blue Hour (Синий час): Холодный, сумеречный свет перед восходом или после заката. Создает меланхоличную атмосферу. * Volumetric Lighting (Объемный свет): Эффект, когда лучи света видны в воздухе (пыль, туман). Добавляет эпичности и глубины. * Cinematic Lighting (Кинематографичный свет): Драматичный контраст, часто используется схема с двумя источниками света (теплый и холодный). * Rembrandt Lighting (Рембрандтовский свет): Классическая схема освещения лица с характерным треугольником света на щеке.

2. Тип съемки и оптика (Camera & Lens)

Если вы напишете просто «фото», нейросеть может сымитировать снимок на телефон. Уточните оборудование:

* Shot on 35mm: Классическая пленочная фотография. Дает естественную зернистость и реалистичные цвета. * Macro photography: Макросъемка. Для насекомых, глаз, капель росы. * Wide angle (Широкий угол): Для архитектуры и масштабных пейзажей. Может искажать пропорции лиц. * Telephoto lens (Телеобъектив): Сжимает перспективу, делает фон ближе к объекту. Отлично для портретов издалека.

3. Фокус и глубина резкости (Aperture & Focus)

Управление размытием фона — ключевой признак профессионального фото.

* Bokeh (Боке): Красивое художественное размытие фона. * Depth of Field (Глубина резкости): Shallow depth of field (Малая глубина резкости):* Объект резок, фон сильно размыт (f/1.8). Deep depth of field (Большая глубина резкости):* Все в фокусе, от переднего плана до горизонта (f/16).

4. Текстура и детализация (Texture & Detail)

Чтобы кожа не выглядела как гладкий пластик, используйте:

* Skin texture / Pores: Текстура кожи, поры. * Imperfections: Несовершенства (родинки, шрамы, веснушки). Реализм кроется в несовершенстве. * Detailed fabric: Детализированная ткань.

Математика реализма: формула качества

Давайте соберем эти знания в формулу, которая поможет вам проверять свои промты перед генерацией:

Где: * — итоговая реалистичность изображения (Image Realism). * — детализация материалов и поверхностей (Textures). Вы должны описать, из чего сделан объект (кожа, металл, дерево). * — физически корректное освещение (Lighting). Вы должны указать источник и характер света. * — оптические характеристики (Optics). Вы должны указать параметры камеры, фокус и линзы.

Если в вашем промте отсутствует хотя бы одно слагаемое из правой части уравнения, будет низким.

Управление весами и негативные промты

Иногда нейросеть слишком буквально воспринимает одно слово и игнорирует другое. Или добавляет то, чего вы не просили.

Веса (Weights)

Вы можете принудительно указать нейросети, что одно слово важнее другого. Синтаксис зависит от нейросети, но логика везде одна.

* Midjourney: Использует двойное двоеточие ::. Например, cat::2 dog::1 означает, что кота должно быть в два раза «больше» или он важнее собаки. * Stable Diffusion: Использует скобки. (cat:1.5) усиливает слово, [cat:0.8] ослабляет.

Негативный промт (Negative Prompt)

Это то, чего НЕ должно быть на изображении. Это фильтр, отсекающий лишнее.

В Midjourney это параметр --no, в Stable Diffusion — отдельное поле ввода.

Что писать в негативный промт для реализма: > cartoon, illustration, 3d render, painting, drawing, bad anatomy, disfigured, blurry, low quality, watermark, text, signature, ugly, deformed hands, extra fingers.

Практика: Эволюция промта

Давайте проследим, как меняется изображение при добавлении слоев детализации.

Уровень 1 (Новичок): A girl in the city. Результат: Скучная картинка, возможно рисунок, лицо может быть искажено, фон случайный.

Уровень 2 (Любитель): Portrait of a beautiful girl in New York city, evening, realistic photo. Результат: Уже лучше, похоже на фото, но свет плоский, кожа слишком гладкая.

Уровень 3 (Профессионал): Close-up portrait of a 25-year-old woman with freckles, standing on a busy New York street at night. Neon lights reflecting in her eyes. Bokeh background with yellow taxi cabs. Shot on Sony A7R IV, 85mm lens f/1.4. Cinematic lighting, highly detailed skin texture, hyperrealistic, 8k.

!Сравнение результатов генерации: от простого промта к профессиональному

Чек-лист перед нажатием кнопки «Generate»

Прежде чем потратить кредиты или время на генерацию, проверьте свой промт по этому списку:

Субъект: Четко ли я описал, кто на фото? Указал ли возраст, эмоцию, одежду?

Среда: Понятно ли, где происходит действие?

Свет: Указал ли я время суток или тип освещения?

Камера: Есть ли слова-триггеры фотореализма (mm, ISO, camera model)?

Стиль: Не забыл ли я исключить рисунки и 3D (через слова photorealistic или негативный промт)?

Заключение

Идеальный промт — это не набор случайных красивых слов, а структурированная команда. Вы — режиссер, оператор и осветитель в одном лице. Нейросеть — это лишь исполнитель, который ждет ваших точных указаний.

В следующей статье мы перейдем к продвинутым техникам композиции и научимся управлять положением объектов в кадре, чтобы создавать сложные сюжетные сцены.

3. Достижение фотореализма: настройки камеры, освещение, текстуры и детализация

Достижение фотореализма: настройки камеры, освещение, текстуры и детализация

Мы продолжаем наш курс «Мастерство генерации реалистичных изображений и промт-инжиниринг». В прошлых статьях мы научились строить базовые запросы и поняли важность порядка слов. Теперь пришло время превратить вашу нейросеть в профессиональную фотостудию.

Многие пользователи останавливаются на слове photorealistic, надеясь, что искусственный интеллект сделает всё сам. Но настоящий фотореализм кроется не в одном слове, а в понимании физики света, оптики и свойств материалов. Сегодня мы научимся управлять виртуальной камерой так, как это делают голливудские операторы.

Виртуальная оптика: управляем объективом

Нейросети обучены на миллионах фотографий, и они прекрасно знают, как меняется изображение в зависимости от объектива. Указав правильные параметры, вы мгновенно меняете восприятие кадра.

Фокусное расстояние (Focal Length)

Это один из самых мощных инструментов влияния на композицию и геометрию лица. В промт-инжиниринге мы используем миллиметры (mm) для обозначения угла обзора.

Широкий угол (14mm – 24mm):

* Эффект: Захватывает много пространства, визуально растягивает объекты на переднем плане. Идеально для пейзажей, архитектуры и динамичных сцен. * Опасность: При съемке портретов сильно искажает лицо (делает нос огромным). * Промт: 16mm lens, wide angle, fisheye.

Стандартный взгляд (35mm – 50mm):

* Эффект: Максимально близко к тому, как видит человеческий глаз. Универсальный выбор для уличной фотографии и ростовых портретов. * Промт: 35mm lens, 50mm lens.

Телеобъектив (85mm – 200mm):

* Эффект: «Сплющивает» перспективу, фон кажется ближе к объекту. Это «золотой стандарт» для портретов, так как делает черты лица пропорциональными и красивыми. * Промт: 85mm lens, 100mm macro, telephoto.

!Влияние фокусного расстояния на геометрию лица и восприятие фона

Диафрагма (Aperture) и Боке

Диафрагма обозначается числом f/. Она отвечает за то, насколько размытым будет фон (глубина резкости).

Математически зависимость глубины резкости () от диафрагменного числа () можно выразить упрощенной концепцией:

Где — глубина резкости (Depth of Field), — диафрагменное число (например, 1.8 или 16), а — коэффициент, зависящий от фокусного расстояния и дистанции до объекта. Чем меньше число , тем меньше глубина резкости (сильнее размытие).

f/1.2 – f/2.8: Сильное размытие фона (bokeh*). Фокус только на глазах или объекте. Используйте для портретов. * f/8 – f/16: Всё в фокусе. Фон четкий. Используйте для пейзажей и интерьеров.

Пример промта: shot on 85mm lens, f/1.8, creamy bokeh (снято на 85мм, диафрагма 1.8, мягкое боке).

Свет: физика атмосферы

Свет определяет настроение. Простого cinematic lighting часто недостаточно. Давайте разберем конкретные схемы.

Направление света

* Front lighting (Фронтальный свет): Освещает лицо прямо. Скрывает текстуру кожи, делает лицо плоским. Похоже на фото со вспышкой «в лоб». * Side lighting / Chiaroscuro (Боковой свет / Кьяроскуро): Свет падает сбоку, создавая глубокие тени на противоположной стороне. Подчеркивает объем и драматизм. Backlighting (Контровой свет): Источник света за объектом. Создает сияющий контур (rim light*) вокруг силуэта, отделяя его от фона.

Температура и качество

Для фотореализма важно смешивать температуры. Сцена, где есть только холодный или только теплый свет, выглядит искусственно.

* Color contrast: Попробуйте сочетать warm key light (теплый рисующий свет) и cool fill light (холодный заполняющий свет). * Hard light (Жесткий свет): Четкие, резкие тени. Как в полдень на солнце. Дает ощущение реальности и документальности. * Soft light (Мягкий свет): Рассеянный свет без резких теней. Как в пасмурную погоду или из софтбокса. Идеализирует внешность.

Текстуры и детализация: эффект присутствия

Главный враг реализма в AI — «пластиковая» кожа и слишком чистые поверхности. В компьютерной графике существует понятие PBR (Physically Based Rendering) — физически корректный рендеринг. Мы можем использовать термины из этой сферы в промтах.

Кожа и органика

Чтобы кожа светилась изнутри, как настоящая, используйте термин Subsurface Scattering (подповерхностное рассеивание). Это эффект, когда свет проникает сквозь полупрозрачную кожу, рассеивается там и выходит обратно (вспомните, как светятся уши на солнце).

Формула детализированного портрета:

Где — детализация портрета, — текстура кожи (pores, skin texture), — несовершенства (freckles, moles, scars), — подповерхностное рассеивание (subsurface scattering).

Ключевые слова для кожи: * visible pores (видимые поры) * skin fuzz / peach fuzz (пушок на коже — мощнейший маркер реализма) * hyper-detailed iris (детализированная радужка глаза) * natural imperfections (естественные несовершенства)

Материалы окружения

Не пишите просто «стол». Пишите материал и его состояние: * scratched wood (поцарапанное дерево) * fingerprints on glass (отпечатки пальцев на стекле) * rusted metal (ржавый металл) * worn fabric (поношенная ткань)

> «Идеальность — признак искусственности. Реальный мир полон пыли, царапин и хаоса. Добавьте хаос в промт, чтобы получить порядок реальности».

Технические параметры пленки и сенсора

Последний штрих — имитация самого носителя изображения.

ISO и зерно:

Цифровой шум или пленочное зерно делают картинку живой. Идеально гладкая картинка подсознательно считывается как 3D-рендер. Промт:* film grain, high ISO, noise, Kodak Portra 400 (популярная пленка с приятными цветами).

Скорость затвора (Shutter Speed):

* long exposure (длинная выдержка): размывает движение (вода превращается в туман, фары машин в линии). * high shutter speed / action shot: замораживает капли воды или бегущего человека в резкости.

Практический пример: собираем всё вместе

Давайте улучшим промт, используя знания из этой статьи.

Базовая идея: Девушка под дождем.

Промт новичка: Girl in the rain, realistic.

Промт мастера (с применением оптики, света и текстур): Cinematic shot of a young woman standing in heavy rain at night. Shot on 85mm lens, f/1.8 for shallow depth of field. Focus on eyes. Wet hair, water droplets on face, goosebumps on skin, subsurface scattering. Lighting: neon blue backlight from a shop sign and warm street lamp key light. High contrast, film grain, shot on Fujifilm XT-4.

Разбор изменений:

* Оптика: 85mm, f/1.8 — мы задали портретный вид и размыли фон. * Детали: water droplets, goosebumps (мурашки) — физиологические реакции и текстуры. * Свет: Смешали синий неон и теплый фонарь для объема. * Камера: Добавили зерно и конкретную модель камеры для цветопередачи.

Заключение

Фотореализм — это сумма множества микродеталей. Управляя фокусным расстоянием, вы управляете геометрией. Управляя диафрагмой — вниманием зрителя. Добавляя текстуры и несовершенства, вы вдыхаете жизнь в пиксели.

Ваше домашнее задание: сгенерировать два портрета одного и того же персонажа. Первый — широкоугольный (16-24mm) с жестким светом. Второй — телеобъектив (85-100mm) с мягким светом и эффектом боке. Сравните, как меняется восприятие человека.

4. Продвинутые техники управления: параметры, веса и негативные промты

Продвинутые техники управления: параметры, веса и негативные промты

Мы прошли большой путь: от выбора нейросети до создания фотореалистичных текстур и настройки виртуальной камеры. Теперь вы умеете описывать что вы хотите увидеть. Но что делать, если нейросеть вас не слушается? Если она упорно рисует собаку вместо кошки, обрезает голову персонажу или добавляет лишние пальцы?

В этой статье мы переходим от «рисования словами» к «программированию изображений». Мы разберем инструменты точного контроля: веса токенов, негативные промты и технические параметры генерации. Это те самые рычаги, которые отличают новичка, надеющегося на удачу, от профессионала, получающего предсказуемый результат.

Веса токенов: управление вниманием нейросети

Когда вы пишете промт «Девушка в красном платье гуляет по лесу», нейросеть пытается уделить внимание каждому слову. Но иногда одно слово «перекрикивает» другие. Например, слово «красный» может быть настолько сильным, что нейросеть сделает красным не только платье, но и лес, и небо.

Чтобы этого избежать, мы используем веса (weights). Это числовые коэффициенты, которые говорят алгоритму, насколько важен тот или иной элемент.

Математика внимания

Процесс распределения внимания можно представить следующей формулой:

Где: * — итоговое внимание нейросети к образу (Total Attention). * — знак суммы, означающий сложение всех элементов. * — конкретный токен или слово в промте (Token). * — вес этого токена (Weight).

Если больше 1, нейросеть фокусируется на этом слове сильнее. Если меньше 1 — слово становится второстепенным.

Синтаксис весов в разных нейросетях

Разные инструменты используют разные обозначения для изменения веса .

1. Midjourney (Двойное двоеточие) Используется суффикс :: сразу после слова. * forest::2 — лес в два раза важнее всего остального. * red dress::0.5 — красное платье менее важно, лишь легкий акцент.

Пример: Вы пишете hot dog. Нейросеть может нарисовать еду (хот-дог). Но если вы напишете hot::2 dog, нейросеть нарисует собаку, которой очень жарко, потому что слово «горячий» стало важнее слова «собака».

2. Stable Diffusion (Скобки) Используются круглые скобки для усиления и квадратные для ослабления. * (forest:1.5) — усиление веса в 1.5 раза. * ((forest)) — аналог умножения (каждая скобка умножает вес на 1.1). * [red dress] — ослабление веса.

!Визуализация того, как вес слова влияет на приоритет генерации

Негативные промты: искусство отсечения лишнего

Микеланджело говорил: «Я беру камень и отсекаю всё лишнее». В генерации изображений негативный промт (Negative Prompt) — это ваш резец.

Нейросеть обучалась на всем интернете, включая плохие рисунки, водяные знаки и искаженные фото. Если вы не запретите ей использовать этот «мусор», она может случайно добавить его в ваше изображение.

Как это работает технически

Генерация изображения — это движение из точки шума в точку идеального образа. Позитивный промт тянет генерацию к цели. Негативный промт — отталкивает от нежелательных образов.

Формулу итогового вектора генерации можно записать так:

Где: * — итоговый вектор направления генерации. * — вектор позитивного промта (то, что мы хотим). * — вектор негативного промта (то, чего мы избегаем).

Универсальный негативный промт для реализма

Чтобы получить чистое фотореалистичное изображение, всегда добавляйте этот список в поле Negative Prompt (или через параметр --no в Midjourney):

> cartoon, 3d, illustration, anime, sketch, low quality, worst quality, blurry, pixelated, bad anatomy, bad hands, text, watermark, signature, ugly, deformed, extra limbs, mutation.

Разбор ключевых слов: * cartoon, 3d, illustration: Гарантирует, что стиль будет фотографическим, а не рисованным. * text, watermark: Нейросети часто пытаются воспроизвести подписи фотографов или логотипы стоков. * bad anatomy, extra limbs: Помогает бороться с известной проблемой «лишних пальцев» и искаженных тел.

Параметры генерации: тонкая настройка

Помимо слов, нейросети принимают технические команды — параметры. Они пишутся в конце промта и начинаются с тире (в Midjourney) или настраиваются ползунками (в интерфейсах Stable Diffusion).

1. Соотношение сторон (Aspect Ratio)

По умолчанию нейросети генерируют квадрат (1:1). Для кинематографичности или портретов это не подходит.

* --ar 16:9 (Широкий экран): Идеально для пейзажей, сцен из фильмов, интерьеров. * --ar 9:16 (Вертикальный формат): Идеально для портретов в полный рост и контента для соцсетей. * --ar 2:3: Классический формат фотографии 35мм.

2. Хаос и Стилизация (Chaos & Stylize)

Эти параметры отвечают за «творческую свободу» нейросети.

Chaos (--c 0-100): Насколько сильно результаты будут отличаться друг от друга. * --c 0: Все 4 варианта будут очень похожи. * --c 100: Нейросеть предложит абсолютно разные, порой безумные композиции.

Stylize (--s 0-1000): Насколько строго нейросеть следует вашему промту против своей внутренней эстетики. * --s 50: Строгое следование промту, меньше художественности. * --s 750: Очень красиво, художественно, но может уйти далеко от вашего описания.

3. Seed: Секрет повторяемости

Многие новички жалуются: «Я сгенерировал шедевр, но забыл сохранить, а повторный ввод того же промта дает другую картинку». Это происходит из-за параметра Seed (Зерно).

Генерация начинается со случайного шума. Каждая раскладка шума имеет свой номер — Seed. Если вы не укажете Seed, нейросеть выбирает его случайно.

Если вы хотите внести небольшие правки в изображение (например, изменить цвет глаз), но сохранить ту же позу и лицо:

Узнайте Seed понравившейся картинки.

Используйте тот же промт + параметр --seed НОМЕР.

Измените только нужную деталь в тексте.

!Демонстрация работы параметра Seed для сохранения композиции

Практический алгоритм: Метод «Сэндвича»

Чтобы объединить все знания курса, используйте этот алгоритм создания идеального промта. Представьте его как сэндвич, где начинка — это ваша идея, а хлеб — технические параметры.

Верхний слой (Субъект + Веса):

Опишите главное. Если нужно, расставьте акценты. Пример: (Portrait of a cyberpunk girl:1.2)

Начинка (Детали + Окружение):

Добавьте свет, текстуры, фон. Пример: neon rain, wet asphalt, reflection, detailed skin texture

Нижний слой (Технические параметры + Негатив):

Укажите камеру, стиль и исключите лишнее. Пример: shot on 35mm, f/1.8 --ar 16:9 --no cartoon

Заключение

Теперь в вашем арсенале есть полный набор инструментов управления. Вы знаете, как заставить нейросеть слушать вас (веса), как убрать мусор (негативные промты) и как настроить формат кадра (параметры).

Генерация изображений — это баланс между контролем и случайностью. Иногда стоит отпустить вожжи (высокий Chaos), чтобы получить неожиданную идею, а иногда нужно жестко задать рамки (Seed и веса), чтобы добиться конкретной задачи.

В следующей части курса мы перейдем к практике постобработки: как увеличивать разрешение (Upscale) и исправлять мелкие дефекты уже готовых изображений.

5. Практика создания портретов и архитектуры: от идеи до финального рендера

Практика создания портретов и архитектуры: от идеи до финального рендера

Добро пожаловать на пятый этап курса «Мастерство генерации реалистичных изображений и промт-инжиниринг». Мы уже изучили анатомию промта, настроили виртуальную камеру и научились управлять весами слов. Теперь пришло время применить этот арсенал на практике.

В этой статье мы отойдем от теории и займемся «строительством» двух самых популярных и сложных жанров: портретной фотографии и архитектурной визуализации. Вы узнаете, как вдохнуть душу в цифрового персонажа и как построить здание, которое выглядит так, будто оно существует на самом деле.

Часть 1: Искусство живого портрета

Создать красивое лицо в нейросети легко. Создать живого человека — сложно. Разница кроется в деталях, которые наш мозг считывает подсознательно: микровыражения, несовершенства кожи и история, запечатленная во взгляде.

Формула характера

Чтобы портрет не выглядел как манекен из витрины, нам нужно добавить в него «жизненный опыт». Используем концептуальную формулу глубины персонажа:

Где: * — глубина персонажа (Character Depth). * — визуальная история (History). Это одежда, аксессуары, стиль прически, указывающие на профессию или социальный статус. * — эмоция (Emotion). Не просто «улыбка», а «ухмылка», «усталый взгляд», «сдерживаемый смех». * — несовершенства (Imperfections). Асимметрия, шрамы, морщинки, родинки.

!Сравнение "идеального" сгенерированного лица и реалистичного портрета с несовершенствами

Работа с фокусным расстоянием в портрете

Как мы обсуждали в статье про настройки камеры, выбор объектива критичен. Для портретов существует «золотой стандарт».

Крупный план (Close-up): Используйте 85mm или 100mm. Это позволяет избежать искажений носа и ушей, делая лицо пропорциональным. Добавьте macro lens для акцента на глазах.

Поясной портрет (Medium shot): Используйте 50mm или 35mm. Это добавит в кадр немного окружения, контекста.

Ростовой портрет (Full body): Используйте 24mm или 35mm, но будьте осторожны с искажениями по краям кадра (дисторсией).

Практический кейс: «Старый часовщик»

Давайте пройдем путь от идеи до промта.

Идея: Пожилой мастер, чинящий часы, свет от лампы, концентрация.

Шаг 1. Субъект (): Old watchmaker, thick glasses with magnifying loupe, wrinkles, focused expression, leather apron, hands with oil stains.

Шаг 2. Окружение и Свет: Cluttered workshop, brass gears everywhere, dust particles in the air. Lighting: warm tungsten desk lamp illuminating the face, dark background (chiaroscuro).

Шаг 3. Технические параметры: Shot on 85mm lens, f/2.8, highly detailed skin texture, subsurface scattering, sharp focus on eyes, hyperrealistic.

Итоговый промт: > Portrait of an old watchmaker with thick magnifying glasses, deep wrinkles and focused expression, wearing a leather apron. Hands with oil stains holding a tiny gear. Cluttered workshop background with brass parts. Lighting: warm tungsten desk lamp creating chiaroscuro effect, dust particles. Shot on Canon 85mm lens, f/2.8, highly detailed skin texture, subsurface scattering, sharp focus, hyperrealistic --ar 4:5

Часть 2: Архитектурная визуализация

В архитектуре действуют другие законы. Здесь важны геометрия, масштаб, материалы и перспектива. Нейросети часто грешат «кривыми линиями» и нарушенной логикой конструкций. Наша задача — вернуть физику в кадр.

Три кита архитектурного промта

Где: * — качество архитектурной визуализации. * — стиль и геометрия (Geometry). Указывайте конкретные стили (Brutalism, Bauhaus, Gothic, Modernism). * — материалы (Materials). Бетон, стекло, дерево, кортеновская сталь. * — перспектива и угол обзора (Perspective).

Управление углом обзора

Правильный ракурс может превратить скучную коробку в шедевр.

* Eye-level shot (Уровень глаз): Самый естественный ракурс, как видит человек с улицы. Создает эффект присутствия. * Low angle (Нижний ракурс): Камера смотрит снизу вверх. Делает здание величественным, доминирующим. * Drone shot / Aerial view (Вид с дрона): Показывает здание в контексте ландшафта. Идеально для генпланов. * Two-point perspective (Двухточечная перспектива): Классический архитектурный прием, когда мы видим угол здания и две уходящие вдаль стены.

!Визуализация основных ракурсов в архитектурной съемке

Практический кейс: «Дом в лесу»

Идея: Современный минималистичный дом из бетона и стекла посреди осеннего леса.

Шаг 1. Геометрия и Стиль (): Modern minimalist house, concrete architecture, floor-to-ceiling glass windows, flat roof, sharp geometric lines, inspired by Tadao Ando.

Шаг 2. Материалы и Окружение (): Raw concrete texture, reflection in glass. Autumn forest, orange and red leaves, fog, wet asphalt driveway.

Шаг 3. Перспектива и Свет (): Eye-level shot, two-point perspective. Soft overcast lighting, mood atmosphere, cold color palette.

Итоговый промт: > Modern minimalist house designed by Tadao Ando, raw concrete architecture with floor-to-ceiling glass windows, flat roof, sharp geometric lines. Located in a dense autumn forest with orange leaves and fog. Wet asphalt driveway. Eye-level shot, two-point perspective, soft overcast lighting, moody atmosphere, 8k resolution, architectural photography --ar 16:9

Часть 3: Типичные ошибки и методы их исправления

Даже с хорошим промтом результат может быть неидеальным. Разберем частые проблемы.

Проблема 1: «Пластиковая кожа» в портретах

Нейросеть часто пытается сделать лицо слишком красивым, убирая текстуру. * Решение: Добавьте в промт слова skin pores (поры кожи), skin texture, uneven skin tone (неровный тон кожи), moles (родинки). Используйте негативный промт: airbrushed, smooth skin, plastic, makeup.

Проблема 2: «Пьяные здания»

Линии окон и колонн могут изгибаться. * Решение: Используйте слова symmetrical, straight lines, structural integrity. В архитектуре очень помогает упоминание конкретного движка рендеринга, например: Unreal Engine 5 render или V-Ray render. Это переключает нейросеть в режим «точной 3D-графики».

Проблема 3: Неправильный масштаб

Человек рядом с дверью может быть размером с кошку. * Решение: Укажите масштаб через объекты. Human scale reference (человек для масштаба) или опишите конкретные элементы: standard door size, steps.

Заключение

Мы научились применять теорию на практике, создавая сложные портреты и архитектурные сцены. Главный секрет кроется в деталях: в несовершенствах кожи для портрета и в строгой геометрии для архитектуры.

Ваше домашнее задание — создать два изображения:

Портрет человека с ярко выраженной эмоцией и текстурной кожей, используя фокусное расстояние 85mm.

Здание в стиле «Брутализм» в пасмурную погоду, снятое с нижнего ракурса.

В следующей, заключительной статье курса, мы поговорим о том, что делать с полученным изображением: как увеличить его разрешение (Upscale), исправить мелкие ошибки (Inpainting) и подготовить к печати или публикации.