Проектирование и архитектура современных нейронных сетей

1. Фундаментальные основы глубокого обучения и архитектура многослойных сетей

Фундаментальные основы глубокого обучения и архитектура многослойных сетей

Добро пожаловать в курс «Проектирование и архитектура современных нейронных сетей». Это первая статья, в которой мы заложим фундамент для понимания того, как работают современные системы искусственного интеллекта. Мы пройдем путь от устройства одного нейрона до архитектуры глубоких сетей, способных распознавать образы и обрабатывать естественный язык.

От биологии к математике: Искусственный нейрон

Глубокое обучение (Deep Learning) — это подраздел машинного обучения, вдохновленный структурой человеческого мозга. Однако важно понимать, что современные нейросети — это не точная копия мозга, а математическая абстракция, заимствующая ключевые принципы его работы.

Базовым строительным блоком любой нейронной сети является искусственный нейрон (или перцептрон). Чтобы понять, как работает огромная сеть, нужно сначала разобраться в работе одного элемента.

!Схема устройства искусственного нейрона: входы, веса, сумматор и функция активации.

Анатомия нейрона

Искусственный нейрон выполняет простую задачу: он получает информацию, взвешивает её важность и решает, передавать ли сигнал дальше. Этот процесс можно описать следующими компонентами:

Входные данные (): Это сигналы, которые поступают в нейрон. Это могут быть сырые данные (например, яркость пикселя изображения) или выходы других нейронов.

Веса (): Это параметры, которые сеть «выучивает». Вес определяет силу связи между входом и нейроном. Если вес большой и положительный, то входной сигнал сильно стимулирует нейрон. Если вес отрицательный, он подавляет активность.

Смещение ( или bias): Это дополнительный параметр, который позволяет сдвигать график функции активации. Он работает как порог: даже если все входы равны нулю, нейрон может быть активен благодаря смещению.

Взвешенная сумма: Нейрон суммирует все входы, умноженные на их веса, и добавляет смещение.

Математически операция внутри нейрона до применения активации выглядит так:

Где:

— результат взвешенной суммы (потенциал нейрона);

— количество входов;

— вес -го входа;

— значение -го входа;

— смещение (bias).

Зачем нужна функция активации?

Если бы нейрон просто передавал дальше взвешенную сумму , то вся нейронная сеть, независимо от количества слоев, превратилась бы в одну большую линейную регрессию. Линейные функции не способны решать сложные задачи, такие как распознавание лиц или перевод текста, потому что мир вокруг нас нелинеен.

Здесь в игру вступает функция активации (). Она принимает взвешенную сумму и преобразует её, добавляя нелинейность. Итоговый выход нейрона рассчитывается так:

Где:

— выходное значение нейрона;

— функция активации;

— взвешенная сумма входов и смещения.

Самые популярные функции активации:

* Sigmoid: Превращает любое число в диапазон от 0 до 1. Исторически использовалась часто, но сейчас применяется реже из-за проблемы затухания градиентов. * ReLU (Rectified Linear Unit): Самая популярная функция в глубоком обучении. Она работает очень просто: если число положительное, она оставляет его как есть, если отрицательное — превращает в ноль. Формула: .

Архитектура многослойного перцептрона (MLP)

Один нейрон может решать только примитивные задачи (например, логическое И/ИЛИ). Чтобы решать сложные задачи, нейроны объединяют в сеть. Простейшая архитектура глубокого обучения называется полносвязным многослойным перцептроном (Multilayer Perceptron, MLP).

!Структура многослойной нейронной сети с входным, скрытыми и выходным слоями.

Архитектура MLP состоит из трех типов слоев:

Входной слой (Input Layer): Принимает исходные данные. Количество нейронов здесь равно количеству признаков (например, 784 нейрона для картинки 28x28 пикселей).

Скрытые слои (Hidden Layers): Находятся между входом и выходом. Именно здесь происходит «магия» глубокого обучения. Глубина сети определяется количеством этих слоев. Каждый слой извлекает все более абстрактные признаки из данных.

Выходной слой (Output Layer): Выдает финальный результат. Количество нейронов зависит от задачи (1 нейрон для предсказания цены, 10 нейронов для классификации цифр от 0 до 9).

Термин «Глубокое обучение» означает использование нейронных сетей с большим количеством скрытых слоев. Чем глубже сеть, тем более сложные закономерности она способна выучить.

Прямое распространение (Forward Propagation)

Процесс получения предсказания от сети называется прямым распространением. Данные подаются на входной слой, умножаются на веса, проходят через функции активации первого скрытого слоя, затем второго, и так далее, пока не достигнут выхода.

Это можно представить как конвейер: сырье (данные) проходит через серию станков (слоев), каждый из которых немного видоизменяет деталь, пока не получится готовый продукт (предсказание).

Обучение сети: Функция потерь и оптимизация

Спроектировать архитектуру — это только половина дела. Изначально веса сети инициализируются случайными числами, поэтому сеть выдает полный мусор. Чтобы она начала работать, её нужно обучить.

Обучение — это процесс итеративной настройки весов и смещений так, чтобы минимизировать ошибку предсказания.

Функция потерь (Loss Function)

Чтобы понять, насколько сильно сеть ошибается, нам нужна метрика. Она называется функцией потерь (или функцией стоимости). Она сравнивает предсказание сети с правильным ответом.

Для задач регрессии (предсказание числа) часто используют среднеквадратичную ошибку (MSE):

Где:

— значение ошибки (Loss);

— количество примеров в выборке;

— правильный ответ (истина);

— предсказание сети.

Наша цель — найти такие веса, при которых будет минимальным (стремиться к нулю).

Обратное распространение ошибки (Backpropagation)

Это фундаментальный алгоритм, который сделал возможным глубокое обучение. После того как мы вычислили ошибку , нам нужно понять: как именно нужно изменить каждый вес в сети, чтобы ошибка уменьшилась?

Алгоритм работает следующим образом:

Мы считаем ошибку на выходе.

Идем от выхода ко входу (назад).

Вычисляем градиент — вектор, который показывает направление наискорейшего роста функции потерь.

Мы обновляем веса в направлении, противоположном градиенту (антиградиент), чтобы уменьшить ошибку.

Этот процесс обновления весов называется градиентным спуском.

Формула обновления веса:

Где:

— новое значение веса;

— текущее значение веса;

(эта) — скорость обучения (learning rate). Это гиперпараметр, определяющий размер шага, который мы делаем в сторону минимума ошибки;

— частная производная функции потерь по весу (градиент). Она показывает, как сильно изменение этого конкретного веса влияет на общую ошибку.

> «Обучение нейросети похоже на спуск с горы в тумане. Вы не видите вершину или подножие, но чувствуете наклон земли под ногами. Вы делаете маленький шаг вниз по склону, затем еще один, пока не достигнете самой низкой точки».

Проектирование архитектуры: Ширина и Глубина

При создании нейросети инженер сталкивается с выбором гиперпараметров архитектуры:

* Ширина сети: Количество нейронов в одном слое. Слишком узкие слои могут создать «информационное бутылочное горлышко», потеряв важные данные. Слишком широкие слои увеличивают вычислительную сложность и риск переобучения. * Глубина сети: Количество слоев. Теоретически, даже один скрытый слой может аппроксимировать любую функцию (Теорема универсальной аппроксимации), но для этого он должен быть бесконечно широким. На практике глубокие сети (Deep Learning) гораздо эффективнее, так как они строят иерархию признаков: первые слои учат простые формы (линии, углы), следующие — части объектов (глаза, колеса), а последние — целые объекты.

Заключение

Мы рассмотрели фундаментальные блоки глубокого обучения. Нейронная сеть — это сложная функция, состоящая из множества простых линейных операций и нелинейных активаций. Обучение этой системы сводится к автоматическому подбору коэффициентов (весов) с помощью алгоритма обратного распространения ошибки.

В следующей статье мы углубимся в типы слоев и разберем, как именно работают сверточные нейронные сети, которые совершили революцию в компьютерном зрении.

2. Эволюция сверточных нейронных сетей: современные архитектуры для компьютерного зрения

Эволюция сверточных нейронных сетей: современные архитектуры для компьютерного зрения

В предыдущей статье мы разобрали устройство полносвязного многослойного перцептрона (MLP). Мы выяснили, что нейросети обучаются с помощью обратного распространения ошибки, подстраивая веса для минимизации функции потерь. Однако, когда дело доходит до работы с изображениями, классические MLP сталкиваются с серьезными проблемами.

В этой статье мы рассмотрим, почему для компьютерного зрения (Computer Vision) потребовался новый тип архитектуры — сверточные нейронные сети (CNN), как они устроены математически и как эволюционировали от простых детекторов цифр до мощных систем, превосходящих человека в распознавании образов.

Почему полносвязные сети не подходят для изображений?

Представьте, что мы хотим научить сеть различать кошек и собак на цветных фотографиях размером пикселей. Если мы подадим такое изображение на вход полносвязной сети (MLP), нам придется «вытянуть» картинку в один длинный вектор.

Размер входного слоя составит:

Где:

— количество входных нейронов;

— разрешение изображения;

— количество цветовых каналов (Red, Green, Blue).

Если в первом скрытом слое будет всего 1000 нейронов, то количество весов (параметров) только между входом и первым слоем составит 3 миллиарда. Это ведет к двум проблемам:

Вычислительная сложность: Обучение такой сети потребует колоссальных ресурсов.

Потеря пространственной структуры: Превращая картинку в вектор, мы разрушаем информацию о том, какие пиксели находились рядом. Для MLP пиксель в левом верхнем углу и пиксель рядом с ним — это просто два независимых входа, связь между которыми сеть должна выучить с нуля.

Решением стали сверточные нейронные сети (Convolutional Neural Networks, CNN). Они учитывают двумерную структуру изображения и ищут локальные паттерны.

Анатомия сверточной сети

CNN строятся на двух главных операциях: свертка (convolution) и пулинг (pooling).

Операция свертки

Свертка — это процесс прохождения небольшого «окна» (фильтра или ядра) по всему изображению. Фильтр ищет определенные признаки: вертикальные линии, углы, цветовые переходы.

!Схематичное изображение того, как фильтр сканирует входное изображение и формирует карту признаков.

Математически операция свертки для одного пикселя выходной карты признаков выглядит так:

Где:

— значение пикселя в выходной карте признаков (feature map);

— входное изображение (или карта признаков предыдущего слоя);

— ядро свертки (фильтр/kernel), матрица весов, которые сеть обучается;

— индексы, пробегающие по высоте и ширине ядра.

Ключевая особенность: разделение весов (weight sharing). Один и тот же фильтр (например, детектор вертикальной линии) используется для всего изображения. Это резко сокращает количество параметров. Если фильтр нашел ухо кота в левом углу, он найдет его и в правом.

#### Гиперпараметры сверточного слоя

При проектировании слоя нужно определить:

Размер ядра (Kernel Size): Обычно , или .

Шаг (Stride): На сколько пикселей сдвигается фильтр. Большой шаг уменьшает размер выходного изображения.

Дополнение (Padding): Добавление нулей по краям изображения, чтобы сохранить его размер после свертки.

Размер выходной карты признаков рассчитывается по формуле:

Где:

— размер выхода (ширина или высота);

— размер входа;

— размер ядра (Kernel Size);

— размер дополнения (Padding);

— шаг (Stride).

Операция пулинга (Pooling)

После свертки мы получаем карты признаков, которые показывают, где на изображении есть определенные паттерны. Слой пулинга (подвыборки) уменьшает размерность этих карт, оставляя только самую важную информацию. Это делает сеть устойчивой к небольшим сдвигам и поворотам объекта.

Самый популярный метод — Max Pooling. Окно (обычно ) проходит по карте признаков и выбирает максимальное число из четырех.

!Иллюстрация уменьшения размерности данных методом выбора максимального значения.

Эволюция архитектур: От LeNet до ResNet

История развития CNN — это история борьбы за глубину и точность. Рассмотрим ключевые вехи.

1. LeNet-5 (1998): Зарождение

Ян ЛеКун создал одну из первых успешных CNN для распознавания рукописных цифр на чеках (датасет MNIST). Архитектура была простой: два сверточных слоя, чередующихся с пулингом, и полносвязные слои в конце. Она доказала, что свертки работают, но для сложных фото ей не хватало мощности.

2. AlexNet (2012): Революция глубокого обучения

На соревновании ImageNet эта сеть разгромила конкурентов, снизив ошибку почти в два раза. Ключевые нововведения: * ReLU: Использование функции активации ReLU вместо Sigmoid ускорило обучение в разы. * Dropout: Метод регуляризации для борьбы с переобучением. * GPU: Впервые сеть обучалась на видеокартах, что позволило сделать её глубокой (8 слоев).

3. VGG (2014): Элегантная простота

Исследователи из Оксфорда (Visual Geometry Group) показали, что архитектура важна. Вместо фильтров разного размера (, ), они использовали только маленькие фильтры , но ставили их много подряд.

Идея проста: два последовательных слоя свертки имеют такое же «поле зрения» (receptive field), как один слой , но содержат меньше параметров и больше нелинейности. VGG-16 и VGG-19 стали стандартом для извлечения признаков.

4. ResNet (2015): Победа над затухающим градиентом

Когда инженеры попытались сделать сети еще глубже (20, 50, 100 слоев), они столкнулись с проблемой: точность начала падать. Причина — затухание градиента. При обратном распространении ошибки через десятки слоев сигнал становился настолько слабым, что первые слои переставали обучаться.

Кайминг Хе предложил революционное решение: Residual Block (Остаточный блок).

!Схема остаточного блока с пробросом связи (skip connection), позволяющая обучать сверхглубокие сети.

Идея состоит в том, чтобы добавить «короткое замыкание» (skip connection), которое пропускает входной сигнал в обход слоев преобразования .

Формула выхода блока:

Где:

— выход остаточного блока;

— результат работы сверточных слоев внутри блока (остаточная функция);

— входной сигнал, добавленный к выходу без изменений.

Это позволяет градиенту «течь» сквозь сеть беспрепятственно по прямой связи . Благодаря этому удалось обучить ResNet-152 (152 слоя) и даже сети с 1000 слоями.

Современные тенденции

После успеха ResNet развитие пошло по нескольким направлениям: * EfficientNet: Автоматический поиск баланса между шириной, глубиной и разрешением сети для максимальной эффективности. * MobileNet: Облегченные архитектуры для работы на смартфонах. * Трансформеры в зрении (ViT): Адаптация архитектуры Transformer (изначально для текстов) к задачам компьютерного зрения, что стало новым трендом последних лет.

Заключение

Сверточные нейронные сети совершили прорыв, позволив компьютерам «видеть». Они перешли от простых детекторов линий к сложным иерархическим структурам, способным понимать контекст изображения. Ключом к успеху стали специализированные слои (свертка и пулинг) и архитектурные хитрости (skip connections), позволяющие строить очень глубокие модели.

В следующей статье мы отойдем от классификации изображений и рассмотрим задачи генерации контента, изучив работу автоэнкодеров и генеративно-состязательных сетей (GAN).

3. Механизмы внимания и архитектура Трансформеров в обработке естественного языка

Механизмы внимания и архитектура Трансформеров в обработке естественного языка

В предыдущих статьях мы изучили, как многослойные перцептроны работают с табличными данными и как сверточные нейронные сети (CNN) научились «видеть», извлекая пространственные признаки из изображений. Однако, когда речь заходит о человеческом языке, мы сталкиваемся с принципиально иной структурой данных.

Текст — это последовательность. Смысл слова зависит от контекста: слов, стоящих до и после него. В этой статье мы разберем, как нейросети учились читать, почему старые подходы зашли в тупик и как появление механизма внимания (Attention) и архитектуры Трансформер (Transformer) навсегда изменило мир искусственного интеллекта.

Проблема последовательностей и ограничения RNN

До 2017 года стандартом в обработке естественного языка (NLP) были рекуррентные нейронные сети (RNN) и их улучшенная версия LSTM (Long Short-Term Memory).

RNN работают последовательно: они читают предложение слово за словом, слева направо. Обработав первое слово, сеть сохраняет некое «скрытое состояние» (память) и передает его на следующий шаг для обработки второго слова.

!Слева показана последовательная обработка в RNN, справа — параллельная обработка в Трансформере.

У этого подхода было два критических недостатка:

Забывание контекста: Если предложение очень длинное, к моменту, когда сеть доходит до конца, она может «забыть», что было в начале. Например, в тексте «Я вырос во Франции... [много текста] ... поэтому я свободно говорю по-французски» сети трудно связать слово «французски» с «Францией» из-за большого расстояния.

Невозможность распараллеливания: Поскольку шаг 2 зависит от шага 1, вы не можете обучать сеть на всех словах одновременно. Это делало обучение на огромных массивах данных невероятно медленным.

Рождение механизма внимания (Attention)

Чтобы решить проблему забывания, ученые придумали механизм Внимания (Attention). Идея проста: вместо того чтобы пытаться сжать все предложение в один вектор памяти, давайте позволим модели «смотреть» на все слова исходного предложения каждый раз, когда она генерирует новое слово.

Представьте, что вы переводите сложное предложение. Вы не читаете его один раз и переводите по памяти. Вы постоянно возвращаетесь глазами к разным частям исходного текста, фокусируясь (обращая внимание) на нужных словах в нужный момент.

Self-Attention: Сердце Трансформера

В 2017 году исследователи из Google выпустили статью «Attention Is All You Need», предложив архитектуру Transformer. Она полностью отказалась от рекурсии (RNN) в пользу механизма Self-Attention (Само-внимание).

Суть Self-Attention: каждое слово в предложении «смотрит» на все остальные слова в этом же предложении, чтобы понять, насколько они важны для его собственного контекста.

Концепция Query, Key, Value

Чтобы понять математику внимания, используется аналогия с поиском в базе данных. Для каждого слова (токена) создаются три вектора:

Query (, Запрос): То, что мы ищем. Вектор, представляющий текущее слово, которое хочет найти информацию о контексте.

Key (, Ключ): Метка для поиска. Вектор, который описывает, что содержит данное слово (как корешок книги в библиотеке).

Value (, Значение): Сама информация. Вектор, содержащий смысловое наполнение слова.

Математика внимания

Внимание вычисляется как взвешенная сумма значений (), где веса зависят от схожести запроса () и ключа (). Формула Scaled Dot-Product Attention выглядит так:

Где:

— матрица запросов (Queries);

— транспонированная матрица ключей (Keys). Их перемножение () вычисляет схожесть (dot product) между каждым запросом и каждым ключом;

— размерность векторов ключей. Деление на нужно для масштабирования, чтобы значения не становились слишком большими (иначе градиенты в softmax затухнут);

— функция активации, которая превращает полученные оценки схожести в вероятности (сумма равна 1). Это и есть «веса внимания»;

— матрица значений (Values), которую мы умножаем на полученные веса.

Простыми словами: мы берем слово, сравниваем его со всеми остальными словами (через и ), получаем карту важности (через softmax) и собираем итоговый смысл, смешивая информацию от всех слов (через ) пропорционально их важности.

Multi-Head Attention: Смотрим с разных сторон

Одного механизма внимания недостаточно. Слово может быть связано с другими словами по разным причинам: грамматически (подлежащее-сказуемое), семантически (синонимы) или контекстуально (местоимение и объект).

Поэтому в Трансформерах используют Multi-Head Attention (Многоголовое внимание). Это несколько слоев внимания, работающих параллельно. Каждая «голова» обучается замечать разные типы связей. Затем результаты всех голов объединяются.

Positional Encoding: Где я нахожусь?

Трансформер обрабатывает все слова одновременно (параллельно). Для него фраза «Кот съел мышь» и «Мышь съела кота» — это просто набор одних и тех же слов. У сети нет встроенного понимания порядка, как у RNN.

Чтобы исправить это, к входным векторам слов добавляют позиционное кодирование (Positional Encoding). Это специальные векторы, которые несут информацию о номере слова в предложении. Благодаря им сеть понимает, что слово стоит на первом или пятом месте.

Архитектура Encoder-Decoder

Классический Трансформер состоит из двух частей:

Энкодер (Encoder): Принимает входной текст и с помощью слоев Self-Attention создает богатое контекстное представление каждого слова. Он «понимает» текст.

Декодер (Decoder): Использует представление от Энкодера и генерирует выходной текст слово за словом (авторегрессионно).

!Схематичное изображение архитектуры Трансформер, состоящей из стека Энкодеров и Декодеров.

Эволюция: BERT и GPT

После появления Трансформера развитие NLP разделилось на две ветви, использующие разные части этой архитектуры:

BERT (Bidirectional Encoder Representations from Transformers): Использует только Энкодер. Он читает текст сразу в обоих направлениях (слева направо и справа налево). Это делает его идеальным для задач понимания*: классификация текста, поиск ответов на вопросы, анализ тональности. GPT (Generative Pre-trained Transformer): Использует только Декодер. Он учится предсказывать следующее слово в последовательности. Это делает его идеальным для задач генерации* текста.

Заключение

Трансформеры совершили революцию благодаря двум факторам: механизму Self-Attention, который позволяет улавливать связи между любыми словами независимо от расстояния, и возможности параллельного обучения, что позволило скармливать сетям весь интернет.

Мы прошли путь от нейронов и сверток до систем, способных писать стихи и код. В следующей части курса мы рассмотрим, как эти модели обучаются на гигантских объемах данных и что такое «Pre-training» и «Fine-tuning».

4. Генеративные модели: от вариационных автоэнкодеров и GAN до диффузионных сетей

Генеративные модели: от вариационных автоэнкодеров и GAN до диффузионных сетей

В предыдущих статьях нашего курса мы научились проектировать архитектуры, которые анализируют данные. Сверточные сети (CNN) научились «видеть» и классифицировать изображения, а Трансформеры — «читать» и понимать контекст текста. Все эти модели относятся к классу дискриминативных: они проводят границы между классами (кошка или собака, спам или не спам).

Сегодня мы переходим к самой захватывающей области современного ИИ — генеративным моделям. Это нейросети, которые не просто анализируют существующие данные, а создают новые. Мы пройдем путь от попыток сжать данные (Autoencoders) до состязания двух нейросетей (GAN) и, наконец, разберем магию диффузии, которая стоит за DALL-E и Midjourney.

Автоэнкодеры: Искусство сжатия

Прежде чем научиться создавать что-то новое, нейросеть должна научиться идеально понимать структуру старого. Простейшая архитектура для этого — Автоэнкодер (Autoencoder, AE).

Идея автоэнкодера проста: давайте заставим сеть сжать входное изображение в маленький вектор, а затем восстановить его обратно.

!Структура автоэнкодера: Энкодер сжимает данные, Декодер восстанавливает их.

Архитектура состоит из двух частей:

Энкодер (Encoder): Превращает входные данные в скрытое представление (латентный код). Это похоже на архиватор (как zip), но обучаемый.

Декодер (Decoder): Берет код и пытается восстановить исходные данные .

Цель обучения — сделать так, чтобы вход был максимально похож на выход. Функция потерь (Loss Function) здесь — это ошибка реконструкции:

Где:

— значение ошибки (Loss);

— исходные данные (например, пиксели картинки);

— восстановленные данные;

— квадрат евклидова расстояния (сумма квадратов разностей).

Проблема классических автоэнкодеров

Казалось бы, если мы обучим автоэнкодер на лицах людей, мы сможем генерировать новые лица, просто подавая случайные числа в Декодер. Но это не работает.

Проблема в том, что «латентное пространство» (пространство всех возможных кодов ) у обычного автоэнкодера прерывисто. Сеть может выучить точку А (лицо мужчины) и точку Б (лицо женщины), но пространство между ними будет заполнено шумом. Если вы возьмете среднее значение между кодами мужчины и женщины, декодер выдаст бессмысленный набор пикселей, а не гибрид.

Вариационные автоэнкодеры (VAE)

Чтобы решить эту проблему, были придуманы Вариационные автоэнкодеры (Variational Autoencoders, VAE). Они добавляют в процесс элемент случайности.

Вместо того чтобы кодировать картинку в одну жесткую точку , VAE кодирует её в область (распределение вероятностей). Энкодер предсказывает два параметра для каждого признака:

Среднее значение (): Центр области.

Стандартное отклонение (): Разброс (радиус) области.

Затем мы берем случайную точку из этой области и передаем её декодеру.

!Сравнение латентных пространств: дискретные точки против непрерывных распределений.

Это заставляет сеть делать латентное пространство непрерывным. Теперь плавный переход от одной точки к другой в коде приведет к плавному изменению генерации (например, лицо плавно повернется или изменится улыбка).

Функция потерь VAE состоит из двух частей:

Где:

— общая ошибка;

— ошибка реконструкции (как хорошо восстановили картинку);

— дивергенция Кульбака-Лейблера. Это сложный термин, но его суть проста: он штрафует сеть, если распределение кодов слишком сильно отличается от нормального (гауссова) распределения. Это заставляет «облака» кодов группироваться плотно, не оставляя пустых мест.

Генеративно-состязательные сети (GAN)

VAE хороши, но изображения, которые они генерируют, часто получаются размытыми («мыльными»). В 2014 году Ян Гудфеллоу предложил радикально новый подход — GAN (Generative Adversarial Networks).

Идея основана на теории игр. Мы создаем две нейросети и заставляем их соревноваться друг с другом:

Генератор (): «Фальшивомонетчик». Его задача — создать поддельное изображение из случайного шума так, чтобы никто не отличил его от настоящего.

Дискриминатор (): «Полицейский». Его задача — посмотреть на картинку и сказать, настоящая она (из реального датасета) или поддельная (от Генератора).

!Цикл обучения GAN: противостояние Генератора и Дискриминатора.

Математика противостояния

Обучение GAN описывается как минимаксная игра. Генератор хочет минимизировать вероятность того, что его поймают, а Дискриминатор хочет максимизировать точность своих детективов.

Где:

— функция ценности игры;

— оценка Дискриминатора для реального изображения (должна стремиться к 1);

— изображение, созданное Генератором из шума ;

— оценка Дискриминатора для фейка (Дискриминатор хочет, чтобы это было 0, Генератор хочет 1);

— математическое ожидание (среднее значение по всем данным).

В процессе обучения они становятся лучше одновременно: Генератор учится рисовать фотореалистичные детали (шерсть, блики), чтобы обмануть Дискриминатора, а Дискриминатор учится замечать мельчайшие несоответствия.

Проблемы GAN: * Нестабильность: Очень сложно подобрать баланс. Если «полицейский» слишком умен, «фальшивомонетчик» отчается и перестанет учиться. Если наоборот — «полицейский» будет пропускать любой мусор. * Mode Collapse (Схлопывание мод): Генератор может найти одну картинку, которая отлично обманывает Дискриминатора, и генерировать только её одну постоянно.

Диффузионные модели: Новый король генерации

К 2020 году стало ясно, что GAN слишком капризны. На сцену вышли Диффузионные вероятностные модели (Diffusion Models). Именно на них построены DALL-E 2, Stable Diffusion и Midjourney.

Идея диффузии вдохновлена термодинамикой. Представьте, что вы капнули чернила в стакан воды. Со временем чернила расплывутся и вода станет равномерно мутной. Этот процесс уничтожения структуры легко описать. А можно ли повернуть время вспять и собрать чернила обратно в каплю?

Диффузионные модели учатся именно этому: восстанавливать данные из полного шума.

Два процесса диффузии

Прямой процесс (Forward Diffusion): Мы берем изображение и пошагово добавляем к нему гауссовский шум, пока оно не превратится в чистый «белый шум».

Обратный процесс (Reverse Diffusion): Нейросеть учится убирать шум шаг за шагом. Если мы научим сеть предсказывать, какой шум был добавлен на предыдущем шаге, мы сможем вычесть его и получить чуть более чистое изображение.

!Прямой процесс зашумления и обратный процесс денойзинга (восстановления).

Как это работает внутри?

В основе диффузионных моделей часто лежит архитектура U-Net (похожая на автоэнкодер с пробросом связей), которая на каждом шаге получает зашумленную картинку и пытается предсказать только шум, который нужно удалить.

Упрощенная формула одного шага зашумления:

Где:

— изображение на текущем шаге ;

— изображение на предыдущем шаге (чуть менее шумное);

(бета) — параметр, определяющий, сколько шума мы добавляем на этом шаге (по расписанию);

(эпсилон) — случайный шум из нормального распределения.

Задача нейросети — предсказать этот , глядя на .

Почему Диффузия победила GAN?

Стабильность: Обучение диффузии — это просто минимизация разницы между реальным шумом и предсказанным. Здесь нет состязания, поэтому обучение не «разваливается».

Разнообразие: Диффузионные модели покрывают всё распределение данных и не страдают от схлопывания мод (Mode Collapse).

Управляемость: Благодаря механизму внимания (из Трансформеров), мы можем подавать текст на вход сети на каждом шаге очистки шума, направляя процесс генерации в нужную сторону («нарисуй космонавта на лошади»).

Заключение

Мы прошли путь от простых автоэнкодеров, которые учились сжимать данные, через революционные, но нестабильные GAN, к современным диффузионным моделям, которые создают шедевры, буквально вытягивая их из хаоса случайного шума.

Эти архитектуры объединяют в себе всё лучшее, что мы изучили в курсе: свертки для работы с картинками, механизмы внимания для понимания текстовых подсказок и глубокие математические принципы вероятности.

На этом теоретическая часть нашего курса завершена. Теперь вы владеете знаниями об архитектуре MLP, CNN, Трансформеров и Генеративных моделей. Впереди — практика и создание собственных нейронных сетей.

5. Стратегии проектирования, оптимизация гиперпараметров и развертывание моделей

Стратегии проектирования, оптимизация гиперпараметров и развертывание моделей

Мы прошли долгий путь. Мы начали с изучения устройства одного нейрона, собрали из них сверточные сети для зрения, разобрали механизм внимания в Трансформерах и даже научились генерировать новые миры с помощью диффузионных моделей. Теперь у вас есть мощный инструментарий архитектур.

Но знать, как устроена сеть, и уметь создать работающий продукт — это разные вещи. В этой заключительной статье курса мы обсудим инженерную сторону глубокого обучения: как не изобретать велосипед (Transfer Learning), как настроить «ручки управления» сетью (гиперпараметры) и как заставить тяжелую модель работать на обычном смартфоне (развертывание и оптимизация).

Стратегия №1: Не начинайте с нуля (Transfer Learning)

Одна из самых распространенных ошибок новичков — попытка обучить глубокую нейросеть с «чистого листа» (random initialization) на небольшом наборе данных. Глубокие сети требуют миллионов примеров, чтобы выучить базовые признаки: линии, текстуры, формы слов.

Вместо этого используется Transfer Learning (Перенос обучения). Суть метода заключается в использовании знаний, полученных сетью при решении одной задачи, для решения другой, смежной задачи.

!Иллюстрация процесса Fine-tuning: заморозка весов базовой модели и обучение только новой головы классификатора.

Как это работает на практике?

Представьте, что вам нужно создать классификатор пород редких кошек, но у вас есть всего 1000 фотографий. Если обучать ResNet-50 с нуля, сеть просто запомнит эти 1000 фото (переобучится), но не поймет общих принципов.

Алгоритм действий при Transfer Learning:

Выбор донора: Берем сеть (например, ResNet или BERT), уже обученную на гигантском датасете (ImageNet или Wikipedia).

Заморозка (Freezing): Мы «замораживаем» веса во всех слоях, кроме последних. Это значит, что при обратном распространении ошибки мы не будем менять эти веса. Они уже умеют выделять уши, лапы и хвосты.

Замена головы: Мы отрезаем выходной слой (который предсказывал 1000 классов ImageNet) и ставим свой слой с нужным количеством выходов (например, 10 пород кошек).

Fine-tuning (Дообучение): Мы обучаем только новые слои. Так как база уже мощная, нам хватит и малого количества данных.

> «Стоять на плечах гигантов — лучшая стратегия в Deep Learning. Нет смысла учить сеть видеть границы объектов заново, если это уже сделала модель от Google или Facebook».

Оптимизация гиперпараметров: Поиск идеальных настроек

В нейронных сетях есть два типа параметров:

* Параметры (Weights): Веса и смещения, которые сеть выучивает сама в процессе обучения. Гиперпараметры: Настройки, которые задает инженер до* начала обучения. К ним относятся: скорость обучения (learning rate), размер батча (batch size), количество слоев, количество нейронов, коэффициент Dropout.

Подбор гиперпараметров — это искусство. Если выбрать их неправильно, даже гениальная архитектура не обучится.

Методы поиска гиперпараметров

Как найти лучшую комбинацию? Представьте, что вы настраиваете радиоприемник с десятью ручками, чтобы поймать чистый сигнал.

Grid Search (Поиск по сетке): Вы заранее задаете список значений для каждого параметра (например, learning rate: 0.1, 0.01, 0.001) и перебираете все возможные комбинации. Это надежно, но невероятно долго. Если у вас 5 параметров по 5 значений, придется обучить сеть раз.

Random Search (Случайный поиск): Вы задаете диапазоны и выбираете случайные комбинации. Как ни странно, этот метод часто эффективнее Grid Search, так как он лучше исследует пространство важных параметров.

Bayesian Optimization (Байесовская оптимизация): Самый умный метод. Алгоритм анализирует результаты предыдущих запусков и предсказывает, какие настройки с наибольшей вероятностью улучшат результат. Он строит вероятностную модель функции потерь.

!Схематичное сравнение эффективности регулярного перебора и случайного поиска гиперпараметров.

Планирование скорости обучения (Learning Rate Scheduling)

Один из самых важных гиперпараметров — Learning Rate (). Если он слишком большой, сеть будет «скакать» вокруг минимума ошибки. Если слишком маленький — обучение займет вечность.

Современный подход — менять скорость в процессе. Популярная стратегия — Decay (Затухание). Формула экспоненциального затухания:

Где:

— скорость обучения на шаге (эпохе) ;

— начальная скорость обучения;

— математическая константа (основание натурального логарифма);

— коэффициент затухания (насколько быстро скорость падает);

— номер текущей эпохи.

Это позволяет делать большие шаги в начале спуска с горы и маленькие, аккуратные шажки, когда мы уже почти у цели.

Развертывание (Deployment) и оптимизация моделей

Допустим, вы обучили отличную модель. Она лежит у вас на мощном сервере с видеокартой за 10 000 долларов. Но бизнес хочет, чтобы эта модель работала в мобильном приложении на телефоне пользователя. Здесь вступают в игру методы сжатия и ускорения.

Квантование (Quantization)

Обычно нейросети хранят веса в формате FP32 (Floating Point 32-bit). Это числа с плавающей точкой высокой точности (например, 0.12345678). Одно такое число занимает 4 байта памяти.

Квантование — это процесс перевода весов в формат с меньшей точностью, например, INT8 (целые числа, 1 байт). Это уменьшает размер модели в 4 раза и значительно ускоряет вычисления, почти не снижая точность.

Математически процесс квантования вещественного числа в целое число выглядит так:

Где:

— полученное квантованное значение (целое число, например, от 0 до 255);

— исходное вещественное значение веса (float);

(Scale) — масштабный коэффициент. Он определяет шаг сетки квантования;

(Zero-point) — смещение нуля. Оно нужно, чтобы точно передать значение 0.0, что критично для работы функций активации (как ReLU);

— операция округления до ближайшего целого.

Прунинг (Pruning)

Нейронные сети часто избыточны. Многие веса в обученной сети близки к нулю и почти не влияют на результат. Прунинг (обрезка) — это удаление таких слабых связей.

Мы просто зануляем веса, которые по модулю меньше определенного порога. В результате получается «разреженная» (sparse) матрица, которую можно хранить и обрабатывать гораздо эффективнее.

Форматы обмена моделями: ONNX

Вы можете писать код на PyTorch, а ваши коллеги внедрять его на C++ или JavaScript. Чтобы не переписывать модель, используется стандарт ONNX (Open Neural Network Exchange). Это универсальный формат, который позволяет экспортировать модель из любого фреймворка и запускать её где угодно — от облачного сервера до умной кофеварки.

Жизненный цикл ML-проекта

В завершение курса важно понять, что создание нейросети — это циклический процесс:

Сбор данных: Самый важный этап. Мусор на входе — мусор на выходе.

Проектирование: Выбор архитектуры (CNN, Transformer и т.д.).

Обучение: Подбор гиперпараметров, Transfer Learning.

Оценка: Проверка метрик на тестовой выборке.

Оптимизация: Квантование, конвертация в ONNX.

Развертывание: Интеграция в продукт.

Мониторинг: Слежение за тем, чтобы качество модели не падало со временем (Data Drift).

Заключение курса

Поздравляем! Вы прошли путь от основ математики нейронов до современных методов генеративного ИИ и инженерных практик развертывания. Теперь вы понимаете не только то, как работают ChatGPT или Midjourney, но и какие принципы лежат в их основе.

Мир нейронных сетей меняется каждый день, но фундамент, который вы получили — многослойные архитектуры, свертки, внимание, градиентный спуск — останется актуальным еще долго. Продолжайте экспериментировать, читать статьи и, самое главное, создавать свои собственные модели.