Нейросети и глубокое обучение: базовые архитектуры и принципы
Как эта тема связана с предыдущими статьями
Ранее в курсе мы разобрали:
что такое AI и какие задачи он решает (классификация, регрессия, рекомендации)
как данные превращаются в признаки и метки, почему важны качество и отсутствие утечек
как оценивать ML-модели метриками и анализировать ошибкиТеперь логичный следующий шаг: понять, что такое нейросети и глубокое обучение, почему они стали основой многих современных AI-систем (особенно для текста, изображений и речи), и как устроены их базовые архитектуры.
Что такое нейросеть простыми словами
Искусственная нейронная сеть — это модель, которая состоит из простых вычислительных блоков (нейронов), соединённых в слои. Во время обучения сеть подбирает параметры так, чтобы по входным данным получать правильный выход.
Важно: нейросеть не хранит ответы в виде базы знаний. Она учится распознавать закономерности в данных через настройку множества чисел-параметров.
Справка: Искусственная нейронная сеть.
Что означает глубокое обучение
Глубокое обучение (Deep Learning) — это подход в машинном обучении, где используются нейросети с большим числом слоёв. Глубина даёт сети возможность строить более сложные представления данных.
Примеры интуитивно:
в изображении ранние слои могут учиться выделять края и простые формы, а поздние — собирать их в объекты
в тексте ранние слои могут ловить локальные закономерности, а поздние — смысловые зависимостиСправка: Глубокое обучение.
Из чего состоит нейросеть
Нейрон, веса и смещение
Упрощённо нейрон делает две вещи:
Смешивает входные числа (признаки) с помощью обучаемых коэффициентов.
Пропускает результат через нелинейное преобразование.Эту идею часто записывают так:
Разберём каждый элемент:
— входной признак номер (например, возраст, длина текста, значение пикселя)
— вес для признака (число, которое нейросеть подбирает при обучении)
— суммирование по всем входным признакам от 1 до
— смещение (ещё один обучаемый параметр, который помогает сдвигать результат)
— функция активации, добавляющая нелинейность
— выход нейрона (предсказание или промежуточное значение)Если формулы кажутся лишними, можно запомнить проще: нейрон берёт входы, умножает на важность каждого входа, складывает, а потом применяет преобразование.
!Как нейрон превращает входные признаки в выход
Слои
Нейросеть обычно состоит из:
входного слоя: принимает признаки
скрытых слоёв: преобразуют данные шаг за шагом
выходного слоя: выдаёт ответТермин скрытый означает, что эти слои не являются ни входом, ни финальным ответом.
Зачем нужна функция активации
Если в нейросети не использовать нелинейность, то даже много слоёв будут работать как одно большое линейное преобразование, и сеть не сможет выучить сложные зависимости.
Популярные функции активации:
ReLU: часто используется в сетях для изображений и табличных данных
sigmoid: часто применяют для вероятности в двоичной классификации на выходе
softmax: часто применяют на выходе для выбора одного класса из несколькихСправка: Функция активации.
Как нейросеть обучается
Предсказание, ошибка и функция потерь
Во время обучения сеть получает обучающий пример:
вход: признаки
правильный ответ: меткаЗатем она:
Делает предсказание.
Считает, насколько ошиблась.Число, которое измеряет ошибку, называется функцией потерь (loss).
Примеры потерь на уровне идеи:
для регрессии: насколько далеко предсказанное число от реального
для классификации: насколько сеть уверена в правильном классеГрадиентный спуск и обратное распространение ошибки
Чтобы улучшить качество, нужно понять, как менять веса и смещение , чтобы уменьшать loss.
Для этого обычно используют два связанных понятия:
градиентный спуск — способ шаг за шагом уменьшать ошибку, двигаясь в сторону улучшения параметров
обратное распространение ошибки (backpropagation) — способ эффективно посчитать, как именно каждый вес влияет на lossПрактически это выглядит так:
Прогнали данные вперёд, получили предсказание и loss.
Прогнали ошибку назад по сети, посчитали, как менять параметры.
Чуть обновили параметры.
Повторили много раз.Справка: Градиентный спуск, Backpropagation.
Эпохи, батчи и learning rate
Три термина, которые встречаются почти всегда:
эпоха (epoch) — один полный проход по обучающим данным
батч (batch) — небольшой кусок данных, на котором делают один шаг обновления
скорость обучения (learning rate) — насколько сильно меняем параметры за один шагСлишком большая скорость обучения может сделать обучение нестабильным, слишком маленькая — очень медленным.
Базовые архитектуры нейросетей
Полносвязная сеть
Полносвязная сеть означает, что каждый нейрон слоя соединён со всеми нейронами следующего слоя.
Где часто применяют:
табличные данные
простые признаки после предобработкиПлюсы:
проще начать и объяснитьМинусы:
плохо использует структуру изображений и последовательностей, может требовать много параметровСправка: Multilayer perceptron.
Сверточная сеть
Сверточная нейросеть (CNN) — архитектура, которая эффективно работает с изображениями, потому что умеет искать локальные паттерны (например, края, текстуры) и делать это одинаково по всему изображению.
Интуиция простыми словами:
маленький фильтр скользит по картинке и реагирует на определённые фрагменты
сеть учится, какие фильтры полезныГде применяют:
классификация изображений
поиск объектов на фото и видео
анализ медицинских снимков (как поддержка специалиста)Справка: Convolutional neural network.
Рекуррентная сеть
Рекуррентная нейросеть (RNN) — архитектура для последовательностей, где важен порядок элементов.
Примеры последовательностей:
текст как последовательность слов или токенов
аудио как последовательность фрагментов
временной ряд датчикаПроблема классических RNN: им сложно удерживать очень длинные зависимости. Поэтому часто используют улучшения вроде LSTM.
Справка: Recurrent neural network, Long short-term memory.
Трансформер
Трансформер (Transformer) — архитектура, которая стала основой современных моделей для текста, включая большие языковые модели.
Ключевая идея трансформера: механизм внимания (attention) помогает модели определять, какие части входа важнее для текущего шага обработки.
Почему это важно:
модель лучше работает с длинными текстами
обучение хорошо параллелится на современном железеСправка: Transformer (deep learning architecture)).
!Сравнение основных архитектур нейросетей
Почему нейросети требуют хороших данных и как это связано с переобучением
Из прошлых статей важны два факта:
нейросети учатся на данных и могут унаследовать проблемы качества данных
качество на обучении не гарантирует качество на новых данныхПереобучение (overfitting) в нейросетях встречается часто, потому что у них может быть очень много параметров.
Типичные меры, которые уменьшают переобучение:
больше и разнообразнее данные
честное разделение на train, validation, test без утечек
ранняя остановка обучения по validation-качеству
регуляризация и специальные техники, например dropoutСправка: Overfitting, Dropout.
Как выбирать архитектуру под задачу
| Тип данных и задачи | Что обычно пробуют в первую очередь | Почему |
|---|---|---|
| Табличные признаки, прогноз числа или класса | Полносвязные сети или классические ML-модели | Часто достаточно простых подходов, быстрее итерации |
| Изображения и видео | CNN и их варианты | Учитывают пространственную структуру |
| Временные ряды, последовательности | RNN или Transformer | Важен порядок и контекст |
| Текст, поиск по документам, генерация | Transformer | Хорошо работает с контекстом и масштабируется |
Практическое правило: начинать стоит с простого baseline, а нейросети подключать, когда они действительно дают выигрыш или без них качество недостижимо.
Мини-чеклист перед тем, как делать нейросетевой прототип
Вы чётко сформулировали задачу и метку.
Вы уверены, что признаки доступны в момент инференса.
Данные разделены на train, validation, test без утечек.
Вы выбрали метрики под цену ошибок, а не только accuracy.
У вас есть baseline, который нейросеть должна обогнать.
Вы заранее решили, как будете мониторить качество после внедрения.Что дальше
После понимания архитектур логично перейти к практике принятия решений:
как выбирать и готовить признаки для нейросетей в разных типах данных
как подбирать пороги и оптимизировать precision и recall под бизнес-цену ошибок
как мониторить сдвиг данных и деградацию качества в продакшене