Основы нейросетей и глубокого обучения

1. Введение в нейросети: история, устройство нейрона и перцептрон

Введение в нейросети: история, устройство нейрона и перцептрон

Нейронные сети сегодня — это фундамент современного искусственного интеллекта. Они распознают лица на фотографиях, переводят тексты, управляют автомобилями и даже пишут код. Но чтобы понять, как работают сложные системы вроде ChatGPT или Midjourney, необходимо разобраться в их базовом строительном блоке — искусственном нейроне.

В этой статье мы разберем, как биология вдохновила математиков, как устроен простейший перцептрон и почему одна прямая линия может стать непреодолимым препятствием для интеллекта.

От биологии к математике

Идея создания искусственного интеллекта родилась из попыток смоделировать человеческий мозг. Наш мозг состоит из миллиардов клеток — нейронов, связанных в огромную сеть.

Биологический нейрон имеет три ключевые части, важные для нашего понимания:

Дендриты — короткие отростки, которые принимают сигналы от других нейронов.

Тело клетки (сома) — обрабатывает и суммирует полученные сигналы.

Аксон — длинный отросток, который передает обработанный сигнал дальше, к следующим нейронам.

Место контакта двух нейронов называется синапсом. Именно в синапсах происходит «магия» обучения: связь между нейронами может усиливаться или ослабевать. Если связь сильная, сигнал проходит легко; если слабая — сигнал затухает. blog.skillfactory.ru

!Биологический прототип и его математическая модель

Искусственный нейрон — это упрощенная математическая модель этого процесса. Вместо химических сигналов он оперирует числами, а вместо синапсов использует коэффициенты, которые мы называем весами.

Перцептрон: первый искусственный мозг

В 1958 году американский нейрофизиолог Фрэнк Розенблатт представил перцептрон — одну из первых моделей нейронной сети. Это устройство (да, первый перцептрон был именно физическим устройством с проводами, а не просто программой) умело различать простые геометрические фигуры. courses.sberuniversity.ru

Перцептрон — это простейшая форма нейронной сети, состоящая из одного или нескольких искусственных нейронов. Давайте разберем его анатомию.

Анатомия искусственного нейрона

Работа нейрона состоит из трех этапов: взвешивание входов, суммирование и активация.

#### 1. Входы и веса Представьте, что нейрон должен решить: «Стоит ли идти гулять?». У него есть входные данные (): * : На улице солнечно? (1 — да, 0 — нет) * : Есть ли у меня свободное время? (1 — да, 0 — нет)

Но эти факторы имеют разную важность. Важность определяется весами (). * (Погода важна, но не критична) * (Свободное время очень важно)

#### 2. Взвешенная сумма и смещение Нейрон умножает каждый вход на его вес и складывает результаты. Также добавляется специальный параметр — смещение (bias, ). Смещение — это порог чувствительности нейрона. Оно позволяет сдвигать функцию активации влево или вправо. Без смещения нейрон всегда выдавал бы ноль при нулевых входах, что ограничивает его гибкость. dmitrymakarov.ru

Математически это записывается так:

Где: * — результат суммирования (взвешенная сумма). * — количество входов. * — вес -го входа (значимость). * — значение -го входа. * — смещение (bias).

Рассчитаем пример для прогулки. Допустим, солнечно (), но времени нет (). Пусть смещение (мы ленивы и нам нужен стимул, чтобы выйти).

Где: * — вклад погоды. * — вклад отсутствия времени. * — наше начальное сопротивление (смещение). * — итоговая сумма.

#### 3. Функция активации Полученное число само по себе ничего не значит. Нейрон должен принять решение: да (1) или нет (0). Для этого сумма проходит через функцию активации.

В классическом перцептроне Розенблатта использовалась пороговая функция (ступенчатая функция): * Если , результат 1. * Если , результат 0.

В нашем примере , значит, нейрон выдаст 1. Мы идем гулять!

!Поток данных в перцептроне: от входов до решения

Линейная разделимость и проблема XOR

Перцептрон кажется мощным инструментом, но у него есть фатальный недостаток, который чуть не похоронил всю индустрию нейросетей в 1969 году. Марвин Минский и Сеймур Пейперт в своей книге доказали, что одиночный перцептрон может решать только линейно разделимые задачи.

Что это значит? Представьте, что вы рисуете точки двух цветов (красные и синие) на листе бумаги. Если вы можете провести одну прямую линию, чтобы отделить все красные точки от синих, задача линейно разделима. Перцептрон с ней справится.

Примеры: * Операция И (AND): Истина только если оба входа 1. (Разделима) * Операция ИЛИ (OR): Истина если хотя бы один вход 1. (Разделима)

Однако существует операция Исключающее ИЛИ (XOR): Истина, если входы разные (один 1, другой 0), и Ложь, если они одинаковые (оба 0 или оба 1).

Попробуйте нарисовать точки для XOR на графике: * (0,0) -> 0 (Синяя) * (0,1) -> 1 (Красная) * (1,0) -> 1 (Красная) * (1,1) -> 0 (Синяя)

Невозможно провести одну прямую линию, чтобы отделить красные точки от синих. Это и есть проблема XOR.

!Проблема XOR: невозможность разделить классы одной прямой

Это ограничение привело к «зиме искусственного интеллекта». Решение было найдено позже: нужно использовать не один нейрон, а много, объединяя их в слои. Так появились многослойные перцептроны и глубокое обучение. habr.com

Современный взгляд

Сегодня одиночные перцептроны в чистом виде практически не используются. Однако принцип их работы лежит в основе каждого слоя самых сложных современных сетей. Разница лишь в том, что:

Используются более сложные функции активации (Sigmoid, ReLU, Tanh), а не просто пороговая ступенька.

Нейроны объединяются в огромные сети с миллионами параметров.

Обучение происходит автоматически с помощью алгоритма обратного распространения ошибки (о котором мы поговорим в следующих статьях). education.yandex.ru

Итоги

* Нейросеть — это математическая модель, вдохновленная биологическими нейронами, где электрические сигналы заменены на числа, а синапсы — на веса. * Перцептрон — базовый блок нейросети. Он вычисляет взвешенную сумму входов, добавляет смещение и пропускает результат через функцию активации. * Веса () определяют важность входных данных, а смещение () сдвигает порог активации. * Одиночный перцептрон может решать только простые задачи (линейно разделимые). Для сложных задач (как XOR или распознавание образов) требуются многослойные сети.

2. Математика обучения: метод обратного распространения ошибки и оптимизация весов

Математика обучения: метод обратного распространения ошибки и оптимизация весов

В предыдущей статье мы рассмотрели перцептрон и узнали, что его поведение полностью зависит от весов () и смещения (). Если веса подобраны правильно, нейросеть отличает кошку от собаки. Если нет — она бесполезна.

Но как найти эти идеальные числа? В первых экспериментах ученые подбирали их вручную. Сегодня нейросети содержат миллиарды параметров. Подбирать их вручную пришлось бы тысячи лет.

Здесь на сцену выходит магия математики: алгоритм обратного распространения ошибки (Backpropagation). Это механизм, который позволяет нейросети «учиться» на своих ошибках.

Функция потерь: компас для нейросети

Прежде чем улучшать работу сети, нужно понять, насколько плохо она работает сейчас. Для этого используется функция потерь (Loss Function) или функция ошибки.

Представьте, что вы играете в дартс. Ваша цель — попасть в центр мишени. * Центр мишени — это правильный ответ (). * Место, куда попал дротик — это предсказание нейросети (). * Расстояние между ними — это ошибка.

В задачах регрессии (предсказания чисел) часто используют среднеквадратичную ошибку (MSE — Mean Squared Error). Для одного примера она выглядит так:

Где: * — ошибка (Error). * — правильное значение (то, что мы хотим получить). * — предсказание сети (то, что мы получили).

Мы возводим разницу в квадрат, чтобы ошибка всегда была положительной (промах влево или вправо одинаково плох) и чтобы сильнее «наказывать» за большие промахи. education.yandex.ru

Пример: Нейросеть должна предсказать цену квартиры. Реальная цена — 10 млн ().

Сеть предсказала 8 млн. Ошибка: .

Сеть предсказала 12 млн. Ошибка: .

Сеть предсказала 5 млн. Ошибка: .

Наша цель — найти такие веса , при которых ошибка будет минимальной (стремиться к нулю).

Градиентный спуск: спуск с горы в тумане

Представьте, что вы стоите на вершине горы ночью в густом тумане. Ваша задача — спуститься в самую низкую точку долины (найти минимальную ошибку). Вы не видите долину целиком, но можете чувствовать наклон земли под ногами.

Алгоритм действий прост:

Ощупать землю вокруг себя.

Определить, в какую сторону наклон идет вниз круче всего.

Сделать маленький шаг в эту сторону.

Повторять, пока не окажетесь в низине.

В математике «крутизна и направление склона» называется градиентом. А этот метод поиска минимума — градиентным спуском.

!Визуализация градиентного спуска: путь к минимальной ошибке

Чтобы обновить вес, мы используем формулу:

Где: * — новое значение веса. * — текущее значение веса. * (эта) — скорость обучения (learning rate). Это размер вашего шага. Если шаг слишком большой, можно перепрыгнуть низину. Если слишком маленький — спускаться придется вечно. * — градиент (частная производная ошибки по весу). Это число показывает, как сильно и в какую сторону изменится ошибка, если мы немного изменим вес.

Метод обратного распространения ошибки (Backpropagation)

Если у нас один нейрон, посчитать градиент легко. Но современные сети — это слоеный пирог из множества нейронов. Когда сеть ошибается, кто виноват? Нейрон в последнем слое? Или тот, что был перед ним? Или самый первый?

Метод обратного распространения ошибки позволяет «размазать» ответственность за ошибку по всем весам, двигаясь от выхода к входу. ru.wikipedia.org

Цепное правило (Chain Rule)

В основе метода лежит правило из школьной алгебры: производная сложной функции. Если зависит от , а зависит от , то влияние на можно найти перемножением:

Где: * — как влияет на . * — как влияет на . * — как влияет на .

В нейросетях это работает так: Ошибка зависит от Предсказания Предсказание зависит от Суммы на нейроне Сумма зависит от Веса.

!Цепное правило: как ошибка распространяется от конца к началу

Практический пример: учим нейрон считать

Давайте рассчитаем один шаг обучения вручную. Это лучше всего объяснит суть процесса.

Дано: * Вход (): * Правильный ответ (): * Текущий вес (): * Смещение (): (для простоты) * Функция активации: Линейная (просто передает число дальше, )

Шаг 1: Прямое распространение (Forward Pass) Считаем, что думает сеть сейчас.

Предсказание сети .

Шаг 2: Вычисление ошибки

Ошибка большая. Сеть предсказала 6, а надо 10.

Шаг 3: Обратное распространение (Backward Pass) Нам нужно узнать, как изменить вес , чтобы уменьшить ошибку . Ищем производную .

По цепному правилу:

Как ошибка меняется от предсказания ()?

Производная от равна . Подставим числа: . Смысл: Мы получили -8. Минус означает, что если предсказание вырастет, ошибка уменьшится.

Как предсказание меняется от веса ()?

Так как , то производная по равна просто . В нашем случае . Смысл: Входной сигнал усиливает влияние веса.

Перемножаем (Градиент):

Шаг 4: Обновление веса Возьмем скорость обучения .

Новый вес стал 4.6. Он стал ближе к идеальному (для получения ответа 10 при входе 2 идеальный вес был бы 5). Мы сделали шаг в верном направлении! habr.com

Проблемы оптимизации

В примере все выглядит гладко, но в реальности процесс обучения полон ловушек.

1. Затухание градиента

В глубоких сетях (много слоев) при перемножении большого количества маленьких чисел (производных) итоговый градиент может стать ничтожно малым. Первые слои сети перестают учиться. Это решается выбором правильных функций активации (например, ReLU вместо Sigmoid).

2. Локальные минимумы

Представьте, что вы спускаетесь с горы и попали в небольшую ямку. Вы думаете, что достигли дна, но настоящая долина находится за соседним холмом. Градиентный спуск может застрять в таком «локальном минимуме».

!Ловушка локального минимума

Для борьбы с этим используют продвинутые оптимизаторы (например, Adam или RMSProp), которые добавляют «инерцию» спуску, позволяя шарику выкатываться из мелких ям. neurohive.io

Итоги

* Обучение — это процесс минимизации функции потерь (ошибки). * Градиентный спуск — это способ найти минимум ошибки, двигаясь против направления градиента (наклона). * Обратное распространение ошибки (Backpropagation) — это алгоритм вычисления градиента для сложных многослойных сетей с помощью цепного правила (Chain Rule). * Скорость обучения (Learning Rate) определяет размер шага при обновлении весов. Слишком маленький шаг — долго, слишком большой — нестабильно. * В реальности используются оптимизаторы (Adam, SGD), которые делают процесс спуска более умным и быстрым.