Основы нейросетей на Python: теория и практика

1. Введение в нейросети и Python

Введение в нейросети и Python

Нейронная сеть — это математическая модель, вдохновлённая устройством человеческого мозга. Но в отличие от мозга, который содержит около 86 миллиардов биологических нейронов, искусственная нейросеть может работать с несколькими десятками или тысячами искусственных нейронов — и при этом решать впечатляющие задачи: распознавать лица на фото, переводить текст, предсказывать цены на жильё.

> Нейронные сети — это не просто алгоритм, это способ мышления о решении проблем, который может адаптироваться к любой задаче. > > blog.tutortop.ru — Эндрю Ын, профессор Стэнфордского университета

Прежде чем писать код, важно понять, почему нейросети работают именно так, а не иначе. Это сэкономит часы отладки в будущем.

Что такое искусственный нейрон

Представьте, что вы решаете: брать ли зонт на улицу. Вы учитываете несколько факторов: облачность, прогноз погоды, насколько далеко идти. Каждый фактор имеет разный вес в вашем решении — прогноз дождя важнее, чем лёгкая облачность. Искусственный нейрон работает ровно по той же логике.

Искусственный нейрон получает несколько входных сигналов, умножает каждый на свой весовой коэффициент (вес), суммирует результаты, прибавляет смещение (bias) и пропускает итог через функцию активации.

Математически это выглядит так:

Где — входные значения (например, пиксели изображения), — веса, показывающие важность каждого входа, — смещение, позволяющее сдвинуть порог срабатывания нейрона, — функция активации, которая решает, «выстрелит» ли нейрон.

Конкретный пример: нейрон получает три входа — , , . Веса: , , . Смещение . Сумма: . Затем эта сумма проходит через функцию активации.

Архитектура: слои нейронной сети

Отдельный нейрон бесполезен — сила появляется, когда нейроны объединяются в слои, а слои — в сеть.

Любая нейросеть состоит минимум из трёх типов слоёв:

Входной слой (Input Layer) — принимает исходные данные. Если вы подаёте изображение 28×28 пикселей, входной слой содержит 784 нейрона (по одному на каждый пиксель). Нейроны этого слоя не вычисляют ничего — они просто передают данные дальше.

Скрытые слои (Hidden Layers) — один или несколько слоёв, где происходит основная «магия». Именно здесь сеть учится выделять признаки: сначала края и линии, потом формы, потом целые объекты.

Выходной слой (Output Layer) — выдаёт результат. Для задачи классификации кошек и собак — два нейрона (по одному на класс). Для предсказания цены квартиры — один нейрон с числовым значением.

Сети с двумя и более скрытыми слоями называют глубокими (deep) — отсюда термин глубокое обучение (deep learning).

!Архитектура нейронной сети: входной, скрытый и выходной слои с соединениями между нейронами

Как нейросеть «учится»

Обучение нейросети — это поиск таких значений весов, при которых сеть делает минимум ошибок. Процесс состоит из трёх шагов, которые повторяются тысячи раз:

Прямой проход (forward pass): данные проходят через все слои слева направо, и сеть выдаёт предсказание.

Вычисление ошибки: предсказание сравнивается с правильным ответом. Разница измеряется специальной функцией потерь (loss function). Например, если сеть предсказала цену квартиры 5 млн руб., а реальная цена 7 млн руб. — ошибка равна 2 млн руб.

Обратный проход (backpropagation): ошибка «распространяется» обратно по сети, и веса корректируются так, чтобы в следующий раз ошибка была меньше.

Эти три шага — основа обучения любой нейросети, от простейшего перцептрона до GPT-4. Детально разберём каждый из них в следующих статьях курса.

Где применяются нейросети: реальные примеры

Нейросети уже давно вышли из академических лабораторий в повседневную жизнь:

| Область | Задача | Пример | |---|---|---| | Компьютерное зрение | Классификация изображений | Распознавание лиц в смартфоне | | Обработка языка | Перевод текста | Google Translate | | Медицина | Диагностика | Обнаружение опухолей на МРТ | | Финансы | Регрессия | Прогноз цен акций | | Рекомендации | Ранжирование | Лента YouTube, Spotify | | Энергетика | Оптимизация | Google снизил энергопотребление дата-центров на 15% |

Важно понимать: нейросеть — это не универсальное решение. Для предсказания цены квартиры по 5 признакам линейная регрессия справится лучше и быстрее. Нейросети выигрывают там, где данных много, а зависимости сложные и нелинейные.

Почему Python и какие библиотеки использовать

Python стал стандартом в машинном обучении по трём причинам: читаемый синтаксис, огромная экосистема библиотек и активное сообщество. Для работы с нейросетями вам понадобятся два главных фреймворка.

PyTorch — разработан Facebook AI Research (Meta). Использует динамический граф вычислений: вы пишете код как обычный Python, и граф строится «на лету» во время выполнения. Это делает отладку интуитивной — можно ставить print() в любом месте и смотреть значения тензоров. Сегодня PyTorch доминирует в академических исследованиях.

TensorFlow — разработан Google Brain. Изначально использовал статический граф (сначала описываешь всю сеть, потом запускаешь), но начиная с версии 2.0 перешёл на динамический режим через Keras API. TensorFlow чаще встречается в production-системах крупных компаний.

Для этого курса мы будем использовать оба фреймворка, чтобы вы могли выбрать тот, который подходит вашим задачам.

Установка окружения

Рекомендуется создать изолированное виртуальное окружение — это предотвратит конфликты версий библиотек между разными проектами:

Проверим, что всё установилось корректно:

Если GPU недоступен — не страшно. Все примеры курса работают на CPU. GPU ускоряет обучение в 10–100 раз, но для учебных задач это некритично.

Первая нейросеть: XOR за 30 строк

Классическая учебная задача — научить сеть вычислять операцию XOR (исключающее ИЛИ): если оба входа одинаковы, результат 0; если разные — 1. Линейная модель с этим не справится, а нейросеть — легко.

Разберём ключевые строки:

nn.Sequential — удобный способ собрать сеть из слоёв «стопкой»

nn.Linear(2, 4) — полносвязный слой: 2 входа, 4 выхода (нейрона)

nn.ReLU() — функция активации, обнуляет отрицательные значения

optimizer.zero_grad() — обязательный шаг перед каждой итерацией: PyTorch накапливает градиенты, и их нужно сбрасывать

loss.backward() — запускает алгоритм обратного распространения ошибки

После 1000 итераций сеть выдаст правильные ответы для всех четырёх комбинаций XOR. Это и есть обучение: сеть начала со случайных весов и постепенно нашла такие значения, которые решают задачу.

!Интерактивная визуализация обучения нейросети на задаче XOR

Тензоры: язык нейросетей

Прежде чем двигаться дальше, важно понять одну концепцию. Тензор — это многомерный массив чисел. Это основной тип данных в PyTorch и TensorFlow.

Скаляр (одно число) — тензор нулевого измерения: torch.tensor(5.0)

Вектор (список чисел) — тензор первого измерения: torch.tensor([1.0, 2.0, 3.0])

Матрица — тензор второго измерения: torch.tensor([[1, 2], [3, 4]])

Батч изображений — тензор четвёртого измерения: форма (32, 3, 224, 224) означает 32 изображения, 3 цветовых канала, высота 224, ширина 224

Тензоры — это не просто массивы. PyTorch автоматически отслеживает все операции с тензорами, чтобы потом вычислить градиенты для обратного прохода. Именно поэтому нельзя просто взять обычный NumPy-массив и передать его в модель без конвертации.

Понимание тензоров критично: большинство ошибок у новичков связаны именно с неправильными формами тензоров — например, когда слой ожидает вход (batch_size, 784), а получает (784,).

Весь курс будет строиться на этом фундаменте: нейрон → слой → сеть → обучение. Каждая следующая статья добавляет один слой понимания поверх предыдущего — от математики перцептрона до загрузки предобученных моделей для реальных задач.