Основы машинного обучения: от теории к практике

1. Введение в машинное обучение: основные понятия и типы задач

Введение в машинное обучение: основные понятия и типы задач

Добро пожаловать на курс «Основы машинного обучения: от теории к практике». Мы начинаем наше путешествие в мир искусственного интеллекта с фундаментальной статьи, которая заложит основу для всех последующих тем. Сегодня мы разберемся, что такое машинное обучение, чем оно отличается от обычного программирования и какие задачи оно способно решать.

Что такое машинное обучение?

Машинное обучение (Machine Learning, ML) — это подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться на данных. Ключевое слово здесь — обучаться. В отличие от классических алгоритмов, где разработчик жестко прописывает правила поведения, ML-алгоритмы находят эти правила самостоятельно, анализируя примеры.

Традиционное программирование vs Машинное обучение

Чтобы лучше понять суть, давайте сравним два подхода:

Традиционное программирование: У нас есть данные и правила (код). Компьютер обрабатывает данные по этим правилам и выдает ответ.

Машинное обучение: У нас есть данные и правильные ответы (результаты). Компьютер анализирует их и создает правила (модель), которые связывают данные с ответами.

!Сравнение потоков данных в классическом программировании и машинном обучении

Основные типы задач в машинном обучении

Глобально большинство задач в ML можно разделить на три большие категории в зависимости от того, как происходит процесс обучения.

1. Обучение с учителем (Supervised Learning)

Это самый распространенный тип задач. Представьте, что вы учите ребенка отличать яблоки от груш. Вы показываете ему фрукт и говорите: «Это яблоко», затем другой: «Это груша». После множества примеров ребенок начинает самостоятельно определять фрукт.

В терминах ML: * У нас есть входные данные (фотографии фруктов). * У нас есть правильные ответы, или метки (названия фруктов). * Задача модели — найти зависимость между данными и метками.

Обучение с учителем делится на два подтипа:

* Классификация: Задача предсказания категории (класса). Ответ всегда дискретный. Примеры:* Спам или не спам? Кошка или собака? Болен пациент или здоров? * Регрессия: Задача предсказания конкретного числа. Ответ непрерывный. Примеры:* Сколько будет стоить квартира? Какая будет температура завтра? Сколько товаров купят в следующем месяце?

2. Обучение без учителя (Unsupervised Learning)

Здесь у нас нет «учителя», который говорит правильные ответы. У алгоритма есть только набор данных, и его задача — найти в этих данных структуру, закономерности или аномалии.

Основные задачи:

* Кластеризация: Группировка объектов по схожим признакам. Пример:* Сегментация клиентов банка. Алгоритм сам находит группу «студенты», «пенсионеры» или «VIP-клиенты» на основе их транзакций, хотя мы заранее не называли эти группы. * Понижение размерности: Упрощение данных с сохранением основной информации. Пример:* Сжатие видео или визуализация сложных многомерных данных на 2D-графике.

!Визуализация процесса кластеризации: поиск скрытых групп в данных

3. Обучение с подкреплением (Reinforcement Learning)

Этот тип обучения напоминает дрессировку собаки или обучение игре в шахматы. Агент (программа) взаимодействует со средой, совершает действия и получает обратную связь — награду или штраф.

* Цель: Максимизировать суммарную награду. Примеры:* Робот-пылесос учится обходить препятствия, искусственный интеллект играет в Dota 2 или Go, автопилот управляет машиной.

Математическая суть модели

Многие новички пугаются математики, но на базовом уровне машинное обучение — это поиск функции. Давайте рассмотрим простейший пример из школьной алгебры, который является основой линейной регрессии.

Представьте, что мы хотим предсказать цену квартиры () в зависимости от её площади (). Мы можем предположить, что зависимость линейная:

Где: * — целевая переменная (то, что мы предсказываем, например, цена квартиры). * — признак (входные данные, например, площадь квартиры). * — вес (weight), коэффициент, показывающий важность признака. Чем больше , тем сильнее площадь влияет на цену. * — смещение (bias), базовая стоимость, не зависящая от площади (например, цена земли или коммуникаций).

Задача машинного обучения в данном случае — подобрать такие значения и , чтобы для всех известных нам квартир предсказанная цена была максимально близка к реальной.

Чтобы оценить, насколько хорошо наша модель работает, мы используем функцию потерь (Loss Function). Для регрессии часто используется среднеквадратичная ошибка (MSE):

Где: * — среднеквадратичная ошибка (Mean Squared Error), число, показывающее «штраф» за неточность модели. * — количество примеров в нашем наборе данных. * — знак суммы (мы суммируем ошибки по всем примерам от 1 до ). * — реальное значение (настоящая цена -й квартиры). * — предсказанное моделью значение для -й квартиры.

Суть обучения: алгоритм меняет и так, чтобы стала минимальной.

Ключевые термины

Чтобы свободно читать литературу по ML, запомните этот словарь:

Датасет (Dataset): Набор данных, на котором мы обучаем или тестируем модель.

Признаки (Features): Характеристики объекта (колонки в таблице). Например: возраст, пол, доход.

Целевая переменная (Target): То, что мы хотим предсказать.

Модель (Model): Алгоритм после обучения, который запомнил закономерности.

Разметка (Labeling): Процесс проставления правильных ответов в данных (для обучения с учителем).

Заключение

Машинное обучение — это не магия, а математика и статистика, приправленная мощными вычислительными ресурсами. Мы выяснили, что задачи делятся на обучение с учителем (есть правильные ответы) и без учителя (ищем структуру сами).

В следующей статье мы углубимся в процесс подготовки данных, так как именно от качества данных зависит 80% успеха любой модели.

2. Обучение с учителем: линейная регрессия и методы классификации

Обучение с учителем: линейная регрессия и методы классификации

В предыдущей статье мы познакомились с фундаментальными понятиями машинного обучения и узнали, что задачи глобально делятся на обучение с учителем, без учителя и с подкреплением. Сегодня мы детально разберем самый популярный и применимый на практике класс задач — обучение с учителем (Supervised Learning).

Напомню суть: у нас есть набор данных, где для каждого примера уже известен правильный ответ. Наша цель — научить компьютер находить эти ответы для новых, незнакомых ему данных. Мы рассмотрим два «кита», на которых стоит этот тип обучения: регрессию и классификацию.

Часть 1. Линейная регрессия: предсказываем числа

Когда нам нужно предсказать конкретное число (стоимость акции, температуру воздуха, время доставки пиццы), мы имеем дело с задачей регрессии. Самый простой и в то же время мощный инструмент для начала — это линейная регрессия.

Интуиция метода

Представьте, что вы хотите понять зависимость между стажем работы программиста и его зарплатой. Вы опросили 10 знакомых и нанесли их данные на график: по горизонтали — годы опыта, по вертикали — зарплата. Скорее всего, точки выстроятся в некое подобие линии, идущей вверх.

Линейная регрессия пытается провести через эти точки прямую линию так, чтобы она проходила максимально близко ко всем точкам одновременно. Эта линия и есть наша модель.

!График линейной регрессии: красная линия показывает общую тенденцию роста зарплаты в зависимости от стажа

Математика линейной регрессии

В школе мы изучали уравнение прямой. В машинном обучении оно выглядит так:

Где: * — предсказание модели (например, ожидаемая зарплата). * — входной признак (стаж работы). * — вес (weight). Это коэффициент наклона прямой. Он показывает, насколько сильно стаж влияет на зарплату. * — смещение (bias). Это точка пересечения с осью Y. Она показывает базовую зарплату при нулевом стаже.

Если признаков много (например, не только стаж, но и уровень английского, город проживания), формула расширяется, но суть остается прежней: мы суммируем признаки, умноженные на их веса.

Как модель учится? Функция потерь

Как компьютер понимает, какая линия «лучшая»? Он проводит случайную линию, а затем измеряет, насколько сильно она ошибается. Эта мера ошибки называется функцией потерь (Loss Function).

Для регрессии чаще всего используют среднеквадратичную ошибку (MSE — Mean Squared Error):

Где: * — усредненная ошибка модели. * — количество примеров в нашем наборе данных. * — знак суммы, означающий, что мы складываем значения для всех примеров от 1-го до -го. * — правильный ответ (реальная зарплата человека). * — предсказание модели для этого человека. * Квадрат нужен для того, чтобы ошибки не взаимоуничтожались (если одна точка выше линии, а другая ниже) и чтобы сильнее «штрафовать» модель за большие промахи.

Суть обучения: алгоритм подбирает такие значения и , при которых значение становится минимальным. Это похоже на то, как если бы вы крутили ручки настройки радиоприемника, чтобы минимизировать шум и получить чистый звук.

Часть 2. Методы классификации: разделяем на группы

Вторая большая группа задач — это классификация. Здесь мы предсказываем не число, а категорию (класс). Спам или не спам? Кошка, собака или лиса? Купит клиент товар или уйдет?

Рассмотрим три популярных алгоритма классификации, которые должен знать каждый специалист по Data Science.

1. Логистическая регрессия (Logistic Regression)

Не дайте названию вас запутать! Несмотря на слово «регрессия», этот метод используется для классификации. Обычно — бинарной (два класса: да/нет, 0/1).

Почему нельзя использовать обычную линейную регрессию? Потому что прямая линия уходит в бесконечность, выдавая значения вроде 150 или -20. А нам нужна вероятность: число от 0 до 1.

Для этого результат линейного уравнения «сплющивают» с помощью специальной функции — сигмоиды.

!Сигмоида — функция, превращающая любое число в вероятность от 0 до 1

Формула сигмоиды:

Где: * — результат функции, вероятность принадлежности к классу 1 (число от 0 до 1). * — единица, константа. * — число Эйлера (основание натурального логарифма, примерно равно 2.718). * — результат работы линейной части модели (то самое ).

Если модель выдает число 0.8, мы говорим: «С вероятностью 80% это спам». Обычно устанавливают порог (threshold) 0.5: если больше — класс 1, если меньше — класс 0.

2. Метод K-ближайших соседей (K-Nearest Neighbors, KNN)

Это один из самых интуитивно понятных алгоритмов. Его принцип можно описать пословицей: «Скажи мне, кто твой друг, и я скажу, кто ты».

Представьте, что мы хотим определить жанр нового фильма. У нас есть база данных фильмов с известными жанрами (боевики и комедии) и параметрами (количество взрывов и количество шуток).

Алгоритм работает так:

Мы помещаем новый фильм на график рядом с уже известными.

Находим самых близких к нему точек (соседей).

Смотрим, каких соседей больше.

Если среди 5 ближайших соседей 4 боевика и 1 комедия, то наш новый фильм — боевик.

!Визуализация работы KNN: классификация объекта на основе большинства голосов ближайших соседей

Плюсы: * Очень просто понять и реализовать. * Не требует долгого обучения (модель просто запоминает данные).

Минусы: * Работает медленно, если данных очень много (нужно считать расстояние до каждой точки). * Чувствителен к выбросам (ошибочным данным).

3. Деревья решений (Decision Trees)

Дерево решений пытается повторить логику человеческого мышления, задавая последовательные вопросы. Это похоже на игру «Акинатор» или медицинский опросник.

Допустим, банк решает, выдать ли кредит. Алгоритм строит дерево:

Вопрос 1: Возраст больше 18?

* Нет Отказ. * Да Идем дальше.

Вопрос 2: Есть ли постоянный доход?

* Нет Отказ. * Да Идем дальше.

Вопрос 3: Были ли просрочки ранее?

* Нет Одобрить. * Да Отказ.

В процессе обучения модель сама выбирает, какие вопросы задавать и в каком порядке, чтобы максимально точно разделить данные на группы. Для этого используются математические метрики, такие как энтропия (мера хаоса) или неопределенность Джини.

Плюсы: * Легко интерпретировать: можно нарисовать схему и объяснить, почему модель приняла решение. * Работает как с числами, так и с категориями.

Минусы: * Склонность к переобучению: дерево может стать слишком сложным и запомнить шум вместо закономерностей.

Сравнение подходов

Заключение

Мы рассмотрели базовые алгоритмы обучения с учителем. Линейная регрессия помогает предсказывать величины, а методы классификации (логистическая регрессия, KNN, деревья решений) позволяют сортировать объекты по категориям.

В реальной жизни выбор алгоритма зависит от данных и задачи. Часто приходится пробовать несколько методов, чтобы найти лучший. Но просто выбрать алгоритм недостаточно — нужно правильно подготовить для него данные и настроить параметры. Именно этим мы и займемся в следующих статьях курса.

3. Обучение без учителя: кластеризация и снижение размерности данных

Обучение без учителя: кластеризация и снижение размерности данных

В предыдущих статьях мы подробно разобрали обучение с учителем. Мы видели, как алгоритмы учатся предсказывать цену квартиры или определять спам, опираясь на размеченные данные — то есть на примеры, где правильные ответы (метки) известны заранее. Но что делать, если у нас нет учителя? Что, если у нас есть гигабайты данных, но никто не сказал нам, что именно на них изображено или что они означают?

Добро пожаловать в мир обучения без учителя (Unsupervised Learning). Это область машинного обучения, где алгоритмы предоставлены сами себе. Их задача — не предсказать конкретный ответ, а найти скрытую структуру, закономерности или аномалии в «сырых» данных.

Сегодня мы изучим два главных направления этого подхода: кластеризацию (как разложить всё по полочкам) и снижение размерности (как упростить сложное).

Что такое обучение без учителя?

Представьте, что вы прилетели на незнакомую планету. Вы видите множество разных существ. У вас нет справочника (размеченных данных), который сказал бы: «Это — глока куздра, а это — бокр». Но, наблюдая за ними, вы начинаете замечать:

* Одни существа маленькие, пушистые и прыгают. * Другие — большие, чешуйчатые и плавают.

Вы мысленно делите их на две группы. Вы только что выполнили кластеризацию. Вы не знаете названий этих групп, но вы поняли структуру популяции.

В бизнесе и науке таких задач огромное количество: * Банк хочет разделить клиентов на сегменты, чтобы предлагать разные услуги. * Биолог хочет сгруппировать генетические последовательности по схожести. * Маркетолог хочет найти похожие товары в ассортименте магазина.

Кластеризация: поиск порядка в хаосе

Кластеризация — это задача разбиения множества объектов на группы (кластеры) так, чтобы объекты внутри одной группы были более похожи друг на друга, чем на объекты из других групп.

Самым популярным и простым для понимания алгоритмом здесь является K-Means (Метод k-средних).

Алгоритм K-Means

Идея метода гениально проста. Допустим, мы хотим разделить наши данные на групп (число мы должны задать сами заранее).

Алгоритм работает пошагово:

Инициализация: Мы случайным образом выбираем точек в пространстве данных. Эти точки называются центроидами (центрами кластеров).

Присвоение: Для каждой точки данных мы считаем расстояние до всех центроидов и относим точку к тому кластеру, чей центроид ближе всего.

Обновление: После того как все точки распределены, мы пересчитываем положение центроидов. Новый центроид становится в геометрический центр (среднее арифметическое) всех точек своего кластера.

Повторение: Мы повторяем шаги 2 и 3 до тех пор, пока центроиды не перестанут двигаться (или пока изменения не станут незначительными).

!Иллюстрация итеративного процесса обучения алгоритма K-Means: от случайного выбора центров до финальной кластеризации.

Как измерить «похожесть»?

Чтобы понять, к какому центроиду точка ближе, нам нужна математическая формула расстояния. Чаще всего используется Евклидово расстояние — то самое, которое мы изучали в школе как теорему Пифагора, только для многомерного пространства.

Для двух точек на плоскости формула выглядит так:

Где: * — расстояние между точкой и точкой (distance). * — квадратный корень. * — координаты первой точки (например, и ). * — координаты второй точки. * — квадрат разницы координат по первой оси.

Чем меньше это расстояние, тем «похожее» объекты.

Проблемы K-Means

У этого метода есть свои недостатки:

Нужно знать : Вы должны заранее сказать алгоритму, сколько кластеров искать. Если вы скажете «найди 3 группы», а в данных их реально 5, результат будет некорректным.

Чувствительность к инициализации: Если неудачно поставить начальные центроиды, алгоритм может найти неоптимальное решение.

Форма кластеров: K-Means хорошо работает с круглыми «облаками» точек, но плохо справляется с кластерами сложной формы (например, один кластер в форме кольца вокруг другого).

Иерархическая кластеризация

Если мы не знаем, сколько у нас кластеров, на помощь приходит иерархическая кластеризация. Этот метод строит дерево (дендрограмму) вложенности кластеров.

Суть метода (агломеративный подход):

Сначала каждая точка считается отдельным кластером.

Находим два самых близких кластера и объединяем их в один.

Повторяем шаг 2, пока все точки не сольются в один гигантский кластер.

В итоге мы получаем структуру, похожую на генеалогическое древо. Мы можем «разрезать» это дерево на любом уровне, получив нужное количество групп.

Снижение размерности: борьба с проклятием

Вторая важнейшая задача обучения без учителя — снижение размерности (Dimensionality Reduction).

Представьте таблицу данных, где каждая строка — это клиент, а столбцы — информация о нем. Возраст, доход, город, количество детей, марка машины, любимый цвет, частота покупок... Столбцов (признаков) могут быть сотни и тысячи.

В машинном обучении это называется проклятием размерности (Curse of Dimensionality). Чем больше признаков: * Тем сложнее алгоритму найти закономерности (данные становятся «разреженными»). * Тем дольше идут вычисления. * Тем сложнее нам визуализировать данные (мы не можем представить график в 100-мерном пространстве).

Задача снижения размерности — сжать информацию, оставив только самое важное. Это похоже на архивацию файла или создание краткого пересказа книги.

Метод главных компонент (PCA)

Самый известный алгоритм здесь — PCA (Principal Component Analysis).

Представьте, что вы фотографируете летящую птицу. Птица — трехмерный объект (3D). Фотография — двумерная (2D). Вы потеряли одно измерение (глубину), но, если вы выбрали удачный ракурс, вы всё равно понимаете, что это птица, и видите размах её крыльев.

PCA делает именно это: он ищет такой «ракурс» (проекцию) для многомерных данных, при котором теряется минимум информации.

!Визуализация работы PCA: проекция трехмерных данных на двумерную плоскость с сохранением основной структуры.

Что такое «информация» для математики?

В контексте PCA количество информации измеряется дисперсией (разбросом данных). Если по какому-то признаку у всех объектов одинаковые значения (например, у всех людей 2 ноги), этот признак не несет информации для различения объектов. А вот если значения сильно отличаются (рост, вес), это важно.

PCA находит новые оси (главные компоненты), вдоль которых разброс данных максимален.

Формально, дисперсия выборки рассчитывается так:

Где: * — дисперсия (Variance), мера разброса данных. * — сумма по всем элементам выборки. * — значение конкретного элемента. * — среднее арифметическое всех значений выборки. * — количество элементов.

PCA создает новые признаки (компоненты), которые являются комбинацией старых, и сортирует их по важности. Часто оказывается, что 95% информации содержится в первых 2-3 компонентах, а остальные 97 признаков — это просто шум, который можно отбросить.

Поиск аномалий (Anomaly Detection)

Еще одно интересное применение обучения без учителя — поиск того, что не похоже на других. Это критически важно для: * Кибербезопасности: обнаружение хакерских атак (нетипичный трафик). * Банковской сферы: поиск мошеннических транзакций (кто-то снял деньги в другой стране в 3 часа ночи). * Производства: обнаружение бракованных деталей по звуку или фото.

Алгоритмы строят модель «нормального» поведения данных. Всё, что слишком сильно отклоняется от этой нормы (находится далеко от всех кластеров), помечается как аномалия.

Заключение

Обучение без учителя — это мощный инструмент для разведочного анализа данных. Оно помогает нам найти структуру там, где мы её не видим, и упростить данные, которые кажутся слишком сложными.

Мы разобрали:

Кластеризацию (K-Means): группировка похожих объектов.

Снижение размерности (PCA): сжатие данных с сохранением смысла.

Теперь, когда мы знаем, как обучать модели с учителем и без, возникает главный вопрос: а как понять, что наша модель работает хорошо? Как измерить её качество не «на глаз», а в цифрах? Об этом мы поговорим в следующей статье, посвященной метрикам качества и валидации моделей.

4. Основы нейронных сетей и глубокого обучения

Основы нейронных сетей и глубокого обучения

Мы прошли долгий путь от простых линейных моделей до алгоритмов кластеризации. В предыдущих статьях мы научились предсказывать числа с помощью регрессии, классифицировать объекты и даже находить скрытые структуры в данных без учителя. Однако, когда речь заходит о распознавании лиц, переводе текстов или управлении беспилотным автомобилем, классических методов часто оказывается недостаточно.

Сегодня мы открываем дверь в самую захватывающую и обсуждаемую область искусственного интеллекта — нейронные сети и глубокое обучение (Deep Learning). Мы разберемся, как математика пытается имитировать работу человеческого мозга и почему это привело к технологической революции.

Биологическое вдохновение

Идея нейронных сетей возникла из попытки понять, как работает наш собственный мозг. Мозг состоит из миллиардов клеток, называемых нейронами. Они связаны друг с другом в гигантскую сеть.

Упрощенно биологический нейрон работает так:

Получает электрические сигналы от других нейронов через отростки — дендриты.

Суммирует эти сигналы.

Если суммарный сигнал достаточно сильный, нейрон «активируется» и передает импульс дальше по длинному отростку — аксону.

Место контакта двух нейронов называется синапсом. Синапсы могут усиливать или ослаблять сигнал.

Искусственные нейронные сети (Artificial Neural Networks, ANN) — это математическая модель этого процесса. Мы не копируем мозг точь-в-точь, но заимствуем ключевую идею: множество простых элементов, соединенных связями разной силы, могут решать сложнейшие задачи.

Искусственный нейрон: Перцептрон

Базовый строительный блок нейросети называется искусственным нейроном или перцептроном. Давайте заглянем внутрь него.

!Схематическое устройство искусственного нейрона: входы умножаются на веса, суммируются и проходят через функцию активации.

Работа нейрона состоит из трех этапов:

1. Взвешенная сумма

Нейрон получает входные данные (например, пиксели изображения или параметры квартиры). Каждому входу присваивается вес (weight). Вес показывает важность этого входа. Если мы предсказываем цену квартиры, вес для «площади» будет большим, а для «цвета стен» — маленьким или нулевым.

Математически это выглядит как сумма произведений входов на их веса плюс специальный параметр — смещение (bias):

Где: * — результат взвешенной суммы (промежуточное значение до активации). * — количество входов. * — знак суммы (мы складываем все элементы). * — вес -го входа (насколько важен этот признак). * — значение -го входа (сами данные). * — смещение (bias), позволяющее сдвигать функцию активации влево или вправо, чтобы лучше подстраиваться под данные (аналог свободного члена в линейном уравнении).

2. Функция активации

Если мы просто будем передавать сумму дальше, наша нейросеть останется обычной линейной регрессией, сколько бы слоев мы ни добавили. Чтобы решать сложные задачи (например, отделить кошек от собак, где зависимость явно не линейная), нам нужна нелинейность.

Для этого сумму пропускают через функцию активации. Она решает, насколько сильно должен «выстрелить» нейрон.

Популярные функции активации:

* Сигмоида (Sigmoid): Превращает любое число в диапазон от 0 до 1. Использовалась раньше, сейчас реже. * ReLU (Rectified Linear Unit): Самая популярная функция в глубоком обучении. Она работает очень просто: если число отрицательное, она возвращает 0. Если положительное — оставляет его как есть.

Формула ReLU:

Где: * — выходное значение функции активации. * — функция выбора максимального значения. * — ноль. * — входное значение (наша взвешенная сумма).

3. Выход

Результат функции активации передается следующему слою нейронов или становится итоговым ответом сети.

Архитектура нейронной сети

Один нейрон может решать только примитивные задачи. Сила нейросетей — в коллективе. Нейроны объединяются в слои.

Типичная полносвязная сеть (Feedforward Neural Network) состоит из:

Входной слой (Input Layer): Принимает исходные данные (числа, векторы). Он ничего не считает, просто передает данные дальше.

Скрытые слои (Hidden Layers): Находятся между входом и выходом. Именно здесь происходит «магия» — выделение признаков и поиск закономерностей. Их может быть от одного до сотен.

Выходной слой (Output Layer): Выдает финальный результат (вероятность класса, число и т.д.).

!Структура полносвязной нейронной сети с двумя скрытыми слоями.

Термин «Глубокое обучение» (Deep Learning) означает просто использование нейронных сетей с большим количеством скрытых слоев. Чем глубже сеть, тем более сложные и абстрактные признаки она может выучить.

Как учится нейросеть?

Самый частый вопрос: «Как сеть понимает, какие веса нужно выставить?»

Изначально веса расставляются случайным образом. Сеть «глупая» и выдает случайные ответы. Процесс обучения — это настройка весов так, чтобы ошибка предсказания стала минимальной. Этот процесс состоит из цикла:

1. Прямое распространение (Forward Propagation)

Мы подаем данные на вход. Сигнал проходит через все слои, умножается на веса, проходит через функции активации, и в конце сеть выдает ответ. Например, она говорит: «Это кошка с вероятностью 30%» (хотя на фото собака).

2. Вычисление ошибки (Loss Function)

Мы сравниваем ответ сети с правильным ответом (у нас же обучение с учителем). Функция потерь (Loss Function) вычисляет число, показывающее, насколько сильно ошиблась сеть.

3. Обратное распространение ошибки (Backpropagation)

Это ключевой алгоритм, сделавший революцию в 80-х годах. Мы идем от выхода ко входу и вычисляем, какой вклад внес каждый конкретный вес в общую ошибку. Мы как бы говорим каждому нейрону: «Ты ошибся вот настолько, скорректируйся».

Для этого используется метод градиентного спуска (Gradient Descent). Представьте, что вы стоите на вершине горы в тумане и хотите спуститься в самую низкую точку долины. Вы ощупываете землю ногами, находите, где склон идет вниз, и делаете маленький шаг в эту сторону. Повторяя это много раз, вы дойдете до низа.

В математике это обновление весов выглядит так:

Где: * — новое, обновленное значение веса. * — старое текущее значение веса. * (альфа) — скорость обучения (learning rate). Это размер вашего «шага» с горы. Если шаг слишком большой, можно перепрыгнуть низину. Если слишком маленький — будете идти вечно. * — градиент (частная производная). Это направление самого крутого подъема. Мы вычитаем его, чтобы идти в противоположную сторону — вниз, к минимуму ошибки .

Почему Глубокое обучение стало популярным сейчас?

Нейросети придумали еще в середине XX века. Почему бум случился только после 2010 года?

Большие данные (Big Data): Нейросетям нужны миллионы примеров, чтобы обучиться. Интернет дал нам эти данные.

Вычислительная мощность (GPU): Обучение требует триллионов простых математических операций. Видеокарты (GPU), созданные для игр, идеально подошли для этих расчетов.

Алгоритмические улучшения: Появление новых функций активации (ReLU), методов регуляризации и оптимизаторов сделало обучение глубоких сетей стабильным.

Отличие от классического ML

В классическом машинном обучении (например, линейной регрессии) инженер часто сам придумывает признаки. Например, для оценки стоимости квартиры мы вручную создаем колонку «расстояние до метро».

В глубоком обучении (Deep Learning) сеть сама извлекает признаки. Вы подаете ей «сырые» пиксели картинки. Первые слои учатся распознавать линии и углы. Следующие — геометрические фигуры. Последние — глаза, уши и носы. Вам не нужно объяснять сети, как выглядит ухо, она поймет это сама в процессе обучения.

Заключение

Нейронные сети — это мощнейший инструмент, который имитирует способность мозга к обучению. Они состоят из слоев простых нейронов, которые обмениваются сигналами. Обучение сети — это автоматическая настройка весов связей с помощью алгоритма обратного распространения ошибки.

Теперь, когда мы понимаем теорию того, как «думает» искусственный интеллект, пришло время поговорить о том, как оценить его успехи. В следующей статье мы разберем метрики качества моделей и узнаем, как не обмануть самих себя при тестировании алгоритмов.

5. Оценка качества моделей и внедрение решений в продакшн

Оценка качества моделей и внедрение решений в продакшн

Поздравляю! Мы прошли огромный путь. Мы изучили, как работают линейные модели, как деревья принимают решения, как группируются данные без учителя и даже как «думают» нейронные сети. Но в реальном мире Data Science создание модели — это только половина дела (и часто — меньшая).

Представьте, что вы создали нейросеть, которая предсказывает наличие пневмонии по рентгеновским снимкам. Она выдает какой-то результат. Но можете ли вы доверить ей жизни пациентов? Как доказать врачу, что ваша программа не ошибается? И как сделать так, чтобы этой программой могли пользоваться в больнице, а не только на вашем ноутбуке?

В этой завершающей статье курса мы ответим на два главных вопроса: как измерить качество модели и как внедрить её в реальную работу.

Часть 1. Метрики качества: как не обмануть себя

Новички часто совершают одну и ту же ошибку: они смотрят только на одну метрику (обычно это точность/accuracy) и радуются высоким показателям. Давайте разберемся, почему это опасно.

Метрики для задач регрессии

Когда мы предсказываем число (цену, температуру, спрос), нам важно знать, насколько сильно мы «промахнулись».

Ранее мы уже упоминали MSE (Mean Squared Error). Но у неё есть недостаток: она измеряется в «квадратных» единицах (например, в «квадратных рублях»), что сложно интерпретировать. Поэтому часто используют другие метрики.

#### 1. MAE (Mean Absolute Error)

Это средняя абсолютная ошибка. Мы просто берем модуль разницы между предсказанием и реальностью и усредняем.

Где: * — средняя абсолютная ошибка. * — количество примеров. * — сумма по всем примерам. * — модуль числа (отбрасываем знак минус). * — реальное значение. * — предсказанное значение.

Если , это значит, что в среднем наша модель ошибается на 1000 рублей (или градусов) в любую сторону. Это очень понятно для бизнеса.

#### 2. Коэффициент детерминации ()

Эта метрика показывает, какую долю разнообразия (дисперсии) данных объясняет наша модель. Она измеряется от до 1.

Где: * — коэффициент детерминации. * — единица. * — реальное значение. * — предсказанное значение. * — среднее арифметическое всех реальных значений (простое предсказание средним).

Если , модель идеальна. Если , модель работает так же, как если бы мы просто всегда предсказывали среднее значение. Если , модель работает хуже, чем простое угадывание среднего.

Метрики для задач классификации

Здесь всё интереснее. Допустим, мы ищем редкое заболевание, которое встречается у 1 человека из 100. Если наша модель будет всем говорить «Здоров», её точность (Accuracy) будет 99%! Но такая модель бесполезна, так как она пропустит всех больных.

Для оценки таких задач используют Матрицу ошибок (Confusion Matrix).

!Визуализация четырех возможных исходов классификации.

На основе этих четырех чисел строятся главные метрики:

#### 1. Точность (Precision)

Отвечает на вопрос: «Из всех, кого модель назвала больными, сколько на самом деле больных?»

Где: * — точность (не путать с Accuracy). * (True Positive) — верно предсказанные положительные примеры. * (False Positive) — ложные срабатывания (ошибка первого рода).

Высокая Precision важна, например, в спам-фильтре. Лучше пропустить спам во входящие, чем отправить важное письмо от начальника в папку «Спам».

#### 2. Полнота (Recall)

Отвечает на вопрос: «Какую долю реальных больных модель смогла найти?»

Где: * — полнота. * — верно предсказанные положительные. * (False Negative) — пропуски (ошибка второго рода).

Высокий Recall критически важен в медицине. Лучше назначить лишнее обследование здоровому (ложная тревога), чем отпустить домой больного человека.

#### 3. F1-мера (F1-Score)

Часто Precision и Recall противоречат друг другу: повышаем одно — падает другое. Чтобы найти баланс, используют их среднее гармоническое:

Где: * — итоговая метрика качества. * — точность. * — полнота.

Часть 2. Валидация: экзамен для модели

Нельзя проверять модель на тех же данных, на которых она училась. Это всё равно что дать студенту перед экзаменом ответы на билеты. Он выучит их наизусть, получит 5, но ничего не будет знать.

Это явление называется переобучением (Overfitting). Модель просто запоминает примеры, но не находит закономерности.

Чтобы этого избежать, данные всегда делят на части:

Обучающая выборка (Train): На ней модель учится (обычно 70-80% данных).

Тестовая выборка (Test): На ней мы проверяем качество. Модель видит эти данные впервые (20-30%).

Кросс-валидация (Cross-Validation)

Если данных мало, разбиение на Train/Test может быть неудачным (в тест случайно попадут только легкие примеры). Тогда используют кросс-валидацию.

Мы делим данные, например, на 5 частей (фолдов). Мы обучаем модель 5 раз: * 1-й раз: учим на частях 1-4, тестируем на 5. * 2-й раз: учим на частях 1,2,3,5, тестируем на 4. * И так далее.

В итоге мы получаем 5 оценок качества и усредняем их. Это самая честная оценка.

!Процесс перекрестной проверки модели на разных частях данных.

Часть 3. Внедрение в продакшн (Deployment)

Допустим, вы обучили модель, и метрики отличные. Что дальше? Файл с кодом на вашем ноутбуке не приносит пользы бизнесу. Модель нужно деплоить — внедрять в работающую систему.

Жизненный цикл модели

Сериализация: Обученная модель — это набор чисел (весов). Мы должны сохранить её в файл. В Python для этого часто используют библиотеки pickle или joblib, а для нейросетей — форматы ONNX или SavedModel.

Обертка в API: Чтобы сайт или мобильное приложение могли общаться с моделью, мы создаем веб-сервис (например, на Flask или FastAPI). Приложение отправляет запрос (данные клиента), сервис запускает модель и возвращает ответ (предсказание).

Контейнеризация: Чтобы всё это работало на любом сервере, код и модель упаковывают в Docker-контейнер. Это «виртуальная коробка», где есть всё необходимое для запуска.

Мониторинг: Это самое важное. После запуска работа не заканчивается.

Проблема Data Drift

Мир меняется. Модель, обученная предсказывать цены на квартиры в 2019 году, будет бесполезна в 2024-м, потому что рынок изменился. Это называется дрейфом данных (Data Drift).

В продакшене необходимо постоянно следить за метриками. Если качество начинает падать, модель нужно переобучать на новых, свежих данных.

Заключение курса

Мы завершаем наш курс «Основы машинного обучения: от теории к практике». Мы прошли путь от понимания того, что такое ИИ, до сложных нейросетей и правил их проверки.

Машинное обучение — это не магия. Это:

Данные: Качественные и подготовленные.

Алгоритмы: Математика, находящая закономерности.

Валидация: Строгая проверка результатов.

Инженерия: Внедрение и поддержка кода.

Теперь у вас есть фундамент, чтобы углубляться в специфические области: компьютерное зрение (CV), обработку естественного языка (NLP) или рекомендательные системы. Удачи в обучении и создании умных алгоритмов!