Машинное обучение: от теории к созданию собственного ИИ

1. Введение в машинное обучение: основные понятия, типы задач и подготовка рабочего окружения Python

Введение в машинное обучение: основные понятия, типы задач и подготовка рабочего окружения Python

Добро пожаловать на курс «Машинное обучение: от теории к созданию собственного ИИ». Мы начинаем наше путешествие в мир искусственного интеллекта. В этой первой статье мы разберем фундамент, на котором строится вся современная индустрия Data Science, и подготовим инструменты, необходимые для работы.

Что такое машинное обучение?

Машинное обучение (Machine Learning, ML) — это подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Что это значит на практике? Вместо того чтобы писать жесткие инструкции для компьютера (как в традиционном программировании), мы даем ему данные и позволяем самому найти закономерности.

Традиционное программирование vs Машинное обучение

Чтобы понять суть, давайте сравним два подхода.

!Сравнение потоков данных в классическом программировании и машинном обучении

Традиционное программирование: Вы пишете правила (код) и подаете данные. Компьютер обрабатывает данные по правилам и выдает ответ.

Машинное обучение: Вы подаете данные и правильные ответы к ним. Компьютер анализирует их и создает правила (модель), которые затем можно использовать для новых данных.

> Машинное обучение — это наука о том, как заставить компьютеры действовать, не будучи явно запрограммированными. > — Артур Сэмюэл, пионер в области ИИ

Основные компоненты ML-системы

Любая задача машинного обучения строится вокруг трех китов:

* Данные (Data): Это «топливо» для алгоритма. Чем качественнее и разнообразнее данные, тем лучше результат. * Признаки (Features): Характеристики объекта, которые мы подаем на вход. Например, для предсказания цены квартиры признаками будут: площадь, район, этаж. * Алгоритм (Algorithm): Математический метод, который ищет закономерности. Результатом работы алгоритма является Модель.

Типы задач машинного обучения

Глобально задачи делятся на три большие категории. Понимание того, к какому типу относится ваша задача — это 50% успеха.

1. Обучение с учителем (Supervised Learning)

Самый распространенный тип. У нас есть набор данных, где для каждого примера уже известен правильный ответ (метка). Задача модели — научиться предсказывать этот ответ для новых данных.

Задачи обучения с учителем делятся на два подтипа:

* Регрессия: Предсказание непрерывного числа. Пример:* Прогноз цены на акции, температуры на завтра, времени в пути. * Классификация: Предсказание категории (класса). Пример:* Определение спама в почте (спам/не спам), распознавание рукописных цифр (0-9), диагностика заболеваний.

2. Обучение без учителя (Unsupervised Learning)

У нас есть данные, но нет правильных ответов. Модель предоставлена сама себе и должна найти скрытую структуру в данных.

* Кластеризация: Группировка похожих объектов. Пример:* Сегментация клиентов банка по поведению. * Понижение размерности: Упрощение данных с сохранением важной информации.

3. Обучение с подкреплением (Reinforcement Learning)

Агент обучается, взаимодействуя со средой. Он получает «награду» за правильные действия и «штраф» за неправильные. Так учатся играть в шахматы или управлять роботами.

Математическая основа: взгляд изнутри

Машинное обучение — это не магия, а математика. В основе большинства моделей лежит идея функции. Мы предполагаем, что существует некая идеальная зависимость между входом и выходом , которую мы хотим найти.

В простейшем случае (линейная регрессия) модель выглядит так:

Где: * — предсказываемое значение (например, цена квартиры). * — входной признак (например, площадь квартиры). * — вес (weight), показывающий важность признака . Чем больше , тем сильнее площадь влияет на цену. * — смещение (bias), базовое значение, когда .

Наша цель в процессе обучения — подобрать такие значения и , чтобы ошибка предсказания была минимальной.

Ошибка часто обозначается как функция потерь (Loss Function). Для одной точки данных простая ошибка может быть записана как:

Где: * — ошибка (Error) для конкретного примера. * — реальное, истинное значение из наших данных. * — значение, которое предсказала наша модель.

Мы возводим разность в квадрат, чтобы ошибка всегда была положительной и чтобы сильнее «наказывать» модель за большие промахи.

Инструментарий Data Scientist'а

Для работы мы будем использовать язык Python. Он стал стандартом де-факто в ML благодаря простоте и мощным библиотекам.

Ключевые библиотеки

NumPy: Работа с многомерными массивами и матрицами. Основа для всех остальных библиотек.

Pandas: Работа с табличными данными (аналог Excel в коде). Позволяет читать, фильтровать и анализировать данные.

Matplotlib / Seaborn: Визуализация данных. Графики, гистограммы, тепловые карты.

Scikit-learn: Самая популярная библиотека для классического машинного обучения. Содержит готовые реализации алгоритмов регрессии, классификации и кластеризации.

Подготовка рабочего окружения

У вас есть два пути: локальная установка или облачное решение. Для новичков я настоятельно рекомендую начать с облака, чтобы не тратить время на настройку.

Вариант 1: Google Colab (Рекомендуется)

Google Colab — это бесплатная облачная среда, работающая прямо в браузере. Она похожа на Google Docs, но для кода. Там уже предустановлены все необходимые библиотеки.

Зайдите на colab.research.google.com.

Нажмите «Создать блокнот» (New Notebook).

Вы готовы писать код!

Вариант 2: Локальная установка через Anaconda

Если вы хотите работать на своем компьютере:

Скачайте Anaconda Distribution с официального сайта.

Установите её, следуя инструкциям.

Запустите Jupyter Notebook из меню Anaconda Navigator.

Практика: Ваш первый код

Давайте проверим, что все работает. Откройте новый блокнот (в Colab или Jupyter) и введите следующий код в первую ячейку:

Запустите ячейку (нажмите Shift + Enter). Если вы увидели версии библиотек — поздравляю, ваше рабочее место готово!

Теперь давайте создадим простейшую структуру данных. В ML мы редко работаем с обычными списками Python, мы используем массивы NumPy.

В этом примере мы вручную задали правило (* 0.1 + 1). В следующих статьях мы заставим компьютер самому найти эти коэффициенты, имея только массивы features и targets.

Заключение

Сегодня мы разобрали, чем машинное обучение отличается от обычного программирования, узнали про основные типы задач (обучение с учителем и без) и подготовили инструменты.

В следующей статье мы погрузимся в исследовательский анализ данных (EDA) и научимся понимать данные до того, как скармливать их моделям.

2. Основы работы с данными и математический фундамент: предобработка, разведочный анализ и необходимая линейная алгебра

Основы работы с данными и математический фундамент: предобработка, разведочный анализ и необходимая линейная алгебра

В предыдущей статье мы подготовили рабочее окружение и разобрались с типами задач машинного обучения. Теперь пришло время заглянуть «под капот». Прежде чем строить сложные модели, нам нужно освоить два критически важных навыка: умение говорить на языке данных (линейная алгебра) и умение эти данные готовить (предобработка).

В среде Data Science существует золотое правило: «Garbage In, Garbage Out» (Мусор на входе — мусор на выходе). Даже самый совершенный алгоритм не даст хорошего результата на плохих данных. Сегодня мы научимся превращать «сырые» данные в чистое топливо для наших моделей.

Линейная алгебра: язык машинного обучения

Многие новички пугаются математики, но для старта в ML вам не нужно быть доктором наук. Вам нужно понимать, как данные представляются в памяти компьютера и как с ними производятся операции.

Векторы и Матрицы

В машинном обучении любой объект (например, квартира, пациент или изображение) описывается набором чисел. Этот набор называется вектором.

Представьте, что мы описываем квартиру тремя параметрами: площадь (50 кв.м), этаж (5), расстояние до метро (10 мин). Математически это вектор :

Где: * — вектор признаков (features) одного объекта. * Числа внутри — компоненты вектора.

Когда мы собираем данные о множестве квартир, мы объединяем векторы в матрицу.

!Визуализация того, как табличные данные преобразуются в матрицу признаков.

Матрица обычно имеет размерность , где: * — количество объектов (строк). * — количество признаков (столбцов).

Скалярное произведение (Dot Product)

Это самая важная операция в ML. Она позволяет умножать векторы друг на друга, чтобы получить одно число. Это основа работы нейросетей и линейной регрессии.

Формула скалярного произведения двух векторов и :

Где: * — результат скалярного произведения (одно число). * — знак суммирования. * и — соответствующие элементы первого и второго вектора. * — количество элементов в векторе.

Зачем это нужно? Представьте, что вектор — это характеристики квартиры, а вектор — это «важность» (вес) каждой характеристики. Скалярное произведение даст нам взвешенную сумму, которая может быть предсказанием цены.

Реализация в NumPy

Разведочный анализ данных (EDA)

Прежде чем применять формулы, нужно «познакомиться» с данными. Этот этап называется Exploratory Data Analysis (EDA).

Наша цель — понять структуру данных, найти аномалии и выдвинуть гипотезы. Для этого мы используем библиотеку Pandas.

Загрузка и первичный осмотр

Метод describe() — ваш лучший друг. Он покажет среднее, стандартное отклонение, минимум и максимум для каждого столбца. Если вы видите, что минимальная цена квартиры равна 0 или -100, значит, в данных есть ошибка.

Предобработка данных (Data Preprocessing)

Реальные данные редко бывают идеальными. В них есть пропуски, текст вместо чисел и разные масштабы. Модели ML не умеют работать с таким «сырьем».

1. Обработка пропущенных значений

Если в данных есть NaN (Not a Number), модель выдаст ошибку. У нас есть две стратегии:

* Удаление: Если пропусков мало, можно удалить строки с ними (df.dropna()). * Заполнение (Импутация): Заполнить пропуски средним значением, медианой или нулем (df.fillna()).

> Удаление данных — это крайняя мера. Лучше попытаться восстановить информацию, используя среднее или медиану, чтобы не терять ценные примеры для обучения.

2. Кодирование категориальных признаков

Компьютеры понимают только числа. Если у вас есть столбец «Район» со значениями «Центр», «Север», «Юг», их нужно превратить в цифры.

Label Encoding: Каждой категории присваивается число (Центр=0, Север=1, Юг=2). Проблема: Модель может решить, что Юг (2) «больше» или «лучше», чем Центр (0), хотя это просто метки.

One-Hot Encoding (OHE): Создаются новые столбцы для каждой категории, где 1 означает наличие признака, а 0 — отсутствие.

!Иллюстрация того, как одна текстовая колонка превращается в несколько бинарных колонок.

3. Масштабирование признаков (Scaling)

Представьте, что у нас есть два признака:

Площадь (от 20 до 200).

Год постройки (от 1900 до 2020).

Числа в годах намного больше, чем в площади. Многие алгоритмы (например, KNN или градиентный спуск) будут считать, что год важнее, просто потому что число больше. Чтобы этого избежать, мы приводим все признаки к одному масштабу.

Самый популярный метод — Стандартизация (Standardization). Она делает так, чтобы среднее значение признака стало равным 0, а разброс — 1.

Формула стандартизации:

Где: * — новое, масштабированное значение. * — исходное значение. * (мю) — среднее арифметическое всех значений признака. * (сигма) — стандартное отклонение (показатель того, насколько сильно данные разбросаны от среднего).

В Python для этого используется StandardScaler из библиотеки Scikit-learn.

Итоговый пайплайн

Типичный процесс подготовки данных выглядит так:

Загрузить данные.

Провести EDA (найти пропуски, выбросы, посмотреть графики).

Заполнить пропуски.

Закодировать текст (One-Hot Encoding).

Отмасштабировать числа (StandardScaler).

Только после этого шага данные можно подавать в модель.

В следующей статье мы используем эти подготовленные данные, чтобы обучить нашу первую настоящую модель — Линейную регрессию, и предсказать стоимость жилья.