1. Введение в Data Science: сбор, очистка и разведочный анализ данных (EDA)
Введение в Data Science: сбор, очистка и разведочный анализ данных (EDA)
Добро пожаловать в курс «Современные методы анализа данных и машинного обучения». Мы начинаем наше путешествие с фундамента, на котором строится любая модель искусственного интеллекта. Часто новички стремятся сразу перейти к созданию нейронных сетей, игнорируя этапы работы с данными. Это критическая ошибка. В реальности Data Scientist тратит до 80% времени именно на подготовку данных, и только 20% — на моделирование.
В этой статье мы разберем жизненный цикл данных: откуда они берутся, как их привести в порядок и как понять, что они скрывают, еще до того, как мы применим сложные алгоритмы.
Что такое Data Science?
Data Science (Наука о данных) — это междисциплинарная область, использующая научные методы, процессы, алгоритмы и системы для извлечения знаний и инсайтов из структурированных и неструктурированных данных.
Представьте, что данные — это сырая нефть. Сама по себе она имеет низкую ценность. Чтобы получить топливо (ценную информацию или прогноз), нефть нужно добыть, очистить и переработать. Именно этим и занимается Data Science.
Этап 1: Сбор данных (Data Collection)
Любой проект начинается с вопроса: «Где взять данные?». Данные могут быть структурированными (таблицы, базы данных) и неструктурированными (текст, изображения, аудио).
Основные источники данных:
Этап 2: Очистка данных (Data Cleaning)
В индустрии существует принцип: Garbage In, Garbage Out (Мусор на входе — мусор на выходе). Если вы подадите в модель машинного обучения «грязные» данные, вы получите неверные прогнозы, какими бы мощными ни были ваши алгоритмы.
Основные проблемы «грязных» данных:
* Пропущенные значения (Missing Values). В таблицах они часто обозначаются как NaN (Not a Number) или null. Причины могут быть разными: пользователь не заполнил поле, ошибка датчика, сбой при выгрузке.
* Дубликаты. Повторяющиеся записи, которые могут исказить статистику.
* Выбросы (Outliers). Аномальные значения, сильно отличающиеся от остальных. Например, возраст человека 200 лет или зарплата -5000 рублей.
* Неверный формат. Например, дата записана как строка «2023/01/01» в одной ячейке и «01-01-2023» в другой.
Методы борьбы с пропусками:
Этап 3: Разведочный анализ данных (EDA)
Exploratory Data Analysis (EDA) — это процесс предварительного анализа данных с целью выявления основных закономерностей, аномалий и проверки гипотез с помощью статистики и графических представлений.
EDA помогает ответить на вопросы: * Как распределены данные? * Есть ли корреляция между признаками? * Какие факторы влияют на целевую переменную?
Описательная статистика
Для начала нам нужно описать данные числами. Рассмотрим ключевые метрики.
#### Меры центральной тенденции
Самая простая мера — это среднее арифметическое. Оно показывает «центр» данных.
Где: * — среднее арифметическое значение выборки. * — количество элементов в выборке. * — знак суммирования (сигма). * — значение -го элемента выборки.
Однако среднее чувствительно к выбросам. Если у нас есть 10 человек с зарплатой 50 000 и один с зарплатой 10 000 000, среднее будет огромным и не отразит реальность. В таких случаях используют медиану — число, которое делит упорядоченный ряд данных ровно пополам.
#### Меры разброса
Нам важно знать не только центр, но и то, насколько сильно данные разбросаны вокруг него. Для этого используют дисперсию и стандартное отклонение.
Формула дисперсии для генеральной совокупности:
Где: * — дисперсия (variance). * — знак суммирования. * — значение конкретного элемента. * — среднее значение генеральной совокупности. * — общий размер совокупности.
Дисперсия измеряется в квадратных единицах (например, «квадратные рубли»), что неудобно для интерпретации. Поэтому чаще используют стандартное отклонение (среднеквадратическое отклонение), которое является корнем из дисперсии:
Где: * — стандартное отклонение. Оно показывает, насколько в среднем значения отклоняются от среднего.
!Иллюстрация правила трех сигм для нормального распределения.
Визуализация в EDA
Человеческий мозг лучше воспринимает образы, чем таблицы. Рассмотрим основные типы графиков.
Корреляция
Корреляция показывает, насколько сильно две переменные связаны друг с другом. Самый популярный метод — коэффициент корреляции Пирсона.
Где: * — коэффициент корреляции Пирсона (значение от -1 до 1). * — значения переменных и для -го объекта. * — средние значения переменных и .
Интерпретация : * 1: Полная положительная корреляция (рост ведет к росту ). * -1: Полная отрицательная корреляция (рост ведет к падению ). * 0: Линейная связь отсутствует.
> «Корреляция не означает причинно-следственную связь (Correlation does not imply causation)». Наличие связи между продажами мороженого и нападениями акул не значит, что мороженое вызывает агрессию акул. Просто оба фактора зависят от третьего — жаркой погоды.
Инструменты для EDA
В современном мире стандартом де-факто для анализа данных является язык программирования Python. Основные библиотеки, с которыми вам предстоит работать:
* Pandas: Для работы с табличными данными (аналог Excel на стероидах). * NumPy: Для быстрых математических операций. * Matplotlib / Seaborn: Для построения графиков и визуализации.
Пример того, как просто загрузить и посмотреть данные на Python:
Заключение
Сбор, очистка и разведочный анализ данных — это фундамент Data Science. Без качественного EDA невозможно построить надежную модель. Мы научились понимать природу данных, находить в них ошибки и описывать их с помощью математической статистики и визуализации.
В следующей статье мы перейдем к более сложным концепциям и начнем знакомство с основами машинного обучения, опираясь на подготовленные нами данные.