Основы Data Analytics: от сырых данных к инсайтам

1. Введение в аналитику данных: основные понятия, виды анализа и обзор инструментов

Введение в аналитику данных: основные понятия, виды анализа и обзор инструментов

Добро пожаловать в курс «Основы Data Analytics: от сырых данных к инсайтам». Мы начинаем наше путешествие в мир данных с самой важной, фундаментальной темы. Сегодня мы разберемся, что такое аналитика данных, почему она стала «нефтью» XXI века, какие виды анализа существуют и с помощью каких инструментов специалисты превращают хаос цифр в понятные бизнес-решения.

Что такое аналитика данных?

В современном мире каждую секунду генерируются терабайты информации: клики на сайтах, транзакции в магазинах, показания датчиков на заводах, посты в социальных сетях. Но сами по себе эти данные — просто «цифровой шум». Они не несут ценности, пока не будут обработаны.

Аналитика данных (Data Analytics) — это процесс изучения, очистки, преобразования и моделирования данных с целью обнаружения полезной информации, обоснования выводов и поддержки принятия решений.

Проще говоря, аналитика — это мост между вопросом «Что происходит?» и ответом «Что нам с этим делать?».

Пирамида DIKW

Чтобы лучше понять суть процесса, аналитики часто используют модель DIKW. Это иерархия, показывающая путь трансформации данных.

!Иерархия DIKW: от сырых данных к мудрости принятия решений

Data (Данные): Сырые факты и цифры без контекста. Пример: число 38.

Information (Информация): Данные, наделенные смыслом и контекстом. Пример: Температура тела пациента — 38 градусов.

Knowledge (Знания): Информация, объединенная с опытом и пониманием закономерностей. Пример: У пациента жар, это может быть симптомом гриппа.

Wisdom (Мудрость/Инсайт): Применение знаний для принятия правильного решения. Пример: Нужно назначить жаропонижающее и отправить на анализы.

Задача аналитика — провести бизнес по этому пути снизу вверх.

Типы данных: с чем нам предстоит работать

Прежде чем анализировать, нужно понять, с чем мы имеем дело. Глобально данные делятся на две большие категории:

1. Структурированные данные

Это данные, которые легко организовать в таблицы (строки и столбцы). Они имеют четкую модель и формат. * Примеры: Excel-таблицы, базы данных SQL, CSV-файлы. * Что внутри: Имена клиентов, даты транзакций, цены, складские остатки.

2. Неструктурированные данные

Это информация, которая не имеет заранее определенной модели. Она хаотична и сложна для обработки традиционными методами. * Примеры: Тексты электронных писем, видеозаписи с камер наблюдения, аудиофайлы звонков в колл-центр, фотографии, посты в соцсетях. * Факт: По оценкам экспертов, около 80% всех данных в мире — неструктурированные.

Четыре вида аналитики данных

Аналитика не бывает одинаковой. В зависимости от того, на какой вопрос мы хотим ответить, выделяют четыре основных типа анализа. Сложность и ценность анализа растут от первого к четвертому типу.

!График зависимости ценности анализа от его сложности

1. Описательная аналитика (Descriptive Analytics)

Отвечает на вопрос: «Что случилось?»

Это самый базовый уровень. Мы смотрим на исторические данные и описываем их. Здесь используются отчеты, дашборды и ключевые показатели эффективности (KPI).

Пример:* «Продажи мороженого в июле составили 1 000 000 рублей».

Для описательной аналитики часто используются простые математические операции, например, вычисление среднего арифметического:

Где: * — среднее значение (например, средний чек), * — количество наблюдений (количество чеков), * — знак суммирования (сумма всех значений), * — значение конкретного наблюдения (сумма конкретного чека).

2. Диагностическая аналитика (Diagnostic Analytics)

Отвечает на вопрос: «Почему это случилось?»

На этом этапе мы углубляемся в данные, чтобы найти причины событий. Мы ищем корреляции (взаимосвязи) и аномалии.

Пример:* «Продажи выросли, потому что в июле была аномальная жара, и мы запустили рекламную акцию».

3. Предиктивная аналитика (Predictive Analytics)

Отвечает на вопрос: «Что, скорее всего, случится?»

Здесь используются статистические модели и алгоритмы машинного обучения для прогнозирования будущих событий на основе прошлых данных. Важно понимать, что это не предсказание будущего со 100% вероятностью, а лишь прогноз.

Пример:* «Если жара продолжится, то в августе мы продадим мороженого на 1 200 000 рублей с вероятностью 85%».

4. Предписательная аналитика (Prescriptive Analytics)

Отвечает на вопрос: «Что нам нужно сделать?»

Это высший пилотаж. Система не просто прогнозирует, но и рекомендует конкретные действия для достижения наилучшего результата.

Пример:* «Чтобы максимизировать прибыль в августе, нужно увеличить закупку шоколадного мороженого на 20% и снизить цену на ванильное на 5%».

Обзор инструментов аналитика

Аналитик данных — это не тот, кто считает в уме. Это специалист, владеющий набором мощных инструментов. В зависимости от задач, набор может меняться, но есть «золотой стандарт».

Табличные процессоры (Excel, Google Sheets)

Не стоит недооценивать Excel. Для быстрой проверки гипотез, базовых расчетов и работы с небольшими наборами данных (до 1 млн строк) — это идеальный инструмент. * Для чего: Сводные таблицы, базовые графики, первичная очистка данных.

SQL (Structured Query Language)

Язык запросов к базам данных. Это «английский язык» в мире данных. Если данные хранятся в базе компании, вам нужен SQL, чтобы их оттуда достать. * Для чего: Выгрузка данных, фильтрация, объединение таблиц из разных источников.

BI-системы (Business Intelligence)

Инструменты для визуализации и создания интерактивных отчетов (дашбордов). Самые популярные: Tableau, Power BI, Looker. * Для чего: Превращение сухих таблиц в красивые, понятные графики, которые можно показать директору.

Языки программирования (Python, R)

Когда Excel не справляется с объемом, а SQL недостаточно гибок для сложной статистики, в игру вступает программирование. Python сейчас является лидером благодаря своей простоте и мощным библиотекам (Pandas, Matplotlib). * Для чего: Сложная обработка данных, автоматизация рутины, машинное обучение, предиктивная аналитика.

Жизненный цикл аналитического проекта

Работа над любой задачей обычно проходит по следующему алгоритму:

Постановка задачи. Понимание того, что нужно бизнесу.

Сбор данных. Выгрузка из баз, парсинг сайтов, получение Excel-файлов.

Очистка данных (Data Cleaning). Самый трудоемкий этап. Удаление дубликатов, исправление ошибок, работа с пропусками.

Анализ. Поиск закономерностей, расчет метрик.

Визуализация. Создание графиков и дашбордов.

Интерпретация и презентация. Объяснение результатов заказчику простым языком.

> «Данные — как мусор. Вы должны знать, что вы собираетесь с ними делать, прежде чем собирать их». — Марк Твен (приписывается)

Заключение

Сегодня мы заложили фундамент. Вы узнали, что аналитика — это процесс превращения сырых данных в мудрость (DIKW), познакомились с четырьмя видами анализа и узнали, какие инструменты лежат в рюкзаке у каждого аналитика.

В следующей статье мы подробно разберем, где именно живут данные, что такое базы данных и как они устроены, чтобы подготовиться к изучению языка SQL.

2. Сбор и подготовка данных: SQL, очистка и предварительная обработка информации

Сбор и подготовка данных: SQL, очистка и предварительная обработка информации

В предыдущей статье мы рассмотрели пирамиду DIKW и узнали, что цель аналитики — превратить сырые данные в мудрость. Но прежде чем строить красивые графики или обучать нейросети, данные нужно добыть и привести в порядок.

В профессиональной среде существует негласное правило «80/20»: 80% времени аналитика уходит на поиск, очистку и подготовку данных, и только 20% — на сам анализ и моделирование. Если этот этап пропустить или выполнить небрежно, сработает принцип GIGO (Garbage In, Garbage Out — «Мусор на входе, мусор на выходе»). Даже самый совершенный алгоритм выдаст ошибочный результат, если «скармливать» ему некорректные данные.

Сегодня мы разберем, где живут данные, как общаться с базами данных на языке SQL и как проводить генеральную уборку в ваших таблицах.

Где живут данные: Базы данных против Excel

Многие новички привыкли хранить данные в Excel-файлах. Это удобно для личных задач, но когда речь идет о бизнесе с миллионами транзакций, Excel перестает справляться. Он начинает «тормозить», в нем сложно настроить одновременный доступ для сотен сотрудников, и велик риск случайно удалить важную ячейку.

Для серьезных задач используются Базы Данных (БД).

Представьте, что Excel — это бумажный блокнот. Вы можете писать в нем что угодно и где угодно. База данных — это картотека в огромной библиотеке. В ней строгие правила: каждая карточка лежит в своем ящике, и вы не можете записать номер телефона в поле для года издания книги.

Реляционные базы данных (RDBMS)

Самый популярный тип хранилищ в аналитике — реляционные базы данных (от англ. relation — отношение, связь). Данные в них хранятся в таблицах, которые связаны друг с другом логическими ключами.

!Пример структуры реляционной базы данных, где таблицы связаны между собой уникальными ключами.

Основные элементы такой базы: * Таблица: Набор данных по одной теме (например, «Клиенты»). * Строка (Запись): Информация об одном объекте (один конкретный клиент). * Столбец (Поле): Атрибут объекта (имя клиента, возраст, email).

SQL: Язык общения с данными

Чтобы получить данные из такой «библиотеки», нельзя просто открыть файл двойным щелчком. Нужно отправить запрос библиотекарю. В мире данных этим библиотекарем является СУБД (Система Управления Базами Данных), а языком запросов — SQL (Structured Query Language).

SQL — это стандарт. Неважно, используете ли вы PostgreSQL, MySQL, MS SQL Server или Oracle — основные команды будут одинаковыми.

Анатомия простого запроса

Представьте, что вы хотите получить список всех клиентов из Москвы. На языке SQL это выглядит так:

Разберем этот запрос:

SELECT (Выбрать): Указываем, какие столбцы нам нужны (Name, Email). Если нужны все столбцы, используется символ *.

FROM (Из): Указываем название таблицы, откуда берем данные (Clients).

WHERE (Где): Задаем условие фильтрации (City = 'Moscow').

Аналитику не всегда нужно быть экспертом в проектировании баз данных, но уметь написать SELECT-запрос, чтобы выгрузить нужную информацию для отчета — это обязательный навык (Hard Skill).

Очистка данных (Data Cleaning)

Итак, мы написали SQL-запрос и выгрузили данные в CSV-файл или сразу в Python. Думаете, можно начинать анализ? Скорее всего, нет. Сырые данные почти всегда «грязные».

Очистка данных — это процесс обнаружения и исправления (или удаления) поврежденных, неточных или нерелевантных записей.

1. Пропуски в данных (Missing Values)

Часто в таблицах встречаются пустые ячейки. В базах данных они обозначаются как NULL, в Python (библиотека Pandas) — как NaN (Not a Number).

Причины появления: * Пользователь не заполнил необязательное поле при регистрации. * Сбой в системе сбора данных. * Данные еще не поступили.

Что с ними делать? * Удалить: Если пропусков мало (например, менее 5% строк), можно просто удалить эти строки. * Заполнить (Импутация): Заменить пустоту на среднее значение, медиану или ноль. Например, если не указан возраст клиента, можно подставить средний возраст по базе. * Оставить как есть: Иногда сам факт отсутствия данных является сигналом (например, клиент не указал телефон, потому что не хочет получать спам).

2. Дубликаты

Одна и та же транзакция записалась дважды из-за сбоя интернета, или один клиент зарегистрировался дважды с разными почтами. Дубликаты искажают статистику — вы можете посчитать прибыль в двойном размере.

3. Аномалии и выбросы (Outliers)

Выброс — это значение, которое сильно отличается от остальных данных.

Пример: Вы анализируете зарплаты в небольшом баре. Средняя зарплата посетителей — 50 000 рублей. Вдруг в бар заходит миллиардер. Средняя зарплата (среднее арифметическое) мгновенно подскакивает до миллионов. Отражает ли это реальную картину? Нет.

Для обнаружения выбросов часто используют метод межквартильного размаха или Z-оценку. Если значение отклоняется от среднего слишком сильно, его нужно проверить.

Предварительная обработка (Preprocessing)

После очистки данные нужно привести к формату, пригодному для модели или анализа. Это называется нормализацией или масштабированием.

Зачем это нужно?

Представьте, что у вас есть два столбца:

Возраст: от 18 до 90 лет.

Зарплата: от 20 000 до 500 000 рублей.

Для многих алгоритмов машинного обучения разница в числах (90 против 500 000) будет критичной. Алгоритм решит, что зарплата в тысячи раз важнее возраста просто потому, что число больше. Чтобы этого избежать, данные приводят к одному масштабу, обычно от 0 до 1.

Min-Max Normalization

Один из самых простых способов масштабирования — Min-Max нормализация. Она сжимает все данные в диапазон [0, 1].

Формула выглядит так:

Где: * — новое, нормализованное значение (которое будет от 0 до 1), * — исходное значение, которое мы хотим изменить, * — самое маленькое значение во всем столбце, * — самое большое значение во всем столбце.

!Визуализация процесса нормализации данных: приведение разных шкал к единому диапазону.

Работа с типами данных

Еще один важный этап — приведение типов. * Даты: Строку "2023-10-05" нужно превратить в объект даты, чтобы можно было извлечь месяц или день недели. * Категории: Компьютер не понимает слова "Красный", "Зеленый", "Синий". Ему нужны числа. Мы можем закодировать их: Красный = 1, Зеленый = 2, Синий = 3.

Чек-лист готовности данных

Прежде чем переходить к следующему этапу курса — визуализации и поиску инсайтов, проверьте свой набор данных по этому чек-листу:

Полнота: Нет критических пропусков (NULL).

Уникальность: Нет полных дубликатов строк.

Единообразие: Все даты в одном формате (DD.MM.YYYY), все валюты приведены к одной (например, рубли).

Отсутствие аномалий: Странные выбросы (возраст 200 лет, цена -500 рублей) удалены или исправлены.

Читаемость: Названия столбцов понятны и написаны на латинице без пробелов (например, order_date вместо Дата заказа).

Заключение

Сбор и подготовка данных — это фундамент. Без прочного фундамента здание аналитики рухнет. Мы научились запрашивать данные с помощью SQL, поняли важность очистки от «мусора» и узнали, как математически выравнивать данные с помощью нормализации.

В следующей статье мы перейдем к самой творческой части работы — Разведочному анализу данных (EDA). Мы будем учиться «чувствовать» данные и находить в них скрытые закономерности с помощью визуализации.