Основы Data Analytics: от сырых данных к инсайтам

Этот курс погружает в мир аналитики данных, охватывая весь цикл работы: от сбора и очистки до визуализации и принятия решений. Вы освоите ключевые инструменты и методы, необходимые для трансформации информации в ценные бизнес-инсайты.

1. Введение в аналитику данных: основные понятия, виды анализа и обзор инструментов

Введение в аналитику данных: основные понятия, виды анализа и обзор инструментов

Добро пожаловать в курс «Основы Data Analytics: от сырых данных к инсайтам». Мы начинаем наше путешествие в мир данных с самой важной, фундаментальной темы. Сегодня мы разберемся, что такое аналитика данных, почему она стала «нефтью» XXI века, какие виды анализа существуют и с помощью каких инструментов специалисты превращают хаос цифр в понятные бизнес-решения.

Что такое аналитика данных?

В современном мире каждую секунду генерируются терабайты информации: клики на сайтах, транзакции в магазинах, показания датчиков на заводах, посты в социальных сетях. Но сами по себе эти данные — просто «цифровой шум». Они не несут ценности, пока не будут обработаны.

Аналитика данных (Data Analytics) — это процесс изучения, очистки, преобразования и моделирования данных с целью обнаружения полезной информации, обоснования выводов и поддержки принятия решений.

Проще говоря, аналитика — это мост между вопросом «Что происходит?» и ответом «Что нам с этим делать?».

Пирамида DIKW

Чтобы лучше понять суть процесса, аналитики часто используют модель DIKW. Это иерархия, показывающая путь трансформации данных.

!Иерархия DIKW: от сырых данных к мудрости принятия решений

  • Data (Данные): Сырые факты и цифры без контекста. Пример: число 38.
  • Information (Информация): Данные, наделенные смыслом и контекстом. Пример: Температура тела пациента — 38 градусов.
  • Knowledge (Знания): Информация, объединенная с опытом и пониманием закономерностей. Пример: У пациента жар, это может быть симптомом гриппа.
  • Wisdom (Мудрость/Инсайт): Применение знаний для принятия правильного решения. Пример: Нужно назначить жаропонижающее и отправить на анализы.
  • Задача аналитика — провести бизнес по этому пути снизу вверх.

    Типы данных: с чем нам предстоит работать

    Прежде чем анализировать, нужно понять, с чем мы имеем дело. Глобально данные делятся на две большие категории:

    1. Структурированные данные

    Это данные, которые легко организовать в таблицы (строки и столбцы). Они имеют четкую модель и формат. * Примеры: Excel-таблицы, базы данных SQL, CSV-файлы. * Что внутри: Имена клиентов, даты транзакций, цены, складские остатки.

    2. Неструктурированные данные

    Это информация, которая не имеет заранее определенной модели. Она хаотична и сложна для обработки традиционными методами. * Примеры: Тексты электронных писем, видеозаписи с камер наблюдения, аудиофайлы звонков в колл-центр, фотографии, посты в соцсетях. * Факт: По оценкам экспертов, около 80% всех данных в мире — неструктурированные.

    Четыре вида аналитики данных

    Аналитика не бывает одинаковой. В зависимости от того, на какой вопрос мы хотим ответить, выделяют четыре основных типа анализа. Сложность и ценность анализа растут от первого к четвертому типу.

    !График зависимости ценности анализа от его сложности

    1. Описательная аналитика (Descriptive Analytics)

    Отвечает на вопрос: «Что случилось?»

    Это самый базовый уровень. Мы смотрим на исторические данные и описываем их. Здесь используются отчеты, дашборды и ключевые показатели эффективности (KPI).

    Пример:* «Продажи мороженого в июле составили 1 000 000 рублей».

    Для описательной аналитики часто используются простые математические операции, например, вычисление среднего арифметического:

    Где: * — среднее значение (например, средний чек), * — количество наблюдений (количество чеков), * — знак суммирования (сумма всех значений), * — значение конкретного наблюдения (сумма конкретного чека).

    2. Диагностическая аналитика (Diagnostic Analytics)

    Отвечает на вопрос: «Почему это случилось?»

    На этом этапе мы углубляемся в данные, чтобы найти причины событий. Мы ищем корреляции (взаимосвязи) и аномалии.

    Пример:* «Продажи выросли, потому что в июле была аномальная жара, и мы запустили рекламную акцию».

    3. Предиктивная аналитика (Predictive Analytics)

    Отвечает на вопрос: «Что, скорее всего, случится?»

    Здесь используются статистические модели и алгоритмы машинного обучения для прогнозирования будущих событий на основе прошлых данных. Важно понимать, что это не предсказание будущего со 100% вероятностью, а лишь прогноз.

    Пример:* «Если жара продолжится, то в августе мы продадим мороженого на 1 200 000 рублей с вероятностью 85%».

    4. Предписательная аналитика (Prescriptive Analytics)

    Отвечает на вопрос: «Что нам нужно сделать?»

    Это высший пилотаж. Система не просто прогнозирует, но и рекомендует конкретные действия для достижения наилучшего результата.

    Пример:* «Чтобы максимизировать прибыль в августе, нужно увеличить закупку шоколадного мороженого на 20% и снизить цену на ванильное на 5%».

    Обзор инструментов аналитика

    Аналитик данных — это не тот, кто считает в уме. Это специалист, владеющий набором мощных инструментов. В зависимости от задач, набор может меняться, но есть «золотой стандарт».

    Табличные процессоры (Excel, Google Sheets)

    Не стоит недооценивать Excel. Для быстрой проверки гипотез, базовых расчетов и работы с небольшими наборами данных (до 1 млн строк) — это идеальный инструмент. * Для чего: Сводные таблицы, базовые графики, первичная очистка данных.

    SQL (Structured Query Language)

    Язык запросов к базам данных. Это «английский язык» в мире данных. Если данные хранятся в базе компании, вам нужен SQL, чтобы их оттуда достать. * Для чего: Выгрузка данных, фильтрация, объединение таблиц из разных источников.

    BI-системы (Business Intelligence)

    Инструменты для визуализации и создания интерактивных отчетов (дашбордов). Самые популярные: Tableau, Power BI, Looker. * Для чего: Превращение сухих таблиц в красивые, понятные графики, которые можно показать директору.

    Языки программирования (Python, R)

    Когда Excel не справляется с объемом, а SQL недостаточно гибок для сложной статистики, в игру вступает программирование. Python сейчас является лидером благодаря своей простоте и мощным библиотекам (Pandas, Matplotlib). * Для чего: Сложная обработка данных, автоматизация рутины, машинное обучение, предиктивная аналитика.

    Жизненный цикл аналитического проекта

    Работа над любой задачей обычно проходит по следующему алгоритму:

  • Постановка задачи. Понимание того, что нужно бизнесу.
  • Сбор данных. Выгрузка из баз, парсинг сайтов, получение Excel-файлов.
  • Очистка данных (Data Cleaning). Самый трудоемкий этап. Удаление дубликатов, исправление ошибок, работа с пропусками.
  • Анализ. Поиск закономерностей, расчет метрик.
  • Визуализация. Создание графиков и дашбордов.
  • Интерпретация и презентация. Объяснение результатов заказчику простым языком.
  • > «Данные — как мусор. Вы должны знать, что вы собираетесь с ними делать, прежде чем собирать их». — Марк Твен (приписывается)

    Заключение

    Сегодня мы заложили фундамент. Вы узнали, что аналитика — это процесс превращения сырых данных в мудрость (DIKW), познакомились с четырьмя видами анализа и узнали, какие инструменты лежат в рюкзаке у каждого аналитика.

    В следующей статье мы подробно разберем, где именно живут данные, что такое базы данных и как они устроены, чтобы подготовиться к изучению языка SQL.

    2. Сбор и подготовка данных: SQL, очистка и предварительная обработка информации

    Сбор и подготовка данных: SQL, очистка и предварительная обработка информации

    В предыдущей статье мы рассмотрели пирамиду DIKW и узнали, что цель аналитики — превратить сырые данные в мудрость. Но прежде чем строить красивые графики или обучать нейросети, данные нужно добыть и привести в порядок.

    В профессиональной среде существует негласное правило «80/20»: 80% времени аналитика уходит на поиск, очистку и подготовку данных, и только 20% — на сам анализ и моделирование. Если этот этап пропустить или выполнить небрежно, сработает принцип GIGO (Garbage In, Garbage Out — «Мусор на входе, мусор на выходе»). Даже самый совершенный алгоритм выдаст ошибочный результат, если «скармливать» ему некорректные данные.

    Сегодня мы разберем, где живут данные, как общаться с базами данных на языке SQL и как проводить генеральную уборку в ваших таблицах.

    Где живут данные: Базы данных против Excel

    Многие новички привыкли хранить данные в Excel-файлах. Это удобно для личных задач, но когда речь идет о бизнесе с миллионами транзакций, Excel перестает справляться. Он начинает «тормозить», в нем сложно настроить одновременный доступ для сотен сотрудников, и велик риск случайно удалить важную ячейку.

    Для серьезных задач используются Базы Данных (БД).

    Представьте, что Excel — это бумажный блокнот. Вы можете писать в нем что угодно и где угодно. База данных — это картотека в огромной библиотеке. В ней строгие правила: каждая карточка лежит в своем ящике, и вы не можете записать номер телефона в поле для года издания книги.

    Реляционные базы данных (RDBMS)

    Самый популярный тип хранилищ в аналитике — реляционные базы данных (от англ. relation — отношение, связь). Данные в них хранятся в таблицах, которые связаны друг с другом логическими ключами.

    !Пример структуры реляционной базы данных, где таблицы связаны между собой уникальными ключами.

    Основные элементы такой базы: * Таблица: Набор данных по одной теме (например, «Клиенты»). * Строка (Запись): Информация об одном объекте (один конкретный клиент). * Столбец (Поле): Атрибут объекта (имя клиента, возраст, email).

    SQL: Язык общения с данными

    Чтобы получить данные из такой «библиотеки», нельзя просто открыть файл двойным щелчком. Нужно отправить запрос библиотекарю. В мире данных этим библиотекарем является СУБД (Система Управления Базами Данных), а языком запросов — SQL (Structured Query Language).

    SQL — это стандарт. Неважно, используете ли вы PostgreSQL, MySQL, MS SQL Server или Oracle — основные команды будут одинаковыми.

    Анатомия простого запроса

    Представьте, что вы хотите получить список всех клиентов из Москвы. На языке SQL это выглядит так:

    Разберем этот запрос:

  • SELECT (Выбрать): Указываем, какие столбцы нам нужны (Name, Email). Если нужны все столбцы, используется символ *.
  • FROM (Из): Указываем название таблицы, откуда берем данные (Clients).
  • WHERE (Где): Задаем условие фильтрации (City = 'Moscow').
  • Аналитику не всегда нужно быть экспертом в проектировании баз данных, но уметь написать SELECT-запрос, чтобы выгрузить нужную информацию для отчета — это обязательный навык (Hard Skill).

    Очистка данных (Data Cleaning)

    Итак, мы написали SQL-запрос и выгрузили данные в CSV-файл или сразу в Python. Думаете, можно начинать анализ? Скорее всего, нет. Сырые данные почти всегда «грязные».

    Очистка данных — это процесс обнаружения и исправления (или удаления) поврежденных, неточных или нерелевантных записей.

    1. Пропуски в данных (Missing Values)

    Часто в таблицах встречаются пустые ячейки. В базах данных они обозначаются как NULL, в Python (библиотека Pandas) — как NaN (Not a Number).

    Причины появления: * Пользователь не заполнил необязательное поле при регистрации. * Сбой в системе сбора данных. * Данные еще не поступили.

    Что с ними делать? * Удалить: Если пропусков мало (например, менее 5% строк), можно просто удалить эти строки. * Заполнить (Импутация): Заменить пустоту на среднее значение, медиану или ноль. Например, если не указан возраст клиента, можно подставить средний возраст по базе. * Оставить как есть: Иногда сам факт отсутствия данных является сигналом (например, клиент не указал телефон, потому что не хочет получать спам).

    2. Дубликаты

    Одна и та же транзакция записалась дважды из-за сбоя интернета, или один клиент зарегистрировался дважды с разными почтами. Дубликаты искажают статистику — вы можете посчитать прибыль в двойном размере.

    3. Аномалии и выбросы (Outliers)

    Выброс — это значение, которое сильно отличается от остальных данных.

    Пример: Вы анализируете зарплаты в небольшом баре. Средняя зарплата посетителей — 50 000 рублей. Вдруг в бар заходит миллиардер. Средняя зарплата (среднее арифметическое) мгновенно подскакивает до миллионов. Отражает ли это реальную картину? Нет.

    Для обнаружения выбросов часто используют метод межквартильного размаха или Z-оценку. Если значение отклоняется от среднего слишком сильно, его нужно проверить.

    Предварительная обработка (Preprocessing)

    После очистки данные нужно привести к формату, пригодному для модели или анализа. Это называется нормализацией или масштабированием.

    Зачем это нужно?

    Представьте, что у вас есть два столбца:

  • Возраст: от 18 до 90 лет.
  • Зарплата: от 20 000 до 500 000 рублей.
  • Для многих алгоритмов машинного обучения разница в числах (90 против 500 000) будет критичной. Алгоритм решит, что зарплата в тысячи раз важнее возраста просто потому, что число больше. Чтобы этого избежать, данные приводят к одному масштабу, обычно от 0 до 1.

    Min-Max Normalization

    Один из самых простых способов масштабирования — Min-Max нормализация. Она сжимает все данные в диапазон [0, 1].

    Формула выглядит так:

    Где: * — новое, нормализованное значение (которое будет от 0 до 1), * — исходное значение, которое мы хотим изменить, * — самое маленькое значение во всем столбце, * — самое большое значение во всем столбце.

    !Визуализация процесса нормализации данных: приведение разных шкал к единому диапазону.

    Работа с типами данных

    Еще один важный этап — приведение типов. * Даты: Строку "2023-10-05" нужно превратить в объект даты, чтобы можно было извлечь месяц или день недели. * Категории: Компьютер не понимает слова "Красный", "Зеленый", "Синий". Ему нужны числа. Мы можем закодировать их: Красный = 1, Зеленый = 2, Синий = 3.

    Чек-лист готовности данных

    Прежде чем переходить к следующему этапу курса — визуализации и поиску инсайтов, проверьте свой набор данных по этому чек-листу:

  • Полнота: Нет критических пропусков (NULL).
  • Уникальность: Нет полных дубликатов строк.
  • Единообразие: Все даты в одном формате (DD.MM.YYYY), все валюты приведены к одной (например, рубли).
  • Отсутствие аномалий: Странные выбросы (возраст 200 лет, цена -500 рублей) удалены или исправлены.
  • Читаемость: Названия столбцов понятны и написаны на латинице без пробелов (например, order_date вместо Дата заказа).
  • Заключение

    Сбор и подготовка данных — это фундамент. Без прочного фундамента здание аналитики рухнет. Мы научились запрашивать данные с помощью SQL, поняли важность очистки от «мусора» и узнали, как математически выравнивать данные с помощью нормализации.

    В следующей статье мы перейдем к самой творческой части работы — Разведочному анализу данных (EDA). Мы будем учиться «чувствовать» данные и находить в них скрытые закономерности с помощью визуализации.