1. Основы работы с данными и метриками: типы данных, очистка и расчет ключевых показателей
Основы работы с данными и метриками: типы данных, очистка и расчет ключевых показателей
Добро пожаловать в мир аналитики! Ваша цель — научиться находить скрытые закономерности, строить дашборды и прогнозировать тренды. Но прежде чем мы перейдем к сложным математическим моделям и алгоритмам машинного обучения, нам необходимо заложить прочный фундамент. Любой анализ начинается с понимания того, с чем именно мы работаем.
В этой статье мы разберем базовые концепции: как классифицируется информация, почему сырые данные опасны для бизнеса и как абстрактные цифры превращаются в понятные бизнес-показатели.
!Схема этапов работы с данными: от сырой информации до бизнес-решений
Анатомия данных: какими они бывают
Данные — это любые зафиксированные сведения об окружающем мире. Это могут быть числа, тексты, видеозаписи или координаты. В аналитике всю информацию принято делить на две большие группы: структурированную (таблицы, базы данных) и неструктурированную (тексты отзывов, фотографии).
Для построения математических моделей нам чаще всего приходится работать со структурированной информацией. Внутри таблиц данные делятся на два основных типа: количественные и качественные.
Количественные данные (числовые)
Это данные, которые измеряют объемы, размеры или количество чего-либо. С ними можно совершать математические операции: складывать, вычитать, находить среднее.
Качественные данные (категориальные)
Эти данные описывают свойства, состояния или принадлежность объекта к определенной группе. Математические операции в их классическом виде к ним неприменимы (нельзя сложить «красный» и «синий» и получить осмысленное число).
Для наглядности представим заказ пиццы.
| Характеристика заказа | Значение | Тип данных | | :--- | :--- | :--- | | Вид пиццы | «Маргарита» | Качественный (номинальный) | | Размер | Большая (35 см) | Качественный (порядковый) | | Количество пицц | 3 штуки | Количественный (дискретный) | | Время доставки | 42,5 минуты | Количественный (непрерывный) |
Понимание типа данных критически важно. От этого зависит, какой алгоритм машинного обучения вы сможете применить в будущем и какой график выберете для дашборда.
Очистка данных: принцип «Мусор на входе — мусор на выходе»
В реальном мире данные никогда не бывают идеальными. Пользователи опечатываются при заполнении форм, датчики ломаются, а системы дают сбои. В IT-индустрии есть золотое правило: Garbage in, garbage out (Мусор на входе — мусор на выходе). Если загрузить в самую продвинутую нейросеть ошибочные данные, она выдаст ошибочный прогноз.
Очистка данных — это процесс выявления и исправления (или удаления) неточных, неполных или нерелевантных записей в наборе данных. Рассмотрим три главные проблемы.
1. Пропущенные значения
Часто в таблицах зияют пустоты. Например, клиент не указал свой возраст при регистрации. Если таких пропусков мало, строки с ними можно просто удалить. Но если их много, удаление приведет к потере ценной информации. В таких случаях аналитики заполняют пропуски: например, вставляют вместо пустоты средний возраст всех остальных клиентов.
2. Дубликаты
Представьте, что из-за сбоя в системе оплаты одна и та же транзакция записалась в базу трижды. Если вы начнете считать общую выручку, вы учтете эти деньги три раза и примете неверное решение о расширении бизнеса, опираясь на несуществующую прибыль. Поиск и слияние дубликатов — обязательный шаг.
3. Выбросы (аномалии)
Выброс — это значение, которое экстремально сильно отличается от большинства других значений в наборе данных. Выбросы могут быть как ошибками (кто-то случайно ввел возраст 999 лет), так и реальными, но редкими событиями (покупка квартиры за наличные в один платеж).
Выбросы невероятно опасны для классических статистических метрик, особенно для среднего арифметического.
Вспомним формулу среднего арифметического:
Где: * — среднее арифметическое значение; * — общее количество значений в выборке; * — знак суммы (означает, что нужно сложить все элементы); * — каждое конкретное значение по очереди от первого до последнего.
Простыми словами: мы складываем все числа и делим на их количество.
Представьте, что вы анализируете зарплаты пяти сотрудников небольшого отдела: 50 000 руб., 60 000 руб., 65 000 руб., 70 000 руб. и 75 000 руб. Средняя зарплата составит 64 000 руб. Это число отлично описывает реальность.
Но вдруг в этот отдел перевели топ-менеджера с зарплатой 1 000 000 руб. Теперь мы складываем шесть чисел и делим на 6. Новая средняя зарплата: 220 000 руб. Если вы покажете этот отчет руководству, оно решит, что сотрудники живут в роскоши, хотя пятеро из шести человек получают меньше 80 тысяч.
Чтобы избежать искажений от выбросов, аналитики используют другую метрику — медиану. Медиана — это число, которое находится ровно посередине упорядоченного списка значений. Половина значений находится до медианы, половина — после.
Если выстроить наши шесть зарплат по возрастанию (50к, 60к, 65к, 70к, 75к, 1000к), медиана окажется между 65к и 70к, то есть составит 67 500 руб. Как видите, медиана проигнорировала миллионный выброс и показала реальную картину.
!Влияние выбросов на среднее и медиану
От данных к метрикам: как измерять успех
Очищенные данные сами по себе не отвечают на вопросы бизнеса. Чтобы понять, хорошо идут дела или плохо, данные нужно превратить в метрики.
> Метрика — это количественно измеримый показатель, который компания отслеживает для оценки успешности своих процессов или продуктов.
Метрики позволяют сравнивать текущее положение дел с прошлым, с конкурентами или с планом. В продуктовой аналитике выделяют три важнейших типа метрик.
Целевая метрика (North Star Metric)
Это главный показатель, ради которого работает вся команда. Он отражает основную ценность продукта для бизнеса.
Например, для маркетплейса целевой метрикой будет GMV (Gross Merchandise Value — общий объем оборота товаров). Для онлайн-кинотеатра — суммарное время просмотра видео всеми пользователями. Если целевая метрика растет, значит, бизнес развивается в правильном направлении.
Прокси-метрики (опережающие показатели)
Проблема целевой метрики в том, что она меняется медленно. Вы не можете выпустить новую кнопку на сайте и сразу понять, как она повлияет на годовую выручку. Для быстрых проверок гипотез используют прокси-метрики — косвенные показатели, которые тесно связаны с целевой метрикой, но реагируют на изменения моментально.
Если целевая метрика онлайн-кинотеатра — это время просмотра, то прокси-метрикой может быть «Количество кликов по кнопке "Смотреть"» или «Количество добавлений фильмов в избранное». Логика проста: если люди стали чаще добавлять фильмы в закладки, то в долгосрочной перспективе они проведут больше времени за просмотром.
Контр-метрики (метрики безопасности)
Когда вы пытаетесь улучшить один показатель, всегда есть риск сломать другой. Контр-метрики отслеживают негативные эффекты от ваших действий.
Представьте, что вы решили увеличить выручку интернет-магазина и добавили на главную страницу огромный, мигающий баннер с акцией. Прокси-метрика (клики по баннеру) взлетела. Целевая метрика (выручка) немного подросла. Кажется, это успех?
Но если вы посмотрите на контр-метрику — «Количество отписок от рассылки» или «Доля пользователей, закрывших сайт в первые 5 секунд» (Bounce Rate), вы увидите катастрофический рост. Агрессивная реклама раздражает людей. В краткосрочной перспективе вы заработали, но в долгосрочной — потеряли лояльную аудиторию. Контр-метрики помогают найти баланс и не убить продукт в погоне за сиюминутной выгодой.
Понимание типов данных позволяет правильно их собирать и хранить. Очистка гарантирует, что ваши выводы будут опираться на реальность, а не на системные сбои. А грамотно выстроенная иерархия метрик (целевые, прокси и контр-метрики) превращает сухую статистику в мощный инструмент управления бизнесом. Это и есть тот фундамент, на котором строятся самые сложные аналитические системы.