От SQL к Data Analysis: Практический курс для Junior Data Analyst

1. Введение в аналитику: роль SQL в ETL-процессах и жизненный цикл работы с данными

Введение в аналитику: роль SQL в ETL-процессах и жизненный цикл работы с данными

Добро пожаловать в курс «От SQL к Data Analysis». Если вы читаете эту статью, значит, вы уже обладаете мощным инструментом — знанием SQL. Вы умеете объединять таблицы, фильтровать выборки и, возможно, даже писать сложные оконные функции. Это отличный старт. Однако, чтобы стать Junior Data Analyst, одного умения писать запросы недостаточно. Необходимо научиться думать как аналитик.

В этом модуле мы разберем фундамент профессии: чем аналитик отличается от разработчика баз данных, как устроен процесс работы с данными и почему ваши навыки SQL являются ключевыми в современных ETL/ELT процессах.

От SQL-разработчика к Аналитику Данных

Главное отличие аналитика от специалиста по базам данных кроется в цели работы.

SQL-разработчик/DBA фокусируется на эффективности хранения и извлечения*: как быстро работает запрос, целостны ли данные, оптимизированы ли индексы. Аналитик данных фокусируется на смысле и пользе*: что эти данные говорят о бизнесе, почему упали продажи, как поведение пользователей влияет на выручку.

Ваш SQL-код перестает быть самоцелью и становится инструментом для добычи «золота» — инсайтов (озарений), которые помогают бизнесу принимать решения.

Жизненный цикл анализа данных

Работа аналитика — это не хаотичный поиск «чего-то интересного» в базе. Это структурированный процесс. Рассмотрим классический цикл работы с данными.

!Пять этапов жизненного цикла анализа данных, от вопроса до презентации результатов.

Постановка вопроса: Все начинается с бизнес-проблемы. Например: «Почему упал Retention (удержание) пользователей в прошлом месяце?».

Сбор данных: Вы определяете, в каких таблицах лежит нужная информация. Здесь вступает в игру ваш навык SELECT и JOIN.

Очистка и обработка (Data Wrangling): Данные редко бывают идеальными. Нужно убрать дубликаты, обработать NULL значения и привести форматы к единому виду.

Анализ: Поиск закономерностей, расчет статистических показателей, проверка гипотез.

Визуализация и презентация: Превращение сухих цифр в понятные графики (дашборды) и рекомендации для бизнеса.

ETL и ELT: Где живет SQL?

В современной аналитике данные редко попадают к вам напрямую из «боевой» базы приложения. Они проходят через специальные процессы, называемые ETL или ELT. Понимание этих аббревиатур критически важно для Junior-аналитика.

Что такое ETL?

ETL расшифровывается как Extract, Transform, Load (Извлечение, Преобразование, Загрузка).

Extract: Данные забираются из источников (CRM, базы сайта, рекламные кабинеты).

Transform: Данные очищаются, агрегируются и преобразуются на отдельном сервере.

Load: Готовые «чистые» данные загружаются в Хранилище Данных (Data Warehouse).

Смена парадигмы: ELT

С появлением мощных облачных хранилищ (BigQuery, Snowflake, Redshift) популярность набрал подход ELT (Extract, Load, Transform).

!Сравнение процессов ETL и ELT, показывающее разницу в месте проведения трансформации данных.

В ELT данные сначала загружаются в хранилище «как есть» (raw data), а трансформация происходит уже внутри хранилища силами SQL.

Почему это важно для вас? В модели ELT аналитик часто сам пишет скрипты трансформации. Вы будете создавать так называемые «витрины данных» (data marts) — готовые таблицы для отчетов, используя SQL.

Пример задачи на этапе Transform: > Нам не нужны сырые логи каждого клика за 10 лет. Создай таблицу daily_user_activity, где будет одна строка на пользователя в день с количеством кликов и суммой покупок.

Именно здесь ваши знания GROUP BY, оконных функций и CTE становятся незаменимыми.

Метрики: Язык бизнеса

Аналитик общается с бизнесом на языке метрик. Метрика — это числовой показатель, отражающий состояние определенного аспекта бизнеса.

Рассмотрим простую, но важную метрику — Коэффициент конверсии (Conversion Rate). Это доля пользователей, совершивших целевое действие.

Формула расчета конверсии:

Где: * — Conversion Rate (коэффициент конверсии). * — Actions (количество целевых действий, например, покупок). * — Visits (общее количество визитов или посетителей). * — множитель для перевода значения в проценты.

В SQL это вычисляется элементарно, но важно понимать физический смысл формулы, чтобы правильно отфильтровать числитель и знаменатель (например, исключить ботов из ).

Практический пример: Подготовка данных для анализа

Представьте, что вы работаете в E-commerce. Маркетолог просит вас: «Дай мне данные, чтобы я посмотрел средний чек по месяцам в Python».

Ваша задача не просто выгрузить таблицу orders на 10 миллионов строк (Python может «захлебнуться», а Excel просто не откроет). Ваша задача — провести первичную агрегацию (этап Transform) на стороне SQL.

Вместо сырых данных вы отдадите агрегат:

Этот запрос — мост между хранилищем данных и инструментом анализа (Python/Pandas), который мы будем изучать в следующих модулях.

Резюме

Роль: Аналитик превращает данные в ответы на бизнес-вопросы.

Процесс: Работа идет по циклу: Вопрос → Данные → Очистка → Анализ → Визуализация.

Инструмент: SQL используется не только для выгрузки, но и для трансформации данных (ELT) и расчета ключевых метрик.

В следующей статье мы перейдем к Прикладной статистике. Мы научимся описывать данные не только суммой и средним, но и понимать их распределение, что критически важно для поиска аномалий и инсайтов.

2. Прикладная статистика: описательный анализ, расчет бизнес-метрик (LTV, Retention) и основы A/B-тестирования

Прикладная статистика: описательный анализ, расчет бизнес-метрик (LTV, Retention) и основы A/B-тестирования

В предыдущем модуле мы обсудили, как данные попадают в хранилище и какую роль играет SQL в процессах ETL/ELT. Теперь, когда у вас есть доступ к «чистым» данным, настало время извлекать из них смысл.

Многие начинающие аналитики совершают ошибку, полагаясь только на средние значения. «Средний чек вырос» — звучит хорошо, но если рост обеспечен одной крупной покупкой на фоне падения продаж у остальных 99% клиентов, бизнес может быть в опасности. Чтобы видеть полную картину, нам нужна прикладная статистика.

В этой статье мы научимся описывать данные, рассчитывать ключевые продуктовые метрики (Retention, LTV) с помощью SQL и разберем основы проверки гипотез через A/B-тесты.

Описательная статистика: за пределами среднего

Описательная (дескриптивная) статистика помогает одним взглядом охватить огромный массив данных. В SQL для этого чаще всего используют агрегатные функции.

Среднее (Mean) против Медианы (Median)

Самая популярная метрика — среднее арифметическое.

Где: * — среднее арифметическое. * — количество наблюдений (строк). * — знак суммы. * — значение конкретного наблюдения.

В SQL это функция AVG(). Однако среднее значение очень чувствительно к выбросам (аномально большим или маленьким значениям).

!Сравнение среднего и медианы на асимметричном распределении.

Пример: В баре сидят 10 человек со средним доходом 50 000 рублей. Заходит миллиардер. Средний доход в баре становится 100 миллионов, но богаче никто из посетителей не стал.

Здесь на помощь приходит медиана — число, которое делит выборку ровно пополам (50% значений меньше медианы, 50% — больше). В стандартном SQL нет функции MEDIAN(), но есть оконная функция PERCENTILE_CONT.

Если mean_check значительно больше median_check, значит, в ваших данных есть «киты» (крупные заказы), которые искажают статистику.

Квартили и перцентили

Чтобы понять разброс данных, полезно смотреть не только на центр, но и на границы.

* 25-й перцентиль (Q1): Значение, ниже которого находится 25% данных. * 75-й перцентиль (Q3): Значение, ниже которого находится 75% данных.

В SQL это делается так:

Это позволяет сказать бизнесу: «Обычно мы доставляем за 30 минут (медиана), но в худших 25% случаев доставка занимает более 50 минут (p75)».

Расчет бизнес-метрик в SQL

Аналитик не просто считает цифры, он следит за здоровьем продукта. Две главные метрики здоровья — это Retention (удержание) и LTV (пожизненная ценность).

Retention Rate (Коэффициент удержания)

Retention показывает, какой процент пользователей возвращается в продукт спустя определенное время после первого визита.

Формула Retention N-го дня:

Где: * — коэффициент удержания на N-й день. * — количество пользователей, активных в N-й день после регистрации. * — количество пользователей в когорте (зарегистрировавшихся в день 0). * — множитель для перевода в проценты.

Для расчета в SQL используется когортный анализ. Мы группируем людей по дате регистрации (когорта) и смотрим их активность в динамике.

!Пример визуализации Retention Rate по когортам.

Пример запроса для расчета Retention 1-го дня (Day 1):

LTV (Lifetime Value)

LTV — это сколько денег в среднем приносит один пользователь за все время использования продукта. Это ключевая метрика для оценки эффективности маркетинга: если LTV больше стоимости привлечения клиента (CAC), бизнес прибылен.

Простая формула LTV (фактическая):

Где: * — пожизненная ценность клиента. * — суммарная выручка со всех пользователей за выбранный период. * — общее количество уникальных пользователей (платящих и неплатящих) в выборке.

В SQL часто считают накопительный LTV (Cumulative LTV) по когортам, чтобы понять, как окупается трафик к 3-му, 6-му или 12-му месяцу.

Это даст LTV по каждому пользователю. Для среднего LTV по когорте нужно объединить эту таблицу с датой регистрации и усреднить.

Основы A/B-тестирования

Когда бизнес хочет внедрить изменение (например, перекрасить кнопку «Купить» или изменить алгоритм рекомендаций), нельзя просто «выкатить» это на всех. Используют A/B-тестирование.

Логика A/B-теста

Разделение: Аудитория делится на две (или более) группы: Control (видит старую версию) и Test (видит новую версию). Важно, чтобы разделение было случайным.

Сбор данных: Мы ждем, пока наберется достаточно данных.

Сравнение: Мы сравниваем целевую метрику (например, конверсию) в двух группах.

Роль SQL в A/B-тестах

Аналитик часто использует SQL на двух этапах: проверка корректности сплита (деления) и оценка результатов.

Проверка сплита: Нужно убедиться, что пользователи распределились равномерно (например, 50/50).

Оценка результатов: Сравним конверсию в покупку.

Статистическая значимость (Statistical Significance)

Если в группе А конверсия 5.0%, а в группе Б — 5.2%, это победа? Не всегда. Разница может быть случайной.

Для проверки используется p-value (вероятность получить такие или более выраженные различия при условии, что на самом деле различий нет).

* Если , мы считаем различие статистически значимым (реальным). * Если , мы не можем утверждать, что изменения повлияли на метрику.

Расчет p-value обычно делают в Python (библиотека scipy или statsmodels), так как в стандартном SQL нет встроенных функций для t-тестов. Ваша задача как SQL-аналитика — подготовить агрегированные данные (среднее, дисперсию, количество наблюдений) и передать их в Python. Этим мы займемся в следующем модуле.

Резюме

Не верьте среднему: Всегда проверяйте медиану и перцентили, чтобы исключить влияние выбросов.

Метрики здоровья: Retention показывает, нравится ли продукт пользователям, а LTV — сколько они готовы платить.

Эксперименты: A/B-тесты — золотой стандарт проверки гипотез. SQL нужен для формирования выборок и первичного расчета метрик, а оценка статзначимости происходит на этапе анализа (часто в Python).

В следующей статье мы перейдем к Анализу в Python (Pandas). Мы научимся забирать результаты наших SQL-запросов и проводить глубокий исследовательский анализ данных (EDA), который сложно выполнить средствами одной лишь базы данных.

3. Python для аналитика: миграция данных из SQL в Pandas, очистка и исследовательский анализ

Python для аналитика: миграция данных из SQL в Pandas, очистка и исследовательский анализ

В предыдущих модулях мы научились извлекать данные с помощью SQL и рассчитывать ключевые метрики. Мы даже затронули тему статистики. Но что делать, если нужно построить сложную визуализацию, провести углубленный статистический тест или обучить модель машинного обучения? SQL здесь уже не справится.

На этом этапе в игру вступает Python и его главная библиотека для анализа данных — Pandas. В этой статье мы разберем, как забрать данные из базы, превратить их в удобный формат, очистить от мусора и найти первые инсайты.

Зачем нам Python, если есть SQL?

SQL идеален для агрегации и фильтрации огромных массивов данных на стороне сервера. Однако Python предлагает гибкость, которой нет у баз данных.

Сложная логика: Циклы, ветвления и использование сторонних библиотек.

Визуализация: Построение графиков «на лету».

Статистика и ML: Проверка гипотез и прогнозирование.

Типичный процесс выглядит так: вы пишете SQL-запрос, чтобы отфильтровать лишнее и уменьшить объем данных до разумного (например, до 1-5 миллионов строк), а затем загружаете результат в Python для детального анализа.

!Поток данных от SQL-запроса к DataFrame и финальному отчету.

Миграция: От таблицы к DataFrame

В мире Python таблица данных называется DataFrame. Это основной объект библиотеки Pandas. Он очень похож на таблицу Excel или SQL: у него есть строки (индексы) и именованные колонки.

Для подключения к базе данных аналитики обычно используют библиотеку sqlalchemy.

Пример загрузки данных

Предположим, мы хотим выгрузить данные о продажах для анализа Retention, который мы обсуждали в прошлой статье.

Теперь переменная df содержит ваши данные. С этого момента нагрузка на базу данных прекращается, и все операции происходят в оперативной памяти вашего компьютера.

Первичный осмотр (Inspection)

Первое правило аналитика: никогда не верь данным вслепую. Сразу после загрузки нужно понять, с чем мы имеем дело.

* df.head() — покажет первые 5 строк. Полезно, чтобы убедиться, что выгрузилось то, что нужно. * df.info() — покажет типы данных и количество непустых значений. Это аналог DESCRIBE в SQL, но более информативный. * df.describe() — выведет базовую статистику (среднее, мин, макс, квартили) для числовых колонок.

Очистка данных (Data Cleaning)

В реальном мире данные «грязные». В них есть пропуски, дубликаты и ошибки типов. SQL может это исправить, но в Pandas это часто делать быстрее и нагляднее.

1. Работа с пропусками (NULL)

В Pandas NULL обозначается как NaN (Not a Number).

2. Типы данных

Частая проблема: дата пришла как строка (object), а числа — как текст.

3. Поиск аномалий и выбросов

В модуле про статистику мы говорили про квартили. В Pandas их очень легко использовать для фильтрации выбросов (например, ошибочно огромных сумм заказов) с помощью межквартильного размаха (IQR).

Формула IQR:

Где: * — Interquartile Range (межквартильный размах). * — 75-й перцентиль (значение, ниже которого 75% выборки). * — 25-й перцентиль (значение, ниже которого 25% выборки).

Обычно выбросами считают значения, которые выходят за границы:

Где: * — нижняя граница нормальных значений. * — верхняя граница нормальных значений. * — стандартный коэффициент расширения диапазона.

Реализация в Python:

Исследовательский анализ данных (EDA)

EDA (Exploratory Data Analysis) — это процесс, когда вы «крутите» данные, чтобы найти закономерности. В SQL для этого нужно писать много GROUP BY, в Pandas это делается в одну строку.

Группировка и агрегация

Аналог SQL GROUP BY:

Сводные таблицы (Pivot Tables)

Это мощнейший инструмент, знакомый пользователям Excel. В SQL создание сводных таблиц (pivot) — это боль и страдание с кучей CASE WHEN. В Pandas это одна функция.

Допустим, мы хотим увидеть сумму продаж по месяцам в разрезе категорий.

Результатом будет читаемая таблица, где строки — это месяцы, а столбцы — категории товаров.

Визуализация: первый взгляд

Хотя мы посвятим визуализации отдельный модуль, EDA невозможен без простых графиков. Pandas умеет рисовать их, используя библиотеку matplotlib «под капотом».

!Базовая визуализация данных в Pandas.

Практическое задание (Dataset)

Для закрепления материала я рекомендую использовать популярный датасет Brazilian E-Commerce Public Dataset by Olist на Kaggle.

Ваша задача:

Скачать файл olist_orders_dataset.csv.

Загрузить его в Pandas (pd.read_csv).

Проверить типы данных: перевести колонки со временем в datetime.

Посчитать, сколько заказов имеет статус delivered, а сколько canceled (используйте value_counts()).

Найти среднее время доставки (разница между датой доставки и датой покупки).

Резюме

Связка: SQL используется для извлечения сырых данных, Python — для глубокого анализа.

DataFrame: Это ваш рабочий стол. Умение манипулировать им — ключевой навык Junior-аналитика.

Гигиена: Всегда проверяйте типы данных и пропуски (info(), isna()) перед анализом.

EDA: Используйте groupby и pivot_table для быстрого поиска инсайтов.

В следующем модуле мы превратим наши сухие таблицы и базовые графики в профессиональные дашборды и научимся рассказывать истории с помощью данных (Data Storytelling).

4. Визуализация данных: принципы Data Storytelling и создание интерактивных дашбордов в BI-системах

Визуализация данных: принципы Data Storytelling и создание интерактивных дашбордов в BI-системах

Мы прошли долгий путь: научились извлекать данные с помощью SQL, считать статистические метрики и проводить глубокий анализ в Python. Но вся эта работа может оказаться бесполезной, если вы не сможете донести свои выводы до бизнеса.

Топ-менеджеры не смотрят в консоль Python и редко читают CSV-файлы. Им нужны ответы, представленные наглядно. В этом модуле мы разберем, как превратить сухие цифры в историю (Data Storytelling) и как создавать дашборды, которые приносят пользу, используя BI-системы (Tableau, Power BI).

Что такое Data Storytelling?

Data Storytelling (повествование данных) — это навык коммуникации инсайтов с помощью данных, визуализации и нарратива. Это не просто «рисование красивых графиков». Это ответ на вопрос «И что?» (So What?).

Представьте, что вы обнаружили падение Retention.

* Плохой подход: Показать таблицу с цифрами Retention по дням. * Хороший подход: Показать график падения. * Data Storytelling: Показать график падения, выделить точку, где начался спад, добавить аннотацию «Релиз версии 2.0» и показать рядом график роста жалоб в техподдержку.

Три элемента истории

Данные: Фундамент, который мы собрали через SQL и Python.

Визуализация: Инструмент, помогающий увидеть паттерны.

Нарратив: Контекст и объяснение, почему это важно.

Принципы визуализации: как не обмануть зрителя

Прежде чем открывать BI-инструмент, нужно выбрать правильный тип визуализации. Ошибка здесь может привести к неверным бизнес-решениям.

Выбор типа графика

!Схема-шпаргалка для выбора типа визуализации в зависимости от цели анализа.

Сравнение категорий (Comparison): Используйте Bar Chart (столбчатую диаграмму). Человеческий глаз лучше всего сравнивает длины.

Динамика во времени (Trend): Используйте Line Chart (линейный график). Он отлично показывает рост или падение.

Структура целого (Composition): Если категорий мало (2-3), можно использовать Pie Chart (круговую диаграмму). Если больше — лучше Stacked Bar Chart.

> «Круговые диаграммы — это зло. Никогда не используйте их, если у вас больше 3-х категорий или если разница между долями неочевидна глазу». — Эдвард Тафти, эксперт по визуализации данных.

Data-Ink Ratio

Принцип, введенный Эдвардом Тафти: чернила (пиксели) на графике должны тратиться только на отображение данных.

* Уберите лишние сетки. * Уберите 3D-эффекты (они искажают восприятие). * Уберите яркий фон.

BI-системы: Tableau и Power BI

Если Python (Matplotlib/Seaborn) хорош для исследования (EDA), то BI-системы созданы для мониторинга и презентации.

Главное отличие BI от Excel или Python — это концепция Dimensions (Измерения) и Measures (Меры). Это напрямую связано с вашим знанием SQL.

Dimensions и Measures

Когда вы загружаете таблицу в BI, система делит поля на два типа:

Dimensions (Синие поля в Tableau): Это качественные данные (категории, даты, имена, ID). В SQL это то, по чему мы делаем GROUP BY.

Measures (Зеленые поля в Tableau): Это количественные данные (выручка, количество заказов). В SQL это то, к чему мы применяем агрегатные функции SUM, AVG, COUNT.

Понимание этого принципа позволяет строить визуализации перетаскиванием (Drag-and-Drop). Вы перетаскиваете «Категорию» (Dimension) на ось X, а «Продажи» (Measure) на ось Y — и BI-система сама генерирует SQL-запрос вида:

Подготовка данных: SQL для BI

Частая ошибка новичков — пытаться делать сложные трансформации внутри BI-системы. Tableau и Power BI умеют это делать, но это замедляет работу дашборда.

Золотое правило: Готовьте данные на уровне SQL (в хранилище).

Широкий vs Длинный формат

Для человека удобен «широкий» формат (как сводная таблица), где месяцы идут столбцами (Jan, Feb, Mar). Но для BI-систем идеален «длинный» формат.

Плохо для BI (Wide format):

| Product | Jan_Sales | Feb_Sales | | :--- | :--- | :--- | | A | 100 | 120 |

Хорошо для BI (Long format):

| Product | Month | Sales | | :--- | :--- | :--- | | A | Jan | 100 | | A | Feb | 120 |

Чтобы получить такой формат из базы, не нужно писать сложные Pivot-запросы. Достаточно простого SELECT с правильной гранулярностью. Если данные уже широкие, в SQL используют UNION ALL для их нормализации.

Расчет KPI для дашборда

Дашборд всегда начинается с KPI (Key Performance Indicators) — больших чисел вверху экрана. Часто нам нужно показать не просто число, а его рост год к году (YoY — Year over Year).

Формула роста:

Где: * — процент прироста или падения. * — значение метрики за текущий период. * — значение метрики за предыдущий аналогичный период. * — множитель для перевода в проценты.

В BI-системах для этого используются «Табличные вычисления» (Table Calculations) или язык DAX (в Power BI), но логика остается той же, что и в формуле выше.

Анатомия идеального дашборда

Создание дашборда похоже на верстку газеты. Люди читают информацию по F-паттерну (слева направо, сверху вниз).

!Схематичное расположение элементов на дашборде согласно принципам восприятия информации.

Верхний уровень (BANs - Big Angry Numbers): Ключевые метрики (Выручка, Прибыль, Заказы). Ответ на вопрос «Все ли хорошо прямо сейчас?».

Средний уровень (Тренды): Графики динамики. Ответ на вопрос «Куда мы движемся?».

Нижний уровень (Детализация): Таблицы или разбивка по категориям. Ответ на вопрос «Кто виноват и что делать?».

Интерактивность: Фильтры по дате, региону или продукту. Дашборд должен позволять пользователю самому «покрутить» данные.

Практическое задание: Подготовка к финальному проекту

В финальном проекте вам предстоит создать полный цикл аналитики. Сейчас ваша задача — подготовить данные.

Возьмите датасет Superstore Sales (классический датасет для обучения Tableau/Power BI) или используйте данные Olist из прошлого модуля.

Напишите SQL-запрос (или используйте Pandas), чтобы создать плоскую таблицу orders_enriched, где к каждому заказу присоединены название категории и имя менеджера.

Загрузите этот файл (CSV) в Tableau Public или Power BI Desktop.

Попробуйте построить график: Order Date (по месяцам) на колонки, Sales на строки. Вы увидите динамику продаж.

Резюме

Цель: Не просто показать данные, а рассказать историю и побудить к действию.

Инструмент: Выбирайте график под задачу (сравнение → бары, динамика → линии).

Связь с SQL: Dimensions — это поля группировки, Measures — это поля агрегации. Готовьте данные в «длинном» формате.

Дизайн: Самое важное — в левый верхний угол. Убирайте визуальный шум.

В следующем, заключительном модуле, мы объединим все навыки: SQL, статистику, Python и визуализацию, чтобы выполнить Финальный проект — полноценное аналитическое исследование реального бизнес-кейса.

5. Финальный проект: полный цикл анализа от SQL-выгрузки до презентации выводов для бизнеса

Финальный проект: полный цикл анализа от SQL-выгрузки до презентации выводов для бизнеса

Поздравляю! Вы добрались до финишной прямой. Мы прошли путь от написания SELECT запросов до создания интерактивных дашбордов и проверки статистических гипотез. Теперь настало время объединить все эти навыки в единый рабочий процесс.

В этой статье мы не будем изучать новые функции или библиотеки. Мы смоделируем реальную рабочую задачу (или тестовое задание), с которой сталкивается Junior Data Analyst. Ваша цель — пройти полный цикл: от нечеткой бизнес-проблемы до конкретных рекомендаций по ее решению.

Сценарий проекта: «Парадокс роста»

Представьте, что вы устроились аналитиком в e-commerce компанию «TechStyle» (магазин электроники и одежды).

Вводные данные: Коммерческий директор приходит к вам с проблемой: «Мы видим, что выручка за последний квартал выросла на 20%, но чистая прибыль осталась на том же уровне. Мне кажется, мы что-то делаем не так с маркетинговыми акциями. Разберись, в чем дело, и покажи мне цифры к пятнице».

Это классическая задача: есть симптом (выручка растет, прибыль стоит), есть гипотеза заказчика (проблема в акциях), но нет четкого ТЗ. Ваша задача — превратить это в аналитический проект.

Этап 1: Формулировка гипотез и декомпозиция

Прежде чем писать код, нужно понять, что мы ищем. «Разберись, в чем дело» — это не задача.

Мы можем выдвинуть несколько гипотез:

Гипотеза 1: Мы привлекаем много новых клиентов, но стоимость их привлечения (CAC) слишком высока.

Гипотеза 2: Мы даем слишком большие скидки, которые «съедают» маржинальность.

Гипотеза 3: Увеличилось количество возвратов товаров.

Для финального проекта мы сосредоточимся на Гипотезе 2: анализ влияния скидок на маржинальность.

Нам понадобится метрика Gross Profit Margin (Валовая маржа).

Где: * — Gross Profit Margin (валовая маржа в процентах). * — Revenue (выручка от продаж). * — COGS (Cost of Goods Sold, себестоимость проданных товаров). * — множитель для перевода в проценты.

Если падает при росте , значит, мы продаем товары с низкой наценкой или большими скидками.

Этап 2: Сбор данных (SQL)

Нам нужно выгрузить данные из хранилища. Нам понадобятся таблицы orders (заказы), order_items (состав заказа), products (информация о товаре и себестоимости).

В реальной работе не стоит выгружать все колонки. Берите только то, что нужно для проверки гипотезы.

Этот запрос выполняет роль ETL: мы извлекаем (Extract), трансформируем/агрегируем (Transform) и готовим к загрузке в инструмент анализа (Load).

Этап 3: Анализ и проверка гипотез (Python)

Загружаем полученный CSV или подключаемся напрямую к базе через Pandas. Здесь мы проводим углубленный анализ.

!Поток данных от SQL через Python к визуализации

1. Расчет корреляции

Проверим, действительно ли рост скидок коррелирует с падением маржи.

Если вы увидите сильную отрицательную корреляцию между avg_discount и margin_percent (например, -0.8), гипотеза подтверждается.

2. Сегментация

Возможно, проблема не во всех товарах, а только в одной категории (например, «Электроника»). Используйте groupby, чтобы найти «виновника».

Этап 4: Визуализация и Дашборд

Вы нашли инсайт: «Категория 'Смартфоны' показывает рост выручки на 40%, но маржа упала до 2% из-за агрессивных скидок».

Теперь это нужно показать директору. Строим дашборд (в Tableau, Power BI или даже в Python, если это отчет в PDF).

Структура дашборда:

BANs (Ключевые показатели):

* Выручка (Revenue): 120K (0%) * Средняя скидка: 15% (+5 п.п.)

График 1 (Динамика): Линейный график с двумя осями. Одна линия — Выручка, вторая — Прибыль. Зритель сразу увидит, что линии расходятся (эффект «ножниц»).

График 2 (Драйверы): Столбчатая диаграмма (Bar Chart) по категориям, показывающая маржинальность. Красным цветом выделите проблемную категорию «Смартфоны».

Этап 5: Data Storytelling и выводы

Это самая важная часть. Ваш финальный продукт — это не код и не таблица, а рекомендация.

Структура вашего отчета или презентации:

Контекст: «Мы исследовали причины стагнации прибыли при росте выручки».

Главный инсайт: «Рост выручки обеспечен категорией 'Смартфоны', где средняя скидка выросла с 5% до 15%, что обнулило прибыль».

Доказательство: Скриншот графика «ножницы» (расхождение выручки и прибыли) и таблица по категориям.

Рекомендация:

* «Пересмотреть политику скидок в категории 'Смартфоны'.» * «Сфокусировать маркетинг на высокомаржинальных аксессуарах (чехлы, наушники), чтобы компенсировать потери.»

Чек-лист финального проекта

Чтобы успешно завершить курс и положить кейс в портфолио, выполните следующие шаги:

Выберите датасет: Рекомендую Brazilian E-Commerce Public Dataset by Olist (Kaggle) или Superstore Sales.

Сформулируйте проблему: Придумайте легенду (например, «Падение продаж в регионе SP»).

SQL: Напишите запрос, который объединяет минимум 3 таблицы и использует агрегацию.

Python: Проведите очистку (проверка на NULL, дубликаты) и EDA (распределения, корреляции).

Визуализация: Создайте дашборд из 3-4 элементов, отвечающий на вопрос бизнеса.

Презентация: Напишите короткую записку (1 страница) с выводами.

Заключение курса

Вы прошли большой путь. Вы начали с понимания того, как базы данных хранят информацию, научились извлекать ее с помощью SQL, обрабатывать статистическими методами, анализировать в Python и презентовать результаты.

Помните: инструменты (SQL, Python, Tableau) будут меняться. Но умение задавать правильные вопросы данным и находить в них ответы, полезные для бизнеса — это навык, который останется с вами навсегда.

Удачи в вашем финальном проекте и в карьере Data Analyst!