Аналитика данных с нуля: от основ к профессии

Курс для новичков, которые хотят освоить аналитику данных — от базовых понятий до уверенной работы с инструментами. Вы научитесь собирать, обрабатывать и анализировать данные, освоите SQL и визуализацию, а также получите практические навыки для старта карьеры junior-аналитика.

1. Основы аналитики данных: ключевые понятия и принципы

Основы аналитики данных: ключевые понятия и принципы

Представьте: вы управляете небольшим интернет-магазином. За месяц пришло 300 заказов, 40 из них — возвраты. Выручка выросла на 12% по сравнению с прошлым месяцем. Хорошо? А если я скажу, что 35 из 40 возвратов пришлись на один конкретный товар, и все жалобы одинаковые — «не соответствует описанию»? Теперь картина меняется: вместо абстрактного «роста на 12%» вы видите конкретную проблему, которую можно решить. Именно это и делает аналитика данных — превращает хаос цифр в понятные решения.

Что такое аналитика данных простыми словами

Аналитика данных — это процесс изучения данных для выявления закономерностей, трендов и инсайтов, которые помогают принимать обоснованные решения. Не просто «посмотреть цифры», а системно ответить на конкретный вопрос бизнеса: почему упали продажи, какой канал привлечения клиентов выгоднее, что будет с выручкой в следующем квартале.

Аналитик данных — это не человек, который «работает с Excel». Это специалист, который переводит бизнес-вопросы на язык данных и обратно. Когда руководитель спрашивает «Почему клиенты уходят?», аналитик формулирует это как задачу: собрать данные о churn rate, сегментировать пользователей, найти паттерны оттока.

> Аналитика данных — это не про цифры. Это про вопросы, на которые цифры помогают ответить. > > Harvard Business Review

Уровни зрелости аналитики

Не вся аналитика одинакова. Существует четыре уровня, и понимание этой иерархии критично для новичка — именно по ней вы будете строить своё обучение.

| Уровень | Вопрос | Пример | |---------|--------|--------| | Описательная (Descriptive) | Что произошло? | Продажи за январь составили 2,5 млн руб. | | Диагностическая (Diagnostic) | Почему это произошло? | Продажи упали из-за отсутствия товара X на складе | | Предиктивная (Predictive) | Что произойдёт? | При текущем тренде продажи упадут на 8% в феврале | | Предписывающая (Prescriptive) | Что делать? | Закупить товар X в количестве 500 единиц до 10 февраля |

Большинство junior-аналитиков работают на первых двух уровнях: собирают данные, строят отчёты, объясняют причины. Это нормально и правильно — именно здесь формируется фундамент.

Типы данных

Данные бывают разными, и от типа зависит, как с ними работать.

Количественные (числовые) — то, что можно измерить и посчитать. Возраст клиента, сумма заказа, количество посещений сайта. С ними можно производить математические операции: считать среднее, находить тренды, строить прогнозы.

Качественные (категориальные) — то, что описывает признак, но не измеряется числом. Пол клиента, город, тип подписки, статус заказа. С ними нельзя посчитать среднее — что значит «средний пол»? Зато можно группировать и считать доли.

Есть ещё важное деление: первичные и вторичные данные. Первичные вы собираете сами — опросы, замеры, эксперименты. Вторичные уже существуют — базы данных компании, открытые датасеты, логи систем. На практике аналитик чаще работает со вторичными данными, и именно поэтому навык очистки данных становится критически важным.

Цикл аналитического проекта

Любой аналитический проект проходит через определённые этапы. Знание этого цикла помогает не «тонуть в данных», а двигаться структурированно.

  • Постановка задачи — понять, какой бизнес-вопрос нужно решить. Без этого этапа вы рискуете месяцами копаться в данных без результата.
  • Сбор данных — найти и получить нужные данные из доступных источников.
  • Очистка и подготовка — убрать ошибки, заполнить пропуски, привести данные к единому формату. По данным McKinsey, на этот этап уходит до 80% времени аналитика.
  • Анализ — применить методы статистики, построить модели, найти закономерности.
  • Визуализация и отчёт — представить результаты так, чтобы их понял неспециалист.
  • Принятие решения — перевести выводы в конкретные действия.
  • Заметьте: анализ — это четвёртый этап, не первый. Новички часто хотят сразу «что-то проанализировать», но без качественной подготовки данных любой анализ будет неточным.

    Ключевые принципы работы аналитика

    Принцип 1: Начинай с вопроса, а не с данных. Данные без вопроса — это просто таблица. Когда вы открываете датасет с миллионом строк, первое, что нужно спросить: «Какой конкретный вопрос я пытаюсь решить?» Например, не «посмотреть продажи», а «Какой товар даёт наибольшую маржинальность при минимальных затратах на логистику?»

    Принцип 2: Доверяй, но проверяй. Данные могут содержать ошибки: опечатки, дубликаты, аномальные значения. Если вы видите заказ на 999 999 999 руб. — скорее всего, это ошибка ввода, а не реальная продажа. Критическое мышление по отношению к данным — базовый навык аналитика.

    Принцип 3: Простота лучше сложности. Если для ответа на вопрос достаточно среднего значения и медианы — не нужно строить нейросеть. Сложные методы оправданы, когда простые не справляются, а не наоборот.

    Принцип 4: Визуализация — это не украшение. График существует для того, чтобы сделать закономерность видимой. Круговая диаграмма с 15 сегментами — плохая визуализация. Столбчатая диаграмма с тремя ключевыми категориями — хорошая.

    Микропример: как выглядит аналитика в реальной жизни

    Допустим, вы работаете junior-аналитиком в компанию по доставке еды. Менеджер говорит: «Клиенты жалуются на долгую доставку. Разберись.» Вы берёте данные за последние три месяца: время заказа, время доставки, район, курьер. Строите график среднего времени доставки по районам и обнаруживаете, что в двух районах время в 2,3 раза выше среднего. Дальше смотрите: в этих районах работает всего 3 курьера, а заказов — вдвое больше, чем в остальных. Вывод: не «клиенты жалуются», а «не хватает курьеров в районах X и Y». Это конкретное, измеримое, действенное заключение.

    Чем аналитик отличается от смежных ролей

    Новички часто путают несколько ролей. Вот ключевые различия.

    | Роль | Главный вопрос | Основной инструмент | |------|---------------|---------------------| | Аналитик данных | Что происходит и почему? | SQL, Excel, BI-системы | | Data Scientist | Что произойдёт и как это смоделировать? | Python, R, машинное обучение | | Бизнес-аналитик | Какие процессы нужно изменить? | Документация, диаграммы, интервью | | Аналитик BI | Как построить систему отчётов? | Power BI, Tableau, Looker |

    Junior-аналитик данных — это точка входа, из которой потом можно расти в любом направлении. Но старт всегда одинаковый: понимание данных, SQL, базовая статистика и умение задавать правильные вопросы.

    Если из этой главы запомнить только три вещи — это:

  • Аналитика начинается с вопроса, а не с данных. Конкретный бизнес-вопрос определяет, какие данные собирать и как их анализировать.
  • На очистку и подготовку данных уходит большая часть времени — и это нормально, а не «скучная рутина».
  • Аналитик переводит данные в решения. Если ваш анализ не приводит к конкретному действию, он бесполезен.
  • 2. Сбор и обработка данных: источники, очистка и подготовка

    Сбор и обработка данных: источники, очистка и подготовка

    Если вы когда-нибудь пробовали готовить по рецепту из интернета, вы знаете: половина успеха — правильно подобрать ингредиенты. Просроченные продукты, неправильные пропорции, отсутствующий компонент — и блюдо провалится, даже если рецепт идеален. С данными та же история: никакой продвинутый анализ не спасёт, если исходные данные некачественные. Именно поэтому этап сбора и обработки данных — это не прелюдия к «настоящей работе», а сама настоящая работа.

    Откуда берутся данные

    Первый вопрос, который задаёт себе аналитик: «Где взять нужные данные?» Источники делятся на несколько категорий.

    Внутренние источники компании — это данные, которые бизнес генерирует в процессе своей работы. CRM-система хранит информацию о клиентах и сделках. ERP-система — о закупках, складах, финансах. Логи сайта фиксируют поведение пользователей: какие страницы посмотрели, сколько времени провели, откуда пришли. Бухгалтерская система содержит данные о доходах и расходах.

    Внешние источники — данные извне. Государственные открытые данные (Росстат, данные о погоде, геоданные), коммерческие датасеты, API социальных сетей и поисковых систем, данные партнёров.

    Специальные сборы — когда нужных данных нет нигде, и вы организуете их сбор: опросы, A/B-тесты, веб-скрейпинг (автоматический сбор данных с сайтов).

    Для junior-аналитика чаще всего актуальны внутренние источники: вы приходите в компанию и работаете с теми данными, которые уже есть. Умение быстро разобраться в структуре внутренних систем — первый рабочий навык.

    Форматы данных

    Данные хранятся в разных форматах, и понимание различий экономит часы времени.

    Структурированные данные — упорядоченные в таблицы с чёткими столбцами и строками. Базы данных, CSV-файлы, Excel-таблицы. С ними работать проще всего: каждый столбец имеет определённый тип (число, текст, дата), и можно сразу применять запросы.

    Полуструктурированные — имеют определённую организацию, но не в табличном формате. JSON и XML — типичные примеры. API часто возвращают данные в JSON: это вложенные объекты, которые нужно «развернуть» в таблицу перед анализом.

    Неструктурированные — тексты, изображения, аудио, видео. Для их анализа нужны специальные методы, но junior-аналитик обычно работает со структурированными и полуструктурированными данными.

    Очистка данных: самый трудоёмкий этап

    По данным исследований, аналитики тратят от 60 до 80% времени на подготовку данных. Это не преувеличение. Реальные данные грязные: в них есть пропуски, дубликаты, опечатки, несогласованные форматы и аномальные значения.

    Разберём основные проблемы и способы их решения.

    Пропущенные значения (missing values). В таблице клиентов у 15% записей не указан email. Что делать? Варианты зависят от контекста. Если email не критичен для анализа — можно оставить пропуск. Если важен — попытаться восстановить из других источников или исключить записи из выборки. Категорически нельзя «придумывать» данные: заполнить пропуски случайными значениями — значит исказить результат.

    Дубликаты. Один и тот же клиент зарегистрирован дважды с разным написанием имени: «Иванов Пётр» и «Иванов Петр». Система считает их разными людьми. Дедупликация — процесс поиска и объединения таких записей — требует внимательности и понимания бизнес-логики.

    Несогласованные форматы. Даты записаны как «01.03.2024», «2024-03-01» и «марта 1, 2024». Суммы — то через запятую, то через точку, то с валютой, то без. Приведение к единому формату — рутинная, но обязательная операция.

    Аномальные значения (outliers). Заказ на 500 000 руб. в магазине, где средний чек — 3 000 руб. Это ошибка или реальный крупный заказ? Нужно разбираться в контексте: проверить, был ли это корпоративный заказ, не случайно ли добавили лишний ноль.

    Трансформация данных

    После очистки данные часто нужно преобразовать — привести к виду, удобному для анализа.

    Агрегация — объединение детальных записей в обобщённые. Вместо списка из 10 000 транзакций вы получаете сумму продаж по месяцам или средний чек по категориям товаров.

    Создание новых признаков (feature engineering). Из даты заказа можно извлечь день недели — и выяснить, что по вторникам продажи на 20% выше. Из адреса — извлечь город. Из времени регистрации и последней активности — посчитать «возраст» клиента в днях.

    Нормализация и стандартизация. Если вы сравниваете товары по цене (от 100 до 50 000 руб.) и количеству отзывов (от 1 до 500), числа в разных масштабах будут искажать сравнение. Нормализация приводит их к единой шкале.

    Микропример: очистка данных на практике

    Вы получили выгрузку из CRM: 5 000 строк с информацией о клиентах. Первый взгляд показывает: в столбце «Телефон» — 30% пропусков, в столбце «Город» — «Москва», «москва», «Москва г.» и «Москвa» (с латинской «a»). В столбце «Сумма покупок» — три записи с отрицательными значениями. Ваш план: привести «Город» к единому написанию, разобраться с отрицательными суммами (возможно, это возвраты, и их нужно учитывать отдельно), решить, критичны ли пропуски в телефоне для текущей задачи. Каждое из этих решений — не техническое, а аналитическое: вы опираетесь на понимание бизнес-процесса.

    Инструменты для сбора и обработки

    На старте вам хватит трёх инструментов. Excel / Google Sheets — для быстрой первичной проверки и небольших датасетов. SQL — для запросов к базам данных и выборки нужных данных. Python (библиотека pandas) — для автоматизации очистки и обработки больших объёмов. В следующей главе мы детально разберём SQL и другие инструменты, а пока важно понять принцип: инструмент выбирается под задачу, а не наоборот.

    Типичные ошибки новичка

    Самая опасная ошибка — начинать анализ до того, как данные проверены. Вы видите красивую таблицу, строите график, делаете вывод — а потом оказывается, что треть данных дублировалась, и все ваши выводы неверны.

    Вторая ошибка — удалять всё «подозрительное» без разбора. Аномальное значение — не обязательно ошибка. Заказ на 500 000 руб. может быть реальным, и если вы его удалите, вы потеряете важную информацию о VIP-клиентах.

    Третья — игнорировать контекст. Данные не существуют в вакууме. Пропуск в столбце «Возраст» для детского магазина — это совсем другая история, чем пропуск в том же столбце для B2B-сервиса.

    Если из этой главы запомнить три вещи:

  • Качество данных важнее количества методов анализа. Лучше простой анализ на чистых данных, чем сложный — на грязных.
  • Очистка данных — это не техническая рутина, а аналитическое решение: каждый шаг требует понимания бизнес-контекста.
  • Перед началом работы с данными всегда задавайте вопрос: «Откуда эти данные, как они собирались и какие ограничения у источника?»
  • 3. Ключевые инструменты аналитика и основы SQL

    Ключевые инструменты аналитика и основы SQL

    Зачем плотнику нужен молоток, а не отвёртка — для забивания гвоздей. Звучит очевидно, но в аналитике данных новички часто делают наоборот: пытаются решить всё в Excel, когда нужен SQL, или пишут сложный код на Python, когда достаточно формулы в таблице. Выбор инструмента — это первый навык, который отличает уверенного аналитика от человека, который «что-то там считает в Excel».

    Ландшафт инструментов аналитика

    Инструменты аналитика данных можно разделить на четыре категории по назначению.

    Хранение и запросы данных. Здесь доминирует SQL — язык структурированных запросов. С его помощью вы обращаетесь к базам данных, выбираете нужные строки, объединяете таблицы, считаете агрегаты. SQL — это не программирование в классическом смысле, а декларативный язык: вы описываете, что хотите получить, а не как это сделать пошагово. Базы данных, с которыми работает аналитик: PostgreSQL, MySQL, MS SQL Server, BigQuery.

    Обработка и анализ. Excel и Google Sheets — для быстрых расчётов и небольших датасетов (до 100 000 строк). Python с библиотекой pandas — для автоматизации обработки, работы с большими объёмами и сложных преобразований. R — для статистического анализа, популярен в науке и медицине.

    Визуализация и отчётность. Power BI и Tableau — BI-системы для построения интерактивных дашбордов. Google Data Studio (Looker Studio) — бесплатная альтернатива для простых отчётов.

    Управление проектами и версиями. Git — для контроля версий кода и запросов. Jira или Notion — для постановки и отслеживания задач.

    Для старта вам нужны три инструмента: SQL, Excel и одна BI-система. Остальные осваиваются по мере необходимости.

    SQL: язык, который должен знать каждый аналитик

    SQL — это единственный инструмент, который требуется практически в 100% вакансий junior-аналитика. Без него вы не сможете получить данные из базы, и все остальные навыки окажутся бесполезными.

    SQL работает с таблицами. Представьте огромную Excel-таблицу, где каждая строка — это запись (клиент, заказ, товар), а каждый столбец — атрибут (имя, дата, сумма). SQL позволяет извлекать из таких таблиц именно то, что нужно.

    Базовый запрос: SELECT и FROM

    Самый простой SQL-запрос — выборка данных:

    SELECT — что взять, FROM — откуда. Например, чтобы получить список всех имён клиентов:

    Чтобы взять несколько столбцов, перечислите их через запятую. Символ * означает «все столбцы»:

    Фильтрация: WHERE

    Чаще всего вам нужны не все данные, а только подходящие. Клаузула WHERE задаёт условие фильтрации:

    Операторы сравнения: =, !=, >, <, >=, <=. Для объединения условий — AND (и) и OR (или):

    Сортировка: ORDER BY

    ORDER BY сортирует результат. По умолчанию — по возрастанию (ASC), для убывания — DESC:

    Агрегатные функции

    Когда нужно не просто выбрать данные, а посчитать что-то — используются агрегатные функции:

  • COUNT(*) — количество строк
  • SUM(столбец) — сумма значений
  • AVG(столбец) — среднее значение
  • MIN(столбец) и MAX(столбец) — минимум и максимум
  • AS создаёт псевдоним — удобное имя для результата вычисления.

    Группировка: GROUP BY

    GROUP BY — один из самых мощных инструментов SQL. Он группирует строки по значению в указанном столбце и применяет агрегатную функцию к каждой группе:

    Этот запрос вернёт количество клиентов в каждом городе. Без GROUP BY вы получите общее количество; с ним — разбивку по группам.

    Фильтрация по результатам агрегации — через HAVING (не WHERE):

    Объединение таблиц: JOIN

    Данные в реальных базах распределены по разным таблицам. Клиенты — в одной, заказы — в другой. JOIN позволяет соединить их по общему столбцу:

    JOIN ... ON — условие соединения: строки из обеих таблиц связываются, когда значения в указанных столбцах совпадают. Типы JOIN:

    | Тип | Что делает | |-----|-----------| | INNER JOIN | Только совпадающие строки из обеих таблиц | | LEFT JOIN | Все строки из левой таблицы + совпадающие из правой | | RIGHT JOIN | Все строки из правой таблицы + совпадающие из левой | | FULL JOIN | Все строки из обеих таблиц |

    На практике LEFT JOIN используется чаще всего: вы берёте всех клиентов и «приклеиваете» к ним данные о заказах, даже если кто-то ещё ничего не заказал.

    Excel: быстрый инструмент для небольших задач

    Excel незаменим, когда данные помещаются в один файл и нужно быстро что-то посчитать. Ключевые функции аналитика:

  • СУММЕСЛИ / SUMIF — сумма с условием
  • СЧЁТЕСЛИ / COUNTIF — подсчёт с условием
  • ВПР / VLOOKUP — поиск значения в таблице
  • СРЗНАЧ / AVERAGE — среднее значение
  • Сводные таблицы (Pivot Tables) — главный аналитический инструмент Excel: группировка и агрегация данных без формул
  • Сводные таблицы — это, по сути, визуальный аналог GROUP BY в SQL. Вы перетаскиваете столбцы в области «строки», «столбцы» и «значения» — и получаете готовую агрегацию.

    Когда какой инструмент использовать

    | Задача | Инструмент | |--------|-----------| | Выбрать данные из базы | SQL | | Быстро посчитать что-то на маленьком датасете | Excel | | Автоматизировать обработку регулярных данных | Python + pandas | | Построить интерактивный дашборд | Power BI / Tableau | | Поделиться простым отчётом с коллегами | Google Sheets / Looker Studio |

    Микропример: SQL-запрос на практике

    Менеджер просит: «Дай список из 10 самых дорогих заказов за последний месяц с именами клиентов.» Ваш SQL:

    LIMIT 10 ограничивает вывод десятью строками. Запрос читается почти как обычное предложение: «Выбери имя, фамилию, сумму и дату из клиентов, соедини с заказами по ID клиента, где дата заказа не раньше 1 февраля, отсортируй по убыванию суммы, возьми первые 10.»

    Если из этой главы запомнить три вещи:

  • SQL — обязательный инструмент для аналитика. Начинайте учить его с первого дня: SELECT, WHERE, GROUP BY, JOIN покрывают 80% рабочих задач.
  • Инструмент выбирается под задачу, а не наоборот. Не нужно писать код на Python, если достаточно сводной таблицы в Excel.
  • Excel и SQL — не конкуренты, а互补 (дополняющие друг друга инструменты). SQL достаёт данные, Excel считает и визуализирует на бытовом уровне.
  • 4. Анализ данных и визуализация результатов

    Анализ данных и визуализация результатов

    Почему один и тот же набор цифр может выглядеть убедительно в одном графике и теряться в другом? В 1854 году врач Джон Сноу нанёс на карту Лондона точки, обозначающие случаи холеры, и увидел кластер вокруг одной водяной помпы. Ни таблицы, ни расчёты не дали бы этого открытия — только визуализация. Способ представления данных определяет, увидит ли ваша аудитория проблему или пролистает отчёт.

    Методы анализа: от простого к сложному

    Анализ данных — это не один навык, а набор методов, которые применяются в зависимости от задачи.

    Описательная статистика

    Первое, что нужно сделать с любым набором данных — описать его основные характеристики.

    Среднее арифметическое — сумма всех значений, делённая на их количество. Оно показывает «типичное» значение, но чувствительно к выбросам. Если пять сотрудников зарабатывают 50 000 руб., а один — 500 000 руб., среднее будет 125 000 руб., хотя большинство получает 50 000.

    Медиана — значение, которое делит упорядоченный набор пополам. В примере выше медиана равна 50 000 руб. — она точнее отражает реальность при наличии выбросов.

    Мода — наиболее часто встречающееся значение. В интернет-магазине мода по размеру одежды — это «44»: именно его заказывают чаще всего.

    Стандартное отклонение показывает, насколько значения разбросаны относительно среднего. Маленькое отклонение — данные сконцентрированы вокруг среднего; большое — разбросаны широко.

    > Когда кто-то говорит вам «средняя зарплата по стране», всегда спрашивайте: «А медианная?» Среднее искажается少数 сверхдоходами, а медиана показывает, что получает大多数. > > Росстат, методология расчёта

    Сравнение групп

    Часто аналитику нужно сравнить две или более группы. Магазин запустил новую акцию — увеличились ли продажи? Клиенты из Москвы и Санкт-Петербурга ведут себя по-разному?

    Для сравнения используют:

  • Разницу средних или медиан между группами
  • Относительное изменение в процентах: (новое − старое) / старое × 100%
  • Визуальное сравнение на графике
  • Микропример: средний чек в январе — 3 200 руб., в феврале — 3 520 руб. Рост: (3 520 − 3 200) / 3 200 × 100% = 10%. Теперь нужно понять: рост за счёт увеличения количества товаров в чеке или за счёт более дорогих покупок?

    Корреляция и причинность

    Корреляция — статистическая связь между двумя переменными: когда одна растёт, другая тоже растёт (или падает). Например, корреляция между расходами на рекламу и количеством новых клиентов.

    Но корреляция не означает причинность. Продажи мороженого и количество солнечных дней коррелируют — но солнце не покупает мороженое. Обе переменные зависят от третьего фактора: температуры. Это классическая ловушка, в которую попадают даже опытные аналитики.

    Визуализация: выбрать правильный график

    Выбор типа графика — это не эстетическое решение, а аналитическое. Неправильный график искажает данные.

    | Задача | Тип графика | Когда использовать | |--------|------------|-------------------| | Сравнить категории | Столбчатая диаграмма | Продажи по регионам, количество клиентов по возрастным группам | | Показать тренд во времени | Линейный график | Выручка по месяцам за год, динамика посещаемости сайта | | Показать доли | Круговая диаграмма | Структура расходов (но не более 5–6 сегментов) | | Показать распределение | Гистограмма | Распределение суммы заказов, возраст клиентов | | Показать связь между переменными | Диаграмма рассеяния | Зависимость между ценой и количеством продаж | | Показать географические данные | Тепловая карта / карта | Продажи по регионам на карте России |

    Правила хорошей визуализации

    Правило 1: Один график — одна мысль. Не пытайтесь уместить на одном графике продажи, количество клиентов и средний чек одновременно. Лучше три простых графика, чем один перегруженный.

    Правило 2: Подписи осей обязательны. Ось X — что, ось Y — сколько. Без подписей график — загадка.

    Правило 3: Избегайте 3D-графиков. Они выглядят эффектно, но искажают пропорции. Двухмерный график точнее.

    Правило 4: Используйте цвет осмысленно. Цвет должен нести информацию (разные категории — разные цвета), а не украшать. Три цвета — максимум для одного графика.

    BI-системы: Power BI и Tableau

    BI-система (Business Intelligence) — это инструмент для создания интерактивных отчётов и дашбордов. В отличие от статического графика в Excel, дашборд в BI-системе обновляется автоматически, позволяет фильтровать данные и «проваливаться» в детали.

    Power BI — продукт Microsoft, интегрируется с Excel и SQL Server. Бесплатная десктопная версия для разработки, платная — для публикации в облаке. Наиболее популярен в России и СНГ.

    Tableau — более гибкий в визуализации, популярен в международных компаниях. Сложнее для старта, но даёт больше возможностей.

    Looker Studio (бывший Google Data Studio) — бесплатный облачный инструмент от Google. Идеален для простых отчётов и дашбордов, которые нужно быстро поделить с командой.

    Для junior-аналитика достаточно освоить один из них. Power BI — наиболее вероятный выбор для российского рынка.

    Микропример: построение дашборда

    Вы аналитик в сервисе доставки. Руководитель хочет видеть ключевые метрики в одном месте. Вы строите дашборд с четырьмя блоками:

  • Линейный график — динамика количества заказов по дням за последний месяц. Видно: по вторникам и пятницам пик.
  • Столбчатая диаграмма — среднее время доставки по районам. Видно: два района с аномально высоким временем.
  • KPI-карточки — общее число заказов, средний чек, процент возвратов. Цифры обновляются ежедневно.
  • Фильтры — по дате, району, типу доставки. Руководитель может сам «поиграть» данными.
  • Такой дашборд заменяет десять страниц Excel-отчёта и экономит часы на еженедельных совещаниях.

    Типичные ошибки визуализации

    Ошибка 1: Круговая диаграмма с 12 сегментами. Человек не может визуально сравнить 12 секторов. Если категорий больше пяти — используйте столбчатую диаграмму.

    Ошибка 2: Манипуляция масштабом оси. Если ось Y начинается не с нуля, маленькая разница выглядит огромной. График продаж с осью Y от 990 до 1 010 покажет «резкий рост», хотя изменение составило всего 2%.

    Ошибка 3: Отсутствие контекста. График «Продажи выросли на 15%» без указания периода, базы сравнения и условий — бессмыслен. Рост на 15% по сравнению с прошлым месяцем — это одно; по сравнению с аналогичным периодом прошлого года — другое.

    Если из этой главы запомнить три вещи:

  • Тип графика определяется задачей, а не эстетикой. Столбчатая для сравнения, линейная для тренда, круговая для долей (не более 5–6 сегментов).
  • Среднее искажается выбросами. При наличии аномальных значений ориентируйтесь на медиану.
  • Корреляция не означает причинность. Всегда ищите третьи факторы, которые могут объяснить связь между двумя переменными.
  • 5. Практика и переход в роль junior-аналитика

    Практика и переход в роль junior-аналитика

    Когда-нибудь вы слышали историю о человеке, который годами изучал плавание по книгам, а потом утонул при первой попытке войти в воду? С аналитикой данных та же логика: теория без практики — это красивая, но бесполезная конструкция. Именно поэтому последняя глава курса посвящена не новым концепциям, а тому, как собрать всё изученное воедино и превратить знания в оффер на работу.

    Портфолио: ваш главный аргумент при найме

    Резюме без портфолио — это письмо без приложений. Рекрутер видит «владею SQL, Python, Power BI» — но как проверить? Портфолио решает эту проблему: оно показывает не то, что вы знаете, а то, что вы умеете делать.

    Что должно быть в портфолио junior-аналитика:

    Минимум три проекта, демонстрирующих разные навыки. Вот комбинация, которая покрывает основные ожидания работодателя:

  • Проект с SQL — выгрузка и анализ данных из базы. Возьмите открытый датасет (например, данные о поездках такси из NYC Taxi Trip Data или данные о продажах из Kaggle), загрузите его в PostgreSQL и напишите серию запросов: агрегация, фильтрация, JOIN, оконные функции. Опубликуйте запросы на GitHub с комментариями.
  • Проект с визуализацией — дашборд в Power BI или Tableau. Используйте публичные данные (продажи, демография, погода) и постройте интерактивный отчёт. Сделайте скриншоты или опубликуйте дашборд онлайн.
  • Сквозной аналитический проект — от постановки задачи до выводов. Сформулируйте бизнес-вопрос, соберите данные, очистите их, проанализируйте, визуализируйте и напишите выводы. Это имитация реальной рабочей задачи.
  • > Портфолио — это не «сделанные домашки». Это демонстрация того, как вы думаете: какой вопрос задаёте, почему выбираете конкретный метод, какие выводы делаете.

    Где брать данные для проектов

    Открытые данные — кладезь для практики.

  • Kaggle — тысячи датасетов по всем темам: от здравоохранения до финансов
  • data.gov и data.gov.ru — государственные открытые данные
  • Google Dataset Search — поисковик по открытым датасетам
  • API публичных сервисов — погода, курсы валют, данные о населении
  • Выбирайте тему, которая вам интересна. Анализ данных о видеоиграх, спортивных результатах или музыкальных предпочтениях ничем не хуже «серьёзных» бизнес-датасетов для портфолио — зато вы будете мотивированы довести проект до конца.

    Структура аналитического проекта для портфолио

    Любой проект в портфолио должен следовать чёткой структуре — именно так выглядит реальная работа аналитика.

  • Описание задачи. Какой бизнес-вопрос вы решаете? Сформулируйте его конкретно: не «проанализировать данные о продажах», а «Определить, какие категории товаров показывают отрицательную динамику за последние 6 месяцев, и выявить возможные причины».
  • Описание данных. Откуда данные, сколько записей, какие столбцы, какие ограничения. Например: «Датасет содержит 50 000 транзакций интернет-магазина за период с января по июнь 2024 года. Столбцы: ID заказа, дата, категория товара, сумма, регион клиента».
  • Очистка и подготовка. Что вы нашли и что исправили: пропуски, дубликаты, форматы. Покажите «до» и «после» — это демонстрирует внимание к качеству данных.
  • Анализ. Какие методы применили, какие закономерности нашли. Подкрепляйте каждый вывод конкретными цифрами: не «продажи выросли», а «продажи в категории «Электроника» выросли на 23% по сравнению с предыдущим периодом, что составляет 1,2 млн руб. дополнительной выручки».
  • Визуализация. Графики и диаграммы, которые поддерживают ваши выводы.
  • Выводы и рекомендации. Что делать бизнесу на основе вашего анализа. Конкретные, измеримые рекомендации.
  • Подготовка к собеседованию

    Собеседование на позицию junior-аналитика обычно включает три блока.

    Технические вопросы. Вам дадут задачу на SQL или попросят описать, как бы вы решили аналитическую задачу. Типичные вопросы: «Чем отличается LEFT JOIN от INNER JOIN?», «Что такое оконные функции?», «Как найти дубликаты в таблице?» Практикуйтесь решать задачи на SQL на сайтах вроде LeetCode (раздел SQL), StrataScratch или HackerRank.

    Кейсы. Вам дают бизнес-ситуацию и просят предложить аналитический подход. Например: «Конверсия сайта упала на 15% за месяц. Как бы вы искали причину?» Здесь важно не сразу «прыгать» к данным, а сначала структурировать проблему: проверить, не изменился ли трафик (источники, качество), не было ли технических сбоев, не изменилась ли аудитория.

    Поведенческие вопросы. «Расскажите о проекте из вашего портфолио. Какую задачу решали? Какие трудности возникли? К каким выводам пришли?» Здесь оценивают не технические навыки, а умение коммуницировать результаты — критически важный навык аналитика.

    Нетворкинг и поиск вакансий

    Первая работа в аналитике — самая сложная в поиске. Вот стратегии, которые работают.

    Стажировки и junior-позиции. Крупные компании (Яндекс, Сбер, Тинькофф, Ozon) регулярно набирают стажёров. Уровень входа — базовый SQL и понимание статистики. Конкурс высокий, но портфолио из трёх проектов значительно повышает шансы.

    Фриланс и проектная работа. На биржах фриланса можно найти небольшие аналитические задачи: построить отчёт, проанализировать данные, настроить дашборд. Это не только опыт, но и записи в портфолио с реальными результатами.

    Сообщества. Телеграм-чаты, meetup'ы, профессиональные сообщества в LinkedIn. Участие в обсуждениях, помощь другим новичкам, публикация своих проектов — всё это создаёт видимость и открывает неочевидные возможности.

    Внутренний переход. Если вы уже работаете в компании — предложите помощь с аналитикой своему отделу. Автоматизировать отчёт, построить дашборд, провести анализ. Многие аналитики пришли в профессию именно так: начали «на своём месте» и gradually переключились на аналитику полностью.

    Дорожная карта обучения

    Если вы прошли весь курс и хотите систематизировать дальнейшие шаги, вот ориентир.

    | Этап | Навыки | Срок | |------|--------|------| | Фундамент | SQL (базовый и продвинутый), Excel, базовая статистика | 1–2 месяца | | Инструменты | Python (pandas), Power BI или Tableau | 1–2 месяца | | Практика | 3–5 проектов в портфолио | 1–2 месяца | | Поиск работы | Резюме, отклики, подготовка к собеседованию | 1–3 месяца |

    Итого: от нуля до первой позиции junior-аналитика — от 4 до 9 месяцев при занятиях 10–15 часов в неделю. Это реалистичный срок, подтверждённый историями десятков людей, сменивших профессию.

    Главные заблуждения о переходе в аналитику

    «Нужно знать математику на уровне университета.» Нет. Для junior-аналитика достаточно школьной статистики: среднее, медиана, проценты, пропорции. Продвинутая математика понадобится позже, если вы пойдёте в Data Science.

    «Нужно уметь программировать.» SQL — это не программирование в классическом смысле. Python нужен, но базовый уровень pandas — это несколько часов обучения, а не годы.

    «Без опыта не возьмут.» Портфолио из качественных проектов — это и есть ваш опыт. Многие работодатели оценивают портфолио выше, чем строчку «1 год опыта» в резюме.

    «Аналитика — это скучная работа с цифрами.» Аналитика — это расследование. Вы ищете закономерности, вскрываете причины, находите возможности. Цифры — это улики, а не самоцель.

    Если из этой главы и всего курса запомнить три вещи:

  • Портфолио важнее сертификатов. Три качественных проекта с чёткой структурой (задача → данные → анализ → выводы) откроют больше дверей, чем десять пройденных курсов.
  • Первая работа — самая сложная. Используйте все каналы: стажировки, фриланс, внутренний переход, сообщества. Не ограничивайтесь откликами на hh.ru.
  • Аналитика — это про вопросы и решения, а не про инструменты. SQL, Python, Power BI — средства. Ваша задача как аналитика — находить ответы, которые помогают бизнесу принимать лучшие решения.