Статистика для аналитиков: распределения, гипотезы и доверительные интервалы
Статистика в аналитике данных нужна не ради формул, а чтобы принимать решения в условиях неопределённости. В прошлых темах курса мы:
сформулировали бизнес-задачи через метрики, сегменты и критерии успеха
разобрали, как данные попадают в хранилище и становятся пригодными для анализа
научились считать метрики SQL-омСледующий шаг: понять, насколько надёжны посчитанные различия и изменения. Например:
конверсия выросла с 2.00% до 2.08% — это реальный эффект или шум?
средний чек в одном регионе выше — это закономерность или случайность выборки?
сколько данных нужно, чтобы уверенно проверить гипотезу?Эта статья даёт практический минимум по трём опорам: распределения, гипотезы, доверительные интервалы.
Откуда берётся неопределённость
В реальной работе мы почти всегда видим не всю «истину», а наблюдения:
не все пользователи попадают в трекинг
метрика меняется изо дня в день
мы сравниваем сегменты, которые отличаются по составуКлючевая идея:
параметр — истинная характеристика всей совокупности (например, истинная конверсия всех пользователей за месяц)
оценка — то, что мы посчитали по данным (например, конверсия по фактически записанным событиям)Оценка почти всегда случайно колеблется, даже если продукт вообще не менялся.
Распределения: что это и зачем аналитику
Распределение описывает, какие значения принимает величина и как часто. Аналитику распределения нужны, чтобы:
выбирать правильные сводные показатели (среднее, медиана, перцентили)
понимать, можно ли применять «стандартные» статистические методы
избегать ошибок интерпретации (например, когда среднее искажено выбросами)Частые типы распределений в продуктовой аналитике
Нормальное распределение
- примерно симметричное «колоколом»
- часто появляется как приближение для сумм и средних
- справка:
Нормальное распределениеРаспределение с «тяжёлым хвостом»
- типично для чеков, времени в продукте, дохода
- много небольших значений и немного очень больших
- в таких данных среднее часто нестабильно, полезны медиана и перцентили
Биномиальное распределение
- возникает для метрик вида «успех/неуспех»
- примеры: конверсия в оплату, доля пользователей, сделавших действие
- справка:
Биномиальное распределениеПуассоновское распределение
- для счётчиков событий на интервал: обращения в поддержку за день, ошибки 500 за минуту
- справка:
Распределение Пуассона!Сравнение симметричного распределения и распределения с тяжёлым хвостом
Практическое правило выбора сводной метрики
Если распределение примерно симметричное и без экстремальных выбросов, среднее обычно интерпретируемо.
Если есть сильная асимметрия и выбросы, медиана и перцентили часто полезнее.
Для конверсий и долей удобны доли и доверительные интервалы для долей.Выборка, стандартная ошибка и центральная предельная теорема
Один из самых важных мостов от «сырых данных» к статистическим выводам: распределение оценки.
Среднее и его неопределённость
Пусть у нас есть значения метрики .
— размер выборки (сколько наблюдений)
— выборочное среднееФормула среднего:
Здесь:
— сумма всех наблюдений
деление на даёт «среднее на одно наблюдение»Но даже если истинное среднее в мире фиксировано, будет колебаться от выборки к выборке.
Эту колеблемость часто описывают через стандартную ошибку среднего.
Если — выборочное стандартное отклонение (мера разброса значений в данных), то стандартная ошибка среднего:
Где:
— типичный масштаб случайного отклонения среднего
— насколько сильно разбросаны отдельные значения
— корень из размера выборкиПрактический смысл формулы:
чем больше , тем точнее оценка среднего
рост точности идёт как , то есть в 4 раза больше наблюдений дают примерно в 2 раза меньше шумПочему «часто можно считать нормально»
Центральная предельная теорема говорит упрощённо: при достаточно большом распределение среднего становится близким к нормальному, даже если сами данные не нормальные.
Справка: Центральная предельная теорема
В аналитике это означает:
для многих метрик можно строить доверительные интервалы и тесты для среднего
но нужно помнить про зависимости (например, «события» пользователя не независимы) и про тяжёлые хвосты (где сходимость может быть медленной)Доверительные интервалы: как выражать результат честно
Доверительный интервал (CI) — диапазон значений параметра, который согласуется с наблюдаемыми данными при выбранном уровне уверенности.
Справка: Доверительный интервал
Корректная интерпретация доверительного интервала
Если мы построили 95% доверительный интервал по некоторому методу, то корректное утверждение:
если бы мы много раз повторяли сбор данных одинаковым способом, то примерно в 95% случаев построенный интервал накрывал бы истинный параметрНекорректная, но частая интерпретация:
«с вероятностью 95% истинное значение лежит внутри именно этого интервала»Почему некорректно: в классической (частотной) статистике параметр считается фиксированным, а случайным является интервал.
Доверительный интервал для среднего
Для среднего часто используют приближение через t-распределение (особенно когда не очень велико и мы оцениваем разброс по выборке).
Справка: Распределение Стьюдента
Общий вид доверительного интервала для среднего:
Где:
— среднее по выборке
— стандартное отклонение по выборке
— размер выборки
— уровень значимости, для 95% CI это
— критическое значение t-распределения для уровня и степеней свободыПрактический смысл:
задаёт «ширину шума»
множитель задаёт, насколько широко нужно взять интервал, чтобы достигнуть нужного уровня уверенностиДоверительный интервал для конверсии (доли)
Конверсия — это доля успехов :
Где:
— число «успехов» (например, оплат)
— число попыток (например, визитов или оформлений)В простом приближении стандартная ошибка доли:
И приближённый 95% интервал часто пишут как:
Где 1.96 — приблизительное критическое значение для 95% при нормальном приближении.
Важные оговорки для практики:
при малых и при долях близких к 0 или 1 нормальное приближение может работать плохо
в прикладной аналитике часто используют более устойчивые интервалы для долей (например, Уилсона), но сам принцип «оценка плюс-минус неопределённость» остаётся тем же!Как выглядит доверительный интервал и сравнение двух групп
Проверка гипотез: как формализовать решение
В бизнесе гипотеза звучит как «изменение X улучшит метрику Y». В статистике это превращается в сравнение двух утверждений.
Справка: Статистическая проверка гипотез
Нулевая и альтернативная гипотезы
Нулевая гипотеза : эффекта нет (различие равно нулю или объясняется случайностью)
Альтернативная гипотеза : эффект есть (различие не нулевое или в заданную сторону)Пример для конверсии:
: конверсии в A и B равны
: конверсии отличаютсяp-value и уровень значимости
p-value — вероятность получить наблюдаемое (или более экстремальное) различие, если верна.
Справка: p-value
выбирают уровень значимости (часто 0.05)
если , то результат называют статистически значимым и часто отвергают Важная интерпретационная ловушка:
p-value не является вероятностью того, что верна
p-value не говорит о практической полезности эффектаОшибки первого и второго рода
Любое решение по тесту может ошибаться.
Ошибка первого рода: отвергли , хотя эффекта нет
- вероятность такой ошибки примерно равна
Ошибка второго рода: не отвергли , хотя эффект есть
- зависит от размера эффекта и объёма данных
Связанное понятие:
мощность теста — вероятность обнаружить эффект, если он реально естьПрактический смысл для аналитика:
если данных мало, вы часто будете «не видеть» настоящие эффекты
если проверяете много гипотез, вы почти гарантированно найдёте «значимые» ложные находкиДоверительные интервалы и тесты: как это связано
Для многих стандартных случаев (разница средних, доли при больших ) есть связь:
если 95% доверительный интервал для разницы не включает 0, то тест на уровне обычно даст значимостьПочему аналитикам полезны именно интервалы:
интервал показывает масштаб эффекта и его неопределённость
тест даёт только «прошло/не прошло порог»В продуктовой работе почти всегда нужно объяснять не только «значимо», но и:
насколько велик эффект
стоит ли он стоимости внедрения
каков риск, что эффект на самом деле близок к нулюТиповые сценарии в аналитике и что применять
Сравнение среднего чека
Чек часто имеет тяжёлый хвост, поэтому при сравнении средних важно:
убедиться, что единица наблюдения корректна (например, один заказ, а не одна позиция заказа)
смотреть не только среднее, но и медиану, перцентили
при необходимости рассматривать преобразования (например, логарифмирование) или робастные методыСравнение конверсий
Для конверсии как доли полезно:
сравнивать не только относительный рост, но и абсолютную разницу
строить доверительные интервалы для долей или разницы долей
следить, чтобы знаменатель был определён одинаково в сравниваемых группахДо/после без эксперимента
Это опасный сценарий, потому что вместе с изменением могли измениться сезонность, трафик, цены, маркетинг.
Минимальная практика снижения риска:
сравнивать одинаковые дни недели
проверять контрольные метрики, которые не должны меняться
сегментировать (возможно, эффект есть только в части пользователей)Как связать статистику с SQL-аналитикой
SQL обычно отвечает за:
корректное определение выборки (период, фильтры, единица наблюдения)
расчёт агрегатов (, суммы, средние, доли)Дальше статистика отвечает за:
перевод этих агрегатов в неопределённость (SE, доверительные интервалы)
формализацию решения (гипотезы, p-value или интервалы для разницы)Пример: подготовить базовые числа для конверсии по группам (A/B) в SQL.
Здесь:
— размер выборки
— число успехов
— оценка конверсииЭтих трёх чисел уже достаточно, чтобы дальше посчитать стандартную ошибку доли и приближённый интервал.
Частые ошибки и как их избегать
Смешивание единиц наблюдения
Если считать конверсию «по событиям», а не «по пользователям» или «по визитам», можно получить неверную дисперсию и неверные выводы.
Связь с прошлой темой про SQL:
перед тестом нужно убедиться, что выборка соответствует тому, что вы сравниваетеВыбор метрики после просмотра результатов
Если вы сначала посмотрели 10 метрик, а затем «выбрали ту, где значимо», то уже не означает 5% ложных находок.
Практика:
заранее фиксировать целевую метрику и критерий успеха (из первой темы курса)
явно отделять exploration (поиск) от confirmatory (подтверждение)Путаница статистической и практической значимости
При большом трафике даже микроскопический эффект может стать «значимым».
Практика:
всегда показывать размер эффекта (например, разницу конверсий в процентных пунктах)
вместе с эффектом показывать доверительный интервалЗависимости в данных
Пользователь может совершать много событий, и эти события зависимы. Тесты, предполагающие независимость наблюдений, могут «переоценивать уверенность».
Практика:
часто лучше агрегировать на уровне пользователя (одна строка на пользователя) и сравнивать пользователейЧто дальше по курсу
Теперь у вас есть базовый язык неопределённости:
распределения помогают понимать свойства метрик
доверительные интервалы показывают диапазон правдоподобных значений
проверка гипотез формализует решение и риск ошибокДальше эти идеи обычно применяют в типовых продуктовых задачах: воронки, когорты и удержание, оценка эффекта изменений и построение витрин под экспериментальные данные.