1. Границы применимости A/B-тестов, причинность и формализация продуктовых гипотез
Границы применимости A/B-тестов, причинность и формализация продуктовых гипотез
Добро пожаловать на углублённый курс по A/B-тестированию. Если вы читаете этот текст, значит, вы уже прошли этап, когда p-value < 0.05 вызывает безусловный восторг, а отсутствие статистической значимости — разочарование. Вы, вероятно, сталкивались с ситуациями, когда «зелёный» тест приводил к падению метрик на проде, или когда бизнес требовал запустить эксперимент там, где трафика хватит только к следующему тысячелетию.
В этой первой статье мы не будем считать дисперсию. Мы займёмся фундаментом, без которого математика бесполезна: причинностью, границами применимости метода и искусством формулирования гипотез.
Иллюзия строгости: когда A/B-тесты не нужны
В индустрии существует культ A/B-тестирования. Считается, что любое решение, не подкреплённое экспериментом — это гадание на кофейной гуще. Однако слепая вера в тесты создаёт иллюзию строгости. Аналитик может провести безупречный с точки зрения статистики тест, который ответит на совершенно бесполезный вопрос.
Зоны, где эксперименты вредны или бесполезны
> A/B-тестирование — это инструмент для измерения эффекта изменений, а не способ переложить ответственность за принятие решений на алгоритм.
Причинность и контрфактуальное мышление
Почему мы вообще проводим A/B-тесты? Почему нельзя просто выкатить изменение и сравнить «до» и «после»? Ответ кроется в понятии причинности (Causality).
Центральная проблема причинного вывода (Fundamental Problem of Causal Inference) заключается в том, что мы никогда не можем наблюдать один и тот же объект (пользователя) в двух состояниях одновременно: и под воздействием изменения, и без него.
Математическая формулировка
Представим, что у нас есть пользователь . Обозначим его потенциальные исходы:
* — значение метрики (например, конверсии), если пользователь попал в тестовую группу (Treatment). * — значение метрики, если пользователь попал в контрольную группу (Control).
Истинный эффект воздействия для конкретного пользователя (tau) выглядит так:
Где: * — индивидуальный эффект воздействия на пользователя . * — исход при воздействии. * — исход без воздействия.
Проблема в том, что мы видим только одно из этих значений. Второе значение является контрфактуальным (то, что могло бы быть, но не случилось). Поэтому мы не можем посчитать индивидуальный эффект. Но мы можем оценить средний эффект воздействия (Average Treatment Effect — ATE) по всей популяции:
Где: * — средний эффект воздействия. * — математическое ожидание (среднее значение по популяции).
Роль рандомизации
Если мы просто сравним тех, кто выбрал использовать новую фичу, с теми, кто не выбрал, мы получим смещённую оценку (Selection Bias). Рандомизация (случайное распределение по группам) делает группы статистически неотличимыми друг от друга до начала эксперимента. Это позволяет нам утверждать, что:
Где: * — среднее значение метрики в тестовой группе, которую мы реально наблюдаем. * — истинное среднее значение метрики для всей популяции, если бы все получили воздействие.
Именно рандомизация превращает корреляцию в причинность, позволяя нам «заполнить пропуски» невидимых контрфактуальных данных.
Формализация продуктовых гипотез
Одной из частых причин провала экспериментов является плохая формулировка гипотезы. «Давайте перекрасим кнопку, чтобы выросла конверсия» — это не гипотеза, это надежда.
Качественная гипотеза связывает проблему пользователя, предлагаемое решение и измеримый результат. Она должна проходить путь от бизнес-идеи до статистической проверки.
Структура сильной гипотезы
Различие бизнес-гипотезы и статистической гипотезы
Аналитик должен уметь переводить язык бизнеса на язык математики.
* Бизнес-гипотеза: «Внедрение рекомендательной системы увеличит средний чек». * Статистическая гипотеза: Здесь мы работаем с парой гипотез — Нулевой () и Альтернативной ().
Где: * — нулевая гипотеза (изменений нет или стало хуже). * — среднее значение метрики в тестовой группе. * — среднее значение метрики в контрольной группе.
Где: * — альтернативная гипотеза (есть положительный эффект).
Важно понимать: A/B-тест технически проверяет именно . Мы пытаемся найти достаточно доказательств, чтобы отвергнуть утверждение, что «разницы нет».
Метрики как объекты со свойствами
В углубленном курсе мы должны перестать смотреть на метрики просто как на колонки в базе данных. Каждая метрика обладает набором свойств, которые определяют её пригодность для конкретного теста.
1. Чувствительность (Sensitivity)
Насколько легко сдвинуть метрику с места? Глобальные метрики вроде Retention 12-го месяца или Monthly Active Users (MAU) крайне инертны. Использовать их в краткосрочных тестах — ошибка. Вам понадобятся миллионы пользователей, чтобы заметить изменение на 0.5%.2. Волатильность (Variance)
Насколько сильно метрика «шумит» сама по себе? Средний чек (AOV) часто имеет «тяжелый хвост» (несколько пользователей делают огромные покупки), что создает гигантскую дисперсию. Высокая дисперсия убивает чувствительность теста.3. Прокси-метрики и Закон Гудхарта
Часто мы не можем измерить то, что хотим (например, LTV), и используем прокси (например, конверсию в первую покупку). Здесь вступает в силу Закон Гудхарта:> «Когда мера становится целью, она перестает быть хорошей мерой».
Если вы оптимизируете CTR (кликабельность) пуш-уведомлений, вы можете легко поднять его кликбейтом. Но это убьет доверие пользователей и увеличит отток (Churn Rate). В этом случае CTR — плохая прокси-метрика для долгосрочной ценности.
Скрытые угрозы дизайна эксперимента
Даже с идеальной статистикой эксперимент может врать из-за фундаментальных ошибок дизайна.
SUTVA и Сетевые эффекты
Классическая статистика предполагает соблюдение SUTVA (Stable Unit Treatment Value Assumption). Упрощенно это значит, что воздействие на одного пользователя не влияет на другого.В социальных сетях, маркетплейсах (Uber, Airbnb) или многопользовательских играх это условие нарушается. Если вы дадите скидку одной группе пассажиров такси, они закажут больше машин. Это создаст дефицит машин для контрольной группы, и их конверсия упадет из-за теста. В итоге вы увидите искусственно завышенный эффект (Uplift), которого не будет при раскатке на всех.
Эффект новизны (Novelty Effect) и Привыкания (Primacy Effect)
Пользователи могут кликать на новую кнопку просто потому, что она новая. Со временем этот эффект исчезнет. И наоборот, старые пользователи могут негативно реагировать на изменение интерфейса по привычке, но потом адаптируются. Короткие тесты не способны уловить эти долгосрочные тренды.Резюме
A/B-тестирование — это способ поиска причинно-следственных связей в условиях шума. Чтобы принимать качественные решения:
В следующих модулях мы углубимся в математику дизайна экспериментов, разберем методы снижения дисперсии и научимся работать с нарушением SUTVA.