Проверка гипотез и сравнение игроков и команд
В прошлой статье мы научились оценивать вероятности и средние по данным и добавлять к ним неопределённость через стандартные ошибки и доверительные интервалы. Но в спортивной аналитике часто звучит следующий вопрос:
игрок A действительно лучше игрока B, или разница случайна?
команда стала сильнее после смены тренера, или это просто удачный отрезок?
новая тактика увеличила количество моментов, или мы видим шум?Проверка статистических гипотез превращает такие вопросы в формальную процедуру принятия решения с контролируемым риском ошибки.
Что такое гипотеза в спортивной задаче
В терминах курса у нас есть неизвестный параметр (или несколько), который описывает процесс:
— вероятность забить пенальти
— среднее число бросков в створ за матч
— разница средних между двумя игроками или режимамиМы наблюдаем выборку и получаем оценку (, ), но она шумит из-за конечного числа наблюдений.
Гипотеза — это утверждение о параметре, которое мы хотим проверить.
Обычно формулируют две гипотезы:
Нулевая гипотеза : эффекта нет или разницы нет.
Альтернативная гипотеза : эффект есть.Примеры:
: у двух игроков одинаковая вероятность забить пенальти
: вероятности отличаютсяВажно: проверка гипотез не доказывает, что истинна или ложна навсегда. Это процедура, которая говорит, насколько наблюдаемые данные совместимы с .
Справка: Статистическая проверка гипотез.
Логика проверки гипотез: что именно мы сравниваем
Процедура почти всегда устроена одинаково:
Вы задаёте и .
Вы выбираете статистику теста — число, которое измеряет величину эффекта в данных.
Вы понимаете, как эта статистика ведёт себя, если верна.
Вы вычисляете, насколько “экстремально” ваше наблюдение при .Ключевой термин здесь — p-value.
p-value: что это и чего это не означает
p-value — это вероятность получить наблюдение не менее экстремальное, чем ваше, при условии, что верна.
То есть p-value — это про , а не про .
Типичные ошибки интерпретации:
Неправильно: “p-value = 0.03 означает, что вероятность того, что разницы нет, равна 3%”.
Правильно: “если бы разницы не было, такие (или ещё более сильные) данные встречались бы примерно в 3% случаев”.Справка: p-value.
Уровень значимости и ошибки решений
Чтобы превратить p-value в решение, заранее выбирают уровень значимости (часто 0.05).
если p-value , говорят, что результат статистически значим, и отвергают
если p-value , не отвергаютПри этом возможны два типа ошибок:
Ошибка первого рода: отвергли , хотя она верна (ложноположительный вывод). Её вероятность и контролируется уровнем .
Ошибка второго рода: не отвергли , хотя на самом деле эффект есть (ложноотрицательный вывод).Также важна мощность теста: вероятность обнаружить эффект, если он существует. На мощность сильно влияют размер выборки и величина реального эффекта.
!Схема показывает, как связаны уровень значимости, ошибки и мощность
Сравнение долей: “у кого выше вероятность успеха”
Очень частая спортивная задача: сравнить две вероятности успеха.
Пример:
игрок A забил пенальти из
игрок B забил пенальти из Оценки вероятностей:
-
-
Идея теста для разности долей
Нулевая гипотеза часто выглядит так:
-
Тогда в рамках можно оценить “общую” вероятность успеха, используя объединённые данные:
Где:
— число успехов у игрока A и B
— число попыток
— общая доля успеха, если предположить, что вероятности одинаковыДальше считается статистика (часто её обозначают ), которая сравнивает разницу с типичным “шумом” этой разницы при :
Пояснение элементов:
числитель — наблюдаемая разница
выражение под корнем — оценка стандартного отклонения разницы долей при
и отражают простой факт: чем больше попыток, тем стабильнее оценкаДалее по значению получают p-value (например, для “двусторонней” проверки, когда интересует любое отличие, и в плюс, и в минус).
Практическая оговорка: при малых выборках для долей часто используют точные методы, например Точный критерий Фишера.
Сравнение средних: “кто набирает больше в среднем”
Если метрика числовая (очки, xG за матч, передачи под удар), часто сравнивают средние значения.
Пример:
— очки игрока за матч
есть выборки матчей игрока A и игрока Bt-тест для независимых выборок
Одна из стандартных процедур — t-тест. Его базовая идея: сравнить разницу средних с ожидаемым уровнем шума.
Одна из популярных форм (особенно в варианте Уэлча, когда дисперсии могут отличаться) использует статистику:
Пояснение элементов:
— выборочные средние для двух игроков/команд
— выборочные дисперсии (оценки разброса)
— размеры выборок
знаменатель — оценка стандартной ошибки разницы среднихЕсли слишком велик для того, что обычно бывает при , p-value становится маленьким.
Парные сравнения: когда важна “сопоставимость” матчей
Во многих спортивных задачах наблюдения логично сравнивать парами, чтобы убрать шум контекста.
Примеры:
команда “до” и “после” смены тренера, но сравниваем матчи против соперников похожей силы
один и тот же игрок “до” и “после” изменения роли, сравнение по одинаковым типам соперниковТогда вместо двух независимых выборок анализируют разности внутри пар:
-
И проверяют, отличается ли средняя разность от нуля.
Идея: парный подход уменьшает дисперсию “внешних факторов”, потому что сравнение происходит внутри более похожих ситуаций.
Табличные данные: “связаны ли два фактора”
Иногда метрика — не число и не доля успехов, а таблица частот. Например:
результат матча (победа/ничья/поражение)
признак (дом/выезд)Тогда вопрос: зависит ли распределение исходов от признака?
Для таких задач часто используют Критерий хи-квадрат.
Статистика обычно имеет вид:
Пояснение элементов:
— наблюдаемое число матчей в ячейке таблицы (например, “победа дома”)
— ожидаемое число матчей в ячейке, если зависимости нет (если верна)
сумма идёт по всем ячейкам таблицыЕсли расхождения между наблюдаемыми и ожидаемыми частотами слишком велики, становится большим, p-value уменьшается.
Доверительные интервалы и проверки гипотез: практическая связь
Доверительный интервал из прошлой статьи часто даёт более полезную картину, чем “значимо/не значимо”.
проверка гипотез отвечает: можно ли отвергнуть ноль?
доверительный интервал отвечает: какие размеры эффекта вообще правдоподобны по данным?Практическое правило (для многих стандартных тестов):
если 95% доверительный интервал для разницы не содержит 0, то при вы обычно отвергнете о нулевой разницеЭто помогает не терять “размер эффекта” за бинарным решением.
Размер эффекта: статистическая значимость против спортивного смысла
На больших данных можно получить маленькое p-value даже для микроскопической разницы.
Поэтому в спортивной аналитике важно разделять:
статистическую значимость: маловероятно получить такие данные при
практическую значимость: разница достаточно велика, чтобы менять решенияОдин из способов говорить о размере эффекта при сравнении средних — стандартизировать разницу через разброс. Например, Cohen’s d:
Где:
— разница средних
— “типичный” масштаб разброса (объединённая оценка стандартного отклонения)Справка: Effect size.
Множественные сравнения: ловушка “мы нашли 3 значимых игрока из 50”
Если вы сравниваете много игроков, позиций или метрик, то вы неизбежно найдёте “значимые” различия просто по случайности.
Пример логики:
вы сделали 100 независимых проверок при
даже если везде верна, вы ожидаете около 5 ложноположительных “находок”Один из простых способов контроля — поправка Бонферрони: если вы делаете тестов, используйте уровень
Где:
— желаемый общий риск ложноположительных выводов
— число проверок
— порог для каждого отдельного тестаСправка: Поправка Бонферрони.
Альтернатива, часто полезная в аналитике больших наборов показателей, — контроль доли ложных открытий (FDR): False discovery rate.
!Схема показывает, как ужесточается порог при множественных проверках
Когда классические тесты дают сбой
В спорте особенно часто ломаются предпосылки “учебной статистики”:
наблюдения зависимы во времени (форма, травмы, календарь)
выборки нерепрезентативны (отбор ситуаций)
распределения асимметричны и с выбросамиВ таких случаях полезны вычислительные подходы.
Перестановочный тест: проверка без жёстких предположений
Идея: если верна и “разницы нет”, то метки “игрок A” и “игрок B” можно случайно перемешивать, и статистика разницы будет вести себя похоже.
Процедура часто выглядит так:
Вы выбираете статистику эффекта, например .
Считаете наблюдаемое .
Много раз перемешиваете метки принадлежности наблюдений к группам.
Каждый раз пересчитываете и получаете “нулевое” распределение.
p-value оцениваете как долю перестановок, где эффект не менее экстремален, чем .Этот подход близок по духу к бутстрэпу из прошлой статьи, но отвечает именно на вопрос гипотезы.
Справка: Permutation test.
Рабочий чек-лист: как сравнивать игроков и команды аккуратно
Чётко сформулировать эффект
- разница долей? разница средних? зависимость факторов в таблице?
Зафиксировать контекст
- дом/выезд, сила соперника, минуты на площадке, роль игрока
Выбрать тест и убедиться, что он подходит
- для долей: тест разности долей или точные методы
- для средних: t-тест (часто Уэлча) или парный вариант
- для таблиц: хи-квадрат или точные методы
Всегда добавлять оценку размера эффекта и доверительный интервал
Если сравнений много — учитывать множественные проверки
Интерпретировать результат как поддержку решения, а не как “математическое доказательство”Что дальше
Проверка гипотез завершает базовый цикл курса: от вероятностей и условных вероятностей к распределениям, оценкам, доверительным интервалам и решениям на данных.
Дальше логично переходить к моделям, которые учитывают сразу несколько факторов и дают прогнозы вида или , а также к сравнению качества таких моделей на данных.