Теория вероятности для спортивной аналитики

Курс даёт практическую базу по теории вероятности и статистическому мышлению, необходимую для анализа спортивных событий и показателей. Вы научитесь моделировать исходы матчей, оценивать неопределённость, работать с данными и корректно интерпретировать результаты для прогнозов и принятия решений.

1. Случайные события и вероятности в спорте

Случайные события и вероятности в спорте

Спортивная аналитика почти всегда начинается с вопроса «насколько вероятно, что произойдёт X?». X может быть голом, победой, попаданием в створ, тоталом больше 2.5, травмой игрока в сезоне или тем, что команда наберёт не меньше 10 очков в следующих пяти матчах.

В этой статье мы разберём базовые кирпичики теории вероятностей: случайный эксперимент, исходы, события и вероятность. Это язык, на котором дальше будут формулироваться модели, метрики и прогнозы.

Что в спорте является случайностью

Важно различать:

  • Неопределённость для наблюдателя (мы не знаем заранее исход)
  • Случайность как удобная модель (мы описываем процесс вероятностно, даже если «в реальности» всё обусловлено множеством факторов)
  • В спорте результат зависит от погоды, усталости, микротравм, тактики, судейских решений и множества неучтённых переменных. Поэтому вероятностная модель помогает:

  • формализовать ожидания
  • сравнивать игроков и команды честнее, чем по одному матчу
  • отделять «шум» от устойчивых тенденций
  • Случайный эксперимент и пространство исходов

    Случайный эксперимент — это процедура с заранее определёнными правилами, результат которой заранее неизвестен.

    Примеры экспериментов в спорте:

  • пробитие пенальти одним игроком
  • исход матча (победа/ничья/поражение)
  • количество угловых в матче
  • попадёт ли бросок в баскетболе с конкретной позиции
  • Исход — конкретный результат эксперимента.

    Пространство исходов — множество всех возможных исходов.

    Примеры:

  • Для серии «победа/ничья/поражение»:
  • Здесь — «все варианты», (win) — победа, (draw) — ничья, (loss) — поражение.

  • Для пенальти «гол/не гол»:
  • Здесь — гол, — не гол.

    События: как задавать то, что нас интересует

    Событие — это подмножество , то есть набор исходов, который мы считаем «успехом» по определению задачи.

    Примеры событий в матче с :

  • «Команда не проиграет» — событие
  • «Команда выиграет» — событие
  • Примеры событий для количества голов, если рассматриваем только 0, 1, 2, 3+:

    -

  • «Тотал больше 1.5» — событие
  • Полезные операции над событиями

    Пусть и — события.

  • Объединение : произошло хотя бы одно из событий (A или B).
  • Пересечение : произошли оба события одновременно (A и B).
  • Дополнение : событие «A не произошло».
  • Пример (футбол):

  • = «команда забьёт хотя бы 1 гол»
  • = «команда не проиграет»
  • Тогда:

  • = «команда забьёт и не проиграет»
  • = «команда не забьёт»
  • !Венн-диаграмма помогает увидеть разницу между объединением, пересечением и дополнением событий.

    Вероятность: что означает число

    Вероятность события — число от 0 до 1, которое отражает, насколько ожидаемо событие.

    Обозначение: — вероятность события .

    Интерпретация:

  • — событие невозможно в рамках модели
  • — событие обязательно произойдёт в рамках модели
  • — событие происходит «примерно в 70% подобных случаев» (в частотной интерпретации)
  • Базовые правила (аксиомы)

    В спортивной аналитике обычно опираются на стандартные аксиомы вероятности (часто называемые аксиомами Колмогорова; формально они описаны в математических учебниках и справочниках).

  • Для любого события :
  • 2.
  • Если события и не могут произойти одновременно (то есть ), то:
  • Здесь:

  • означает «или»
  • означает «и»
  • — пустое множество (нет общих исходов)
  • Практический пример (исход матча): события «победа» и «ничья» взаимоисключающие, значит

    А это и есть вероятность «не проиграть».

    Справка: аксиомы вероятности.

    Как получать вероятности в спорте

    В реальных задачах спортивной аналитики вероятность почти никогда не «берётся из воздуха». Обычно используются два подхода.

    Модельный (теоретический) подход

    Он возможен, когда структура процесса хорошо понятна и упрощения приемлемы.

    Примеры:

  • серия пенальти как независимые испытания с постоянной вероятностью гола
  • «монетка» как базовая метафора для 50/50 ситуаций (в спорте почти всегда это упрощение)
  • Эмпирический (частотный) подход

    Вероятность оценивают по данным.

    Если у нас было похожих ситуаций и событие случилось раз, то частотная оценка:

    Здесь:

  • — оценка вероятности по данным
  • — сколько раз событие произошло
  • — сколько наблюдений всего
  • Пример: игрок бил 50 пенальти и забил 40. Тогда оценка вероятности гола:

    Важное ограничение: «похожие ситуации» — ключевая часть. Пенальти в товарищеском матче и в финале могут быть разными по контексту.

    Условная вероятность: «если известно, что…»

    В спорте почти всё зависит от условий: состав, счёт, домашнее поле, удаление, стадия турнира.

    Условная вероятность отвечает на вопрос: какова вероятность события , если мы знаем, что произошло событие ?

    Обозначение: .

    Формула:

    Здесь:

  • — вероятность при условии
  • — событие «A и B вместе»
  • условие означает: нельзя «условиться» на событие с нулевой вероятностью в модели
  • Спортивная интерпретация:

  • = «команда выиграет матч»
  • = «команда ведёт в счёте после первого тайма»
  • Тогда — вероятность победы при условии, что команда уже ведёт после 45 минут.

    Независимость: когда одно не меняет другое

    Два события и называются независимыми, если знание о не меняет вероятность :

    Эквивалентная форма (часто удобнее):

    Почему это важно в спорте:

  • Многие «интуитивно независимые» вещи на самом деле зависимы (например, «забили гол» и «выиграли матч»)
  • Ошибка независимости приводит к неверным оценкам вероятностей и переоценке уверенности прогнозов
  • Пример близкий к независимости: «выпадет ли дождь в день матча» и «сделает ли конкретный защитник ошибку в первом тайме» — могут быть зависимы через состояние поля, но часто их ошибочно считают независимыми.

    Мини-словарь: как формулировать события в аналитике

    | Аналитическая формулировка | Событие | Пример пространства исходов | |---|---|---| | Победа команды | | | | Не проиграет | | | | Обе забьют | «гол хозяев» «гол гостей» | по голам/счёту | | Тотал больше 2.5 | | | | Удаление в матче | «будет красная карточка» | да, нет |

    Типичные ошибки новичков

  • Путать исходы и события
  • Исход — один конкретный результат, событие — набор исходов.

  • Смешивать «вероятность» и «уверенность»
  • Вероятность — часть модели. Если модель плохая (мало данных, неверные предположения), число может выглядеть точным, но быть неверным.

  • Игнорировать условность
  • без указания контекста часто бесполезна. Гораздо информативнее .

    Что дальше

    В следующем материале логично переходить к тому, как считать вероятности для комбинаций событий (правила сложения и умножения), а также к базовым техникам работы с данными: частотные оценки, влияние размера выборки и здравые проверки.

    2. Условная вероятность и зависимость факторов

    Условная вероятность и зависимость факторов

    В предыдущей статье мы ввели язык спортивной вероятности: случайные эксперименты, пространство исходов , события и базовые правила для . Теперь сделаем следующий шаг: научимся корректно говорить о вероятностях в контексте — когда нам известно какое-то условие (счёт, удаление, домашнее поле, состав), и разберём, что значит зависимость факторов в данных.

    Главная мысль для аналитика: одна и та же «вероятность победы» может быть совершенно разной в зависимости от того, что уже известно.

    Условная вероятность: вероятность с учётом контекста

    Условная вероятность отвечает на вопрос: какова вероятность события , если мы знаем, что произошло событие .

    Обозначение: .

    Формула:

    Разберём элементы формулы:

  • — событие, которое хотим оценить (например, «команда выиграет матч»).
  • — известное условие (например, «команда ведёт после первого тайма»).
  • — событие «произошли и , и ».
  • — вероятность условия (важно, чтобы , иначе «делить не на что»).
  • Интуитивно эта формула говорит: из всех случаев, где условие случилось, мы смотрим, в какой доле этих случаев также случилось .

    Мини-пример на данных

    Пусть у команды в сезоне 100 матчей.

  • В 40 матчах команда вела после первого тайма: это означает .
  • Из этих 40 матчей она выиграла 30: это означает .
  • Тогда:

    То есть вероятность победы при условии лидерства в перерыве оценивается как 75%.

    !B), P(не A|B), P(A|не B). Цветом выделить ветку A∩B. | Дерево вероятностей показывает, как условные вероятности живут внутри разных веток контекста

    Зависимость и независимость: когда контекст меняет вероятность

    События и называются независимыми, если знание о не меняет вероятность :

    Эквивалентная и часто удобная запись:

    Пояснение элементов:

  • — вероятность того, что произойдут оба события.
  • — что было бы, если бы события «перемножались» как независимые.
  • Почему в спорте независимость — редкость

    В спорте почти всё связано:

  • «Команда забила первой» и «команда победила» — обычно зависимы.
  • «Удаление у соперника» и «тотал больше» — часто зависимы.
  • «Домашний матч» и «количество фолов» — может быть зависимо через стиль судейства, давление трибун и тактику.
  • Типичная ошибка — молча предполагать независимость и получать слишком уверенные оценки.

    Правило умножения: как переходить между совместной и условной вероятностью

    Из определения условной вероятности следует практичная формула:

    Это читается так: «вероятность и затем при условии ».

    Спортивная интерпретация:

  • = «команда ведёт после первого тайма»
  • = «команда выиграла матч»
  • Тогда — вероятность сценария «ведём в перерыве и выигрываем».

    Закон полной вероятности: когда контекст разбивает мир на случаи

    Часто удобно разложить вероятность на несколько непересекающихся сценариев.

    Пусть событие — «команда играла дома», а — «команда играла в гостях». Эти два события:

  • покрывают все матчи (либо дома, либо в гостях)
  • не происходят одновременно
  • Тогда для любого события (например, «победа») верно:

    Пояснение:

  • — вероятность победы дома.
  • — доля домашних матчей.
  • — вероятность победы в гостях.
  • — доля гостевых матчей.
  • Это полезно, когда общая вероятность — это смесь разных режимов (дом/выезд, стартовый состав/ротация, наличие/отсутствие лидера).

    Теорема Байеса: как переворачивать условие

    В аналитике часто нужен обратный вопрос:

  • не только «какова вероятность победы, если команда ведёт?»,
  • но и «насколько вероятно, что команда вела, если она победила?»
  • Теорема Байеса связывает эти величины:

    Где:

  • — вероятность условия при известном исходе .
  • — «прямая» условная вероятность.
  • — базовая вероятность условия.
  • — базовая вероятность исхода.
  • Практический смысл: Байес помогает обновлять вероятность гипотезы (например, «команда была сильнее по моментам») после наблюдения результата (например, «команда выиграла»). В спортивных данных это часто используется в рейтингах, фильтрации сигналов и моделях, где «истинная сила» скрыта.

    Справка: Теорема Байеса.

    Зависимость факторов в данных: что может пойти не так

    Условные вероятности легко посчитать, но легко и ошибиться в интерпретации. В спорте большинство факторов взаимосвязаны, и простое сравнение «при X вероятность выше» ещё не означает, что X причина.

    Смешение факторов (конфаунинг): ложный эффект

    Смешивающий фактор — это переменная, которая влияет и на «причину», и на «результат», создавая иллюзию связи.

    Пример логики (без формул):

  • Команда чаще ведёт в счёте к перерыву, когда играет против слабых соперников.
  • Против слабых соперников команда чаще побеждает.
  • Если не учитывать силу соперника, можно переоценить «магический эффект лидерства в перерыве».
  • Иными словами, событие («ведём к перерыву») может быть не причиной победы, а маркером того, что изначально матч был легче.

    Парадокс Симпсона: агрегирование может перевернуть вывод

    Иногда в каждом сегменте данных связь одна, но в целом — противоположная. Это известно как парадокс Симпсона.

    Справка: Парадокс Симпсона.

    Спортивная интуиция:

  • В каждом типе матчей (например, «против сильных» и «против слабых») одна тактика может быть лучше.
  • Но если команда применяла эту тактику чаще именно в самых сложных матчах, то в суммарной статистике она может выглядеть хуже.
  • Вывод для аналитика: условные вероятности надо считать в корректных разрезах (по силе соперника, дому/выезду, составу, состоянию игрока), иначе можно получить неправильную историю.

    «Корреляция не означает причинность» в вероятностной форме

    Фраза «корреляция не означает причинность» в нашем языке означает: если , то это показывает зависимость, но не доказывает, что вызывает .

    Справка: Correlation does not imply causation.

    Практика: как задавать условные вероятности в спортивной задаче

    Чтобы условная вероятность работала на вас, полезно формулировать контекст как события и аккуратно задавать выборку.

    Чек-лист постановки

  • Чётко определить и в виде событий
  • Убедиться, что наблюдаемо и однозначно
  • Уточнить, что значит «похожие ситуации»
  • Следить за размером выборки для
  • Пример формулировок

    | Вопрос аналитика | Событие | Условие | Что оцениваем | |---|---|---|---| | Как часто команда выигрывает, если забила первой? | «победа» | «первый гол за нами» | | | Как меняется шанс гола со стандарта при дожде? | «гол со стандарта» | «дождь» | | | Насколько удаление соперника влияет на победу? | «победа» | «удаление у соперника» | сравнение и |

    Что дальше

    Условная вероятность — основной инструмент спортивной аналитики: почти любой матч можно описать как последовательность состояний и обновлений шансов. Дальше обычно переходят к моделированию случайных величин (голы, броски, очки), выборкам и оценкам параметров, а также к тому, как строить вероятностные модели, которые учитывают сразу несколько факторов.

    3. Случайные величины и распределения спортивных метрик

    Случайные величины и распределения спортивных метрик

    В первых материалах курса мы говорили о событиях (например, «команда не проиграет») и о том, как контекст меняет шансы через условную вероятность . Следующий шаг в спортивной аналитике — перейти от «да/нет» к числам: сколько голов, сколько бросков, какой будет разрыв в счёте, сколько минут игрок проведёт на площадке.

    Такие числовые показатели описывают через случайные величины и их распределения. Это базовый инструментарий для прогнозов, симуляций матчей и оценки неопределённости.

    Случайная величина: число, которое получается случайно

    Случайная величина — это правило, которое каждому исходу матча/эпизода из пространства исходов ставит в соответствие число.

    Примеры в спорте:

  • — число голов команды за матч
  • — число трёхочковых попаданий игрока
  • — время владения мячом (в процентах)
  • — разница в счёте (очки хозяев минус очки гостей)
  • Связь с предыдущими статьями:

  • событие «тотал больше 2.5» можно записать как , где — общее число голов в матче
  • условная вероятность «победа при лидерстве в перерыве» — это частный случай условного распределения: нас интересует распределение результата при условии известного состояния матча
  • Дискретные и непрерывные метрики

    Дискретные случайные величины

    Дискретная величина принимает счётные значения (обычно целые).

    Примеры:

  • число голов:
  • число фолов:
  • число угловых:
  • Для дискретной величины задают функцию вероятностей (часто называют PMF):

    Здесь:

  • — случайная величина
  • — конкретное значение (например, гола)
  • — вероятность ровно
  • Непрерывные случайные величины

    Непрерывная величина принимает значения на отрезке/интервале.

    Примеры:

  • скорость игрока (км/ч)
  • дистанция пробега (км)
  • время реакции (сек)
  • доля владения мячом в модели как число от 0 до 1
  • Для непрерывной величины вероятность «ровно одного значения» обычно равна нулю: . Вместо этого рассматривают вероятность попасть в интервал, например . Для описания используют плотность вероятности (PDF) и/или функцию распределения.

    Функция распределения: универсальный язык для любых

    Функция распределения (CDF) случайной величины :

    Где:

  • — порог (например, )
  • — вероятность, что величина не превысит порог
  • Почему CDF полезна в спорте:

  • легко получать вероятности формата «не меньше/не больше»
  • одинаково работает для дискретных и непрерывных метрик
  • Пример: пусть — голы команды за матч. Тогда — вероятность забить 0 или 1 гол.

    !Ступенчатая CDF помогает увидеть, как вероятности отдельных значений накапливаются

    Математическое ожидание: «среднее» в вероятностном смысле

    Математическое ожидание (expected value) — это долгосрочное среднее значение метрики, если ситуацию повторять много раз.

    Обозначение: .

    Для дискретной величины:

    Где:

  • сумма берётся по всем возможным значениям
  • — вероятность каждого значения
  • Спортивная интерпретация:

  • если — голы команды за матч, то — «ожидаемые голы» в среднем по большому числу матчей при одинаковых условиях модели
  • Важно: ожидание — это не гарантированный исход одного матча. Команда с часто будет забивать 1, иногда 0, иногда 3.

    Дисперсия: насколько сильно метрика «шумит»

    Чтобы понимать риск и неопределённость, нужна не только «середина», но и разброс.

    Дисперсия:

    Где:

  • — отклонение от среднего
  • квадрат нужен, чтобы положительные и отрицательные отклонения не сокращались
  • Стандартное отклонение (часто удобнее для интерпретации):

    Где измеряется в тех же единицах, что и (например, «гола»).

    Практический смысл в спорте:

  • две команды могут иметь одинаковые по голам, но разный разброс: одна стабильно забивает около 1–2, другая «то 0, то 4»
  • Типовые распределения для спортивных задач

    Ниже — не «обязательные истины», а популярные приближения, которые часто хорошо работают как стартовая модель.

    Бернулли: событие «да/нет» как случайная величина

    Если результат эпизода бинарный (успех/неуспех), удобно ввести .

    Пример:

  • , если пенальти забит
  • , если не забит
  • Тогда:

    - -

  • (ожидаемое значение равно вероятности успеха)
  • Справка: Bernoulli distribution.

    Биномиальное распределение: число успехов в попытках

    Если есть попыток с одинаковой вероятностью успеха и (в модели) независимостью, то число успехов часто моделируют биномиально.

    Пример:

  • — количество штрафных бросков игрока
  • — сколько он забил
  • Вероятность ровно успехов:

    Где:

  • — число попыток
  • — число успехов
  • — вероятность успеха в одной попытке
  • — число способов выбрать, какие именно попыток стали успешными
  • Справка: Binomial distribution.

    Ограничение в спорте: редко бывает «постоянным» (усталость, защита, качество моментов), поэтому биномиальная модель — часто приближение.

    Пуассон: счётные события за фиксированное время

    Число голов/бросков/угловых за матч часто начинают моделировать распределением Пуассона, если события:

  • считаются редкими на малых промежутках времени
  • происходят «примерно с постоянной интенсивностью»
  • Пусть — число голов команды за матч, а — среднее число голов (интенсивность) в рамках модели.

    Тогда:

    Где:

  • — число голов (0,1,2,...)
  • — математическая константа
  • — факториал
  • Свойства, полезные аналитикам:

    -

  • (разброс равен среднему в базовой версии модели)
  • Справка: Poisson distribution.

    Практическое замечание: в данных часто бывает переразброс (дисперсия больше среднего), потому что интенсивность меняется от матча к матчу (сила соперника, стиль, красные карточки). Это сигнал, что нужна условная модель .

    !Сравнение эмпирического распределения с теоретическим помогает проверить, насколько модель адекватна

    Нормальное приближение: метрики-«суммы»

    Многие спортивные показатели — это сумма большого числа мелких вкладов:

  • очки в баскетболе — сумма результативных атак
  • дистанция пробега — сумма перемещений
  • В таких случаях распределение может быть близко к нормальному (колоколообразному) как приближение.

    Справка: Normal distribution.

    Ограничение: нормальное распределение не подходит для строго неотрицательных счётчиков (голы) и может давать «невозможные» значения (например, отрицательные).

    Условные распределения: метрики зависят от контекста

    В предыдущей статье мы обсуждали условную вероятность . Для случайных величин аналогичная идея звучит так: распределение меняется при условии .

    Примеры:

  • — голы команды за матч, — «играем дома»
  • — количество бросков, — «у соперника красная карточка»
  • Тогда нас интересует не просто , а .

    Очень практичная форма — закон полной вероятности для дискретного через разбиение контекста на случаи и :

    Где:

  • — насколько часто встречается контекст (например, доля домашних матчей)
  • — распределение метрики внутри этого контекста
  • Интерпретация для аналитика: «общее распределение — это смесь распределений разных режимов».

    Как выбирать распределение в задаче спортивной аналитики

    Практический чек-лист:

  • Определите тип метрики
  • - счётчик (0,1,2,...) - доля/процент (0..1) - непрерывная величина (скорость, время)
  • Определите единицу наблюдения
  • - матч, тайм, смена, владение, бросок
  • Проверьте базовые эмпирические признаки
  • - среднее и дисперсию (например, для Пуассона они примерно равны) - наличие «лишних нулей» (часто бывает в ударах в створ у отдельных игроков)
  • Подумайте о контексте
  • - если метрика явно меняется от условий, полезнее моделировать , чем одно общее

    Таблица-ориентир:

    | Метрика | Тип | Частая стартовая модель | Комментарий | |---|---|---|---| | Пенальти: гол/не гол | дискретная (0/1) | Бернулли | | | Забитые штрафные из | дискретная | Биномиальная | важно, насколько реалистична «одинаковость» | | Голы за матч | дискретная | Пуассон | часто нужно делать зависимой от контекста | | Очки команды в баскетболе | дискретная, но большая | Нормальное приближение | как приближение для сумм | | Скорость, время реакции | непрерывная | зависит от данных | часто сравнивают эмпирически и выбирают семейство |

    Что дальше

    Случайные величины и распределения превращают спортивные метрики в модели, с которыми можно работать: считать ожидания, доверительные интервалы, делать симуляции и обновлять прогнозы по ходу матча. В следующих шагах курса обычно переходят к оцениванию параметров распределений по данным и к моделям, которые учитывают сразу несколько факторов (то есть строят распределения вида ).

    4. Математическое ожидание, дисперсия и риск

    Математическое ожидание, дисперсия и риск

    В прошлой статье мы ввели случайные величины (например, голы за матч) и распределения или . Теперь разберём три понятия, без которых спортивная аналитика быстро превращается в набор «средних по больнице»:

  • математическое ожидание: что мы в среднем получим на длинной дистанции;
  • дисперсия (и стандартное отклонение): насколько результат «шумит» вокруг среднего;
  • риск: как этот шум превращается в неприятные сценарии (провалы, апсеты, проигрыши ставок, нестабильность формы).
  • Ключевая идея: две команды/игрока могут иметь одинаковое «среднее», но совершенно разную вероятность провальных матчей.

    Математическое ожидание: «среднее на дистанции»

    Математическое ожидание случайной величины обозначают и читают как «ожидаемое значение ».

    Если дискретна (например, голы за матч), то

    Где:

  • — метрика (например, голы команды за матч).
  • — возможное значение метрики ().
  • — вероятность ровно .
  • — суммирование по всем значениям, которые может принимать .
  • Интерпретация в спорте: если многократно «проигрывать» матч в одинаковых условиях модели, то среднее число голов будет стремиться к .

    Почему ожидание — не прогноз счёта

    Если , это не означает «скорее всего будет 1.6 гола». Это означает:

  • 0–1 гол может случаться часто;
  • 3–4 гола — реже;
  • но на длинной дистанции среднее будет около 1.6.
  • То есть ожидание — это центр распределения, а не самый вероятный исход.

    Ожидание как основа решений

    Ожидание удобно, когда вы выбираете между альтернативами.

    Пример (пенальти как Бернулли): пусть , где если гол, и если нет. Тогда

  • — вероятность забить;
  • .
  • Подставим в формулу ожидания:

    То есть для «да/нет» ожидание равно вероятности успеха.

    Если же вы оцениваете «ценность» действия в очках/победе/деньгах, ожидание превращается в ожидаемую полезность: результат умножается на «цену» и усредняется.

    Линейность ожидания: важнейшее свойство для спортивных сумм

    Очень часто метрика — сумма многих вкладов: очки = очки за владения, броски = броски за отрезки, голы = голы по таймам.

    Если и — любые случайные величины, то

    Где:

  • — суммарная метрика (например, голы в 1-м тайме + голы во 2-м).
  • и — средние по компонентам.
  • Важно: это верно даже если и зависимы. Для аналитика это означает, что ожидания удобно складывать почти всегда.

    Справка: Математическое ожидание.

    Дисперсия и стандартное отклонение: «насколько нестабильно»

    Если ожидание отвечает за «центр», то дисперсия отвечает за «разброс» результатов.

    Дисперсия обозначается и определяется так:

    Разберём, что здесь означает каждый кусок:

  • — наблюдаемое значение метрики (например, голы в конкретном матче).
  • — среднее значение метрики.
  • — отклонение от среднего.
  • — квадрат отклонения (чтобы минусы не сокращали плюсы и сильные отклонения штрафовались сильнее).
  • — «усреднение» этих квадратов отклонений.
  • Поскольку дисперсия измеряется в «квадратных единицах» (например, «гол^2»), часто используют стандартное отклонение:

    Где измеряется в тех же единицах, что и (например, «голы»).

    Справка: Дисперсия случайной величины, Стандартное отклонение.

    Две команды с одинаковым средним, но разной дисперсией

    Представьте две команды, у которых по голам одинаковое.

  • Команда A чаще играет «ровно на свой уровень» (много матчей 1–2 гола).
  • Команда B «качает» (то 0, то 3–4).
  • У них может быть одинаковое ожидание, но у B будет выше дисперсия и выше риск провалов.

    !Сравнение двух распределений с одинаковым средним, но разным разбросом

    Связь с моделями из прошлой статьи

    В статье про распределения мы обсуждали Пуассона как стартовую модель для голов: у неё часто и . В реальных данных дисперсия нередко больше среднего (переразброс) из-за меняющегося контекста: сила соперника, красные карточки, стиль игры. Это прямой сигнал, что «одна на все матчи» — слишком грубо, и нужно моделировать условно: .

    Риск в спортивной аналитике: что именно мы боимся

    Слово риск в спортивных задачах обычно означает не абстрактный «разброс», а вероятность и тяжесть нежелательных сценариев.

    Чаще всего риск проявляется так:

  • риск провала: для неприятного порога (например, «забьём 0»);
  • риск апсета: вероятность проиграть матч, где по ожиданиям вы сильнее;
  • риск тотала: вероятность недобора/перебора относительно линии;
  • риск нестабильности игрока: высокая дисперсия формы означает больше матчей «ниже ожиданий»;
  • риск ошибки вывода: маленькая выборка даёт нестабильные оценки среднего и дисперсии.
  • Почему нельзя смотреть только на среднее

    Два игрока могут иметь одинаковые 15 очков в среднем:

  • один стабильно даёт 13–17;
  • второй то 5, то 30.
  • Для тренера это разные профили риска:

  • в плей-офф может быть ценнее стабильность (низкий риск провала);
  • андердогу может быть выгодна «качка», потому что апсет часто требует «верхнего хвоста» распределения.
  • Риск как выбор метрики под задачу

    Одна и та же дисперсия может быть «плохой» или «хорошей» в зависимости от цели.

  • Если задача — минимизировать вероятность поражения в равном матче, часто ценится меньшая дисперсия.
  • Если задача — максимизировать шанс апсета против фаворита, иногда полезна большая дисперсия (больше шансов попасть в «выдающийся матч»).
  • Как оценивать ожидание и дисперсию по данным

    В практике у вас есть выборка значений (например, голы команды в матчах при похожем контексте).

    Выборочное среднее

    Где:

  • — число матчей/наблюдений.
  • — значение метрики в -м матче.
  • — сумма по всем матчам.
  • — оценка ожидания .
  • Выборочная дисперсия

    Часто используют оценку

    Где:

  • — оценка дисперсии.
  • — отклонение конкретного матча от среднего.
  • деление на (а не на ) применяется как стандартная поправка, чтобы дисперсия не занижалась на малых выборках.
  • Практические замечания для спорта

  • Старайтесь считать и в корректном контексте: дома/выезд, сила соперника, состав. Это напрямую связано с условными вероятностями из прошлой статьи.
  • На малых выборках разброс оценок очень высок: «10 матчей» редко достаточно для уверенных выводов о дисперсии.
  • Типичные ошибки

  • Путать «высокое ожидание» с «низким риском»: высокий не гарантирует малую вероятность провала.
  • Сравнивать игроков по среднему, игнорируя роль и контекст (например, игрок со скамейки и стартер).
  • Делать выводы о стабильности по коротким сериям: визуально кажется, что «поплыл», но это может быть нормальный шум при высокой дисперсии.
  • Что дальше

    Ожидание и дисперсия — это базовые числа, которые связывают распределение метрики с решениями и риском. Следующий практический шаг — научиться:

  • строить вероятности событий вроде и из распределений;
  • делать условные оценки и ;
  • использовать эти величины в моделях прогнозирования и симуляциях матчей.
  • 5. Выборка, оценки и доверительные интервалы

    Выборка, оценки и доверительные интервалы

    В предыдущих статьях курса мы обсуждали, как задавать события и вероятности, как учитывать контекст через условную вероятность, и как описывать спортивные метрики как случайные величины с распределениями. Теперь добавим ключевой мост между моделью и данными: как по наблюдениям (матчам, эпизодам, сезонам) получать численные оценки вероятностей и средних значений, и насколько этим оценкам можно доверять.

    Эта статья про три практических инструмента спортивного аналитика:

  • выборка — какие данные мы считаали и почему это важно
  • оценка — какое число мы получили (например, вероятность гола или среднее число бросков)
  • доверительный интервал — диапазон, который показывает неопределённость оценки из-за конечного числа наблюдений
  • Генеральная совокупность и выборка

    Генеральная совокупность — это «все случаи, которые нас интересуют», даже если мы их не наблюдаем целиком.

    Примеры в спорте:

  • все пенальти, которые игрок мог бы пробить в будущем при похожих условиях
  • все матчи команды в сезоне против соперников определённого уровня
  • все броски игрока из конкретной зоны площадки
  • Выборка — реально наблюдённые случаи из этой совокупности.

    Важно: в спорте выборка почти всегда неидеальна.

  • Матчи отличаются по контексту (дом/выезд, состав, усталость).
  • Данные часто зависимы во времени (форма, травмы, календарь).
  • Есть смещение из-за отбора (например, «игрок бросает только когда открыт»).
  • Справка: Выборка (статистика)).

    Что такое оценка параметра

    Обычно мы хотим узнать параметр — неизвестную характеристику процесса.

    Примеры параметров:

  • — вероятность, что пенальти будет забит
  • — истинное среднее число голов команды за матч в данном контексте
  • — интенсивность голов в пуассоновской модели
  • Оценка — число, которое мы вычисляем по выборке, чтобы приблизить параметр.

    Частотная оценка вероятности

    Если событие случилось раз из наблюдений, то частотная оценка вероятности:

    Где:

  • — число наблюдений (например, число пенальти)
  • — сколько раз событие произошло (например, сколько пенальти забито)
  • — оценка вероятности по данным
  • Это ровно то, что мы уже использовали интуитивно в ранних статьях, когда обсуждали «сколько раз из ».

    Оценка среднего значения метрики

    Если у нас есть значения метрики (например, голы в каждом матче), то выборочное среднее:

    Где:

  • — значение метрики в -м наблюдении
  • — размер выборки
  • — сумма всех значений
  • — оценка математического ожидания в данном контексте
  • Почему оценки «шумят»: идея выборочного распределения

    Даже если истинная вероятность гола с пенальти равна , ваша оценка будет разной на разных наборах из пенальти. Это не ошибка вычислений, а нормальная неопределённость из-за конечной выборки.

    Мысленный эксперимент:

  • берём 50 пенальти игрока и считаем
  • повторяем это много раз на других «похожих» 50 пенальти
  • получаем распределение оценок
  • Это распределение называют выборочным распределением оценки.

    !Иллюстрация того, что при большем размере выборки оценка вероятности становится стабильнее

    Стандартная ошибка: «типичный» размер ошибки оценки

    Чтобы перейти от идеи «оценка шумит» к числам, используют стандартную ошибку.

    Для среднего значения

    Сначала вводят выборочное стандартное отклонение (мы уже видели похожую формулу в статье про дисперсию как оценку разброса по данным):

    Где:

  • — отклонение наблюдения от среднего
  • квадрат нужен, чтобы отклонения не сокращались
  • деление на — стандартная поправка для оценки разброса по выборке
  • Тогда стандартная ошибка среднего:

    Где:

  • — насколько в среднем может «плавать» оценка среднего из-за конечного
  • — корень из размера выборки: рост уменьшает неопределённость примерно как
  • Для доли (вероятности) в бинарном событии

    Если мы оцениваем вероятность события через долю , то часто используют приближение стандартной ошибки:

    Где — оценка дисперсии бинарной величины (успех/неуспех), а — размер выборки.

    Важно: это приближение хуже работает при малых и при вероятностях, близких к 0 или 1.

    Доверительный интервал: диапазон правдоподобных значений параметра

    Доверительный интервал — это диапазон, который описывает неопределённость оценки.

    Частая форма: оценка «погрешность».

    Например, для среднего (в простом приближении):

    Где:

  • — оценка среднего
  • — стандартная ошибка
  • число соответствует примерно 95% покрытию в нормальном приближении
  • Смысл числа 1.96: если оценка ведёт себя примерно как нормальная случайная величина, то около 95% массы нормального распределения лежит в пределах примерно стандартных отклонений.

    Справки:

  • Доверительный интервал
  • Центральная предельная теорема
  • Как правильно интерпретировать 95% доверительный интервал

    Нужно аккуратно с интерпретацией.

    Правильная частотная интерпретация:

  • Если мы много раз повторим процедуру построения интервала на новых выборках такого же размера и качества, то примерно в 95% случаев интервал будет содержать истинный параметр.
  • Неправильная, но распространённая интерпретация:

  • «Вероятность, что истинный параметр лежит в этом конкретном интервале, равна 95%».
  • Почему это считается неправильным в классической статистике: параметр фиксирован (просто неизвестен), а случайным является интервал, который меняется от выборки к выборке.

    !Визуальное объяснение смысла доверительного интервала как процедуры, а не вероятности для одного интервала

    Практические доверительные интервалы в спортивных задачах

    Интервал для доли: пример с пенальти

    Игрок забил из пенальти. Тогда .

    Сначала оценим стандартную ошибку:

    Здесь:

  • — оценка разброса бинарного исхода при
  • деление на означает, что больше наблюдений уменьшает неопределённость
  • Приближённый 95% интервал:

    Практический вывод: даже при интервал может быть довольно широким на , а на будет ещё шире.

    Важно: для долей при малых выборках часто используют более устойчивые интервалы (например, интервал Уилсона), потому что простое приближение может давать странные границы и переоценивать уверенность.

    Интервал для среднего: пример с бросками в створ

    Пусть — броски в створ команды за матч. Мы собрали матчей в похожем контексте (например, против соперников из середины таблицы), получили:

    - -

    Тогда:

    И приближённый 95% интервал:

    Смысл: мы не только говорим «в среднем 5.1», но и показываем, насколько это число неопределённо при .

    Бутстрэп: доверительный интервал без сложных формул

    В спортивной аналитике часто бывает сложно честно выписать формулу для стандартной ошибки:

  • метрика не нормальная
  • выборка маленькая
  • есть выбросы
  • распределение сильно асимметрично
  • Тогда помогает бутстрэп: компьютерный способ оценить неопределённость.

    Идея простая:

  • У вас есть выборка из матчей.
  • Вы много раз создаёте «новую выборку» размера , случайно выбирая матчи с возвращением из исходной выборки.
  • Для каждой такой псевдовыборки считаете нужную статистику (например, среднее или долю побед).
  • Получаете распределение этой статистики и берёте, например, 2.5-й и 97.5-й процентили как 95% интервал.
  • Справка: Бутстрэп (статистика)).

    !Схематичное объяснение бутстрэпа как многократного пересэмплирования для оценки доверительного интервала

    Что чаще всего ломает выводы в спортивных данных

    Ниже — причины, почему интервал может выглядеть «научно», но быть обманчивым.

    Наблюдения не независимы

    Многие формулы стандартных ошибок предполагают независимость наблюдений. В спорте это часто нарушено:

  • серия матчей с одинаковыми травмами и ротацией
  • календарь (несколько игр за короткий срок)
  • психологические и тактические эффекты по ходу сезона
  • Практическое следствие: реальная неопределённость может быть больше, чем показывает «классический» интервал.

    Выборка не соответствует вопросу

    Если вы хотите оценить , а считаете по всем атакам вместе, вы получаете смесь контекстов (ровно то, о чём мы говорили в статье про условную вероятность и закон полной вероятности).

    Смещение из-за отбора

    Примеры:

  • игрок бросает только в удобных ситуациях, поэтому «процент» выше, чем был бы при большем объёме и более сложных бросках
  • команда чаще выходит вперёд в матчах против слабых соперников, поэтому условные оценки «если ведём — мы выигрываем» могут быть завышены без учёта силы соперника
  • Это не проблема доверительного интервала как инструмента, это проблема постановки: интервал честно описывает неопределённость внутри выбранных данных, но не гарантирует переносимость на другие условия.

    Мини-чек-лист для аналитика

  • Чётко сформулируйте параметр: вероятность чего именно, среднее чего именно, при каком контексте.
  • Убедитесь, что выборка соответствует контексту (или используйте условные оценки).
  • Всегда фиксируйте рядом с оценкой.
  • Для маленьких выборок и нестандартных метрик рассмотрите бутстрэп.
  • Интерпретируйте доверительный интервал как свойство процедуры, а не как «вероятность для числа».
  • Что дальше

    Доверительные интервалы и стандартные ошибки завершают базовый цикл: события и вероятностиусловные вероятностираспределения метриксреднее/дисперсияоценивание по выборке с неопределённостью.

    Следующий практический шаг спортивной аналитики — использовать эти идеи в моделях прогнозирования: строить и , сравнивать модели по качеству и не путать «точность на истории» с реальной предсказательной силой.

    6. Проверка гипотез и сравнение игроков и команд

    Проверка гипотез и сравнение игроков и команд

    В прошлой статье мы научились оценивать вероятности и средние по данным и добавлять к ним неопределённость через стандартные ошибки и доверительные интервалы. Но в спортивной аналитике часто звучит следующий вопрос:

  • игрок A действительно лучше игрока B, или разница случайна?
  • команда стала сильнее после смены тренера, или это просто удачный отрезок?
  • новая тактика увеличила количество моментов, или мы видим шум?
  • Проверка статистических гипотез превращает такие вопросы в формальную процедуру принятия решения с контролируемым риском ошибки.

    Что такое гипотеза в спортивной задаче

    В терминах курса у нас есть неизвестный параметр (или несколько), который описывает процесс:

  • — вероятность забить пенальти
  • — среднее число бросков в створ за матч
  • — разница средних между двумя игроками или режимами
  • Мы наблюдаем выборку и получаем оценку (, ), но она шумит из-за конечного числа наблюдений.

    Гипотеза — это утверждение о параметре, которое мы хотим проверить.

    Обычно формулируют две гипотезы:

  • Нулевая гипотеза : эффекта нет или разницы нет.
  • Альтернативная гипотеза : эффект есть.
  • Примеры:

  • : у двух игроков одинаковая вероятность забить пенальти
  • : вероятности отличаются
  • Важно: проверка гипотез не доказывает, что истинна или ложна навсегда. Это процедура, которая говорит, насколько наблюдаемые данные совместимы с .

    Справка: Статистическая проверка гипотез.

    Логика проверки гипотез: что именно мы сравниваем

    Процедура почти всегда устроена одинаково:

  • Вы задаёте и .
  • Вы выбираете статистику теста — число, которое измеряет величину эффекта в данных.
  • Вы понимаете, как эта статистика ведёт себя, если верна.
  • Вы вычисляете, насколько “экстремально” ваше наблюдение при .
  • Ключевой термин здесь — p-value.

    p-value: что это и чего это не означает

    p-value — это вероятность получить наблюдение не менее экстремальное, чем ваше, при условии, что верна.

    То есть p-value — это про , а не про .

    Типичные ошибки интерпретации:

  • Неправильно: “p-value = 0.03 означает, что вероятность того, что разницы нет, равна 3%”.
  • Правильно: “если бы разницы не было, такие (или ещё более сильные) данные встречались бы примерно в 3% случаев”.
  • Справка: p-value.

    Уровень значимости и ошибки решений

    Чтобы превратить p-value в решение, заранее выбирают уровень значимости (часто 0.05).

  • если p-value , говорят, что результат статистически значим, и отвергают
  • если p-value , не отвергают
  • При этом возможны два типа ошибок:

  • Ошибка первого рода: отвергли , хотя она верна (ложноположительный вывод). Её вероятность и контролируется уровнем .
  • Ошибка второго рода: не отвергли , хотя на самом деле эффект есть (ложноотрицательный вывод).
  • Также важна мощность теста: вероятность обнаружить эффект, если он существует. На мощность сильно влияют размер выборки и величина реального эффекта.

    !Схема показывает, как связаны уровень значимости, ошибки и мощность

    Сравнение долей: “у кого выше вероятность успеха”

    Очень частая спортивная задача: сравнить две вероятности успеха.

    Пример:

  • игрок A забил пенальти из
  • игрок B забил пенальти из
  • Оценки вероятностей:

    - -

    Идея теста для разности долей

    Нулевая гипотеза часто выглядит так:

    -

    Тогда в рамках можно оценить “общую” вероятность успеха, используя объединённые данные:

    Где:

  • — число успехов у игрока A и B
  • — число попыток
  • — общая доля успеха, если предположить, что вероятности одинаковы
  • Дальше считается статистика (часто её обозначают ), которая сравнивает разницу с типичным “шумом” этой разницы при :

    Пояснение элементов:

  • числитель — наблюдаемая разница
  • выражение под корнем — оценка стандартного отклонения разницы долей при
  • и отражают простой факт: чем больше попыток, тем стабильнее оценка
  • Далее по значению получают p-value (например, для “двусторонней” проверки, когда интересует любое отличие, и в плюс, и в минус).

    Практическая оговорка: при малых выборках для долей часто используют точные методы, например Точный критерий Фишера.

    Сравнение средних: “кто набирает больше в среднем”

    Если метрика числовая (очки, xG за матч, передачи под удар), часто сравнивают средние значения.

    Пример:

  • — очки игрока за матч
  • есть выборки матчей игрока A и игрока B
  • t-тест для независимых выборок

    Одна из стандартных процедур — t-тест. Его базовая идея: сравнить разницу средних с ожидаемым уровнем шума.

    Одна из популярных форм (особенно в варианте Уэлча, когда дисперсии могут отличаться) использует статистику:

    Пояснение элементов:

  • — выборочные средние для двух игроков/команд
  • — выборочные дисперсии (оценки разброса)
  • — размеры выборок
  • знаменатель — оценка стандартной ошибки разницы средних
  • Если слишком велик для того, что обычно бывает при , p-value становится маленьким.

    Парные сравнения: когда важна “сопоставимость” матчей

    Во многих спортивных задачах наблюдения логично сравнивать парами, чтобы убрать шум контекста.

    Примеры:

  • команда “до” и “после” смены тренера, но сравниваем матчи против соперников похожей силы
  • один и тот же игрок “до” и “после” изменения роли, сравнение по одинаковым типам соперников
  • Тогда вместо двух независимых выборок анализируют разности внутри пар:

    -

    И проверяют, отличается ли средняя разность от нуля.

    Идея: парный подход уменьшает дисперсию “внешних факторов”, потому что сравнение происходит внутри более похожих ситуаций.

    Табличные данные: “связаны ли два фактора”

    Иногда метрика — не число и не доля успехов, а таблица частот. Например:

  • результат матча (победа/ничья/поражение)
  • признак (дом/выезд)
  • Тогда вопрос: зависит ли распределение исходов от признака?

    Для таких задач часто используют Критерий хи-квадрат.

    Статистика обычно имеет вид:

    Пояснение элементов:

  • — наблюдаемое число матчей в ячейке таблицы (например, “победа дома”)
  • — ожидаемое число матчей в ячейке, если зависимости нет (если верна)
  • сумма идёт по всем ячейкам таблицы
  • Если расхождения между наблюдаемыми и ожидаемыми частотами слишком велики, становится большим, p-value уменьшается.

    Доверительные интервалы и проверки гипотез: практическая связь

    Доверительный интервал из прошлой статьи часто даёт более полезную картину, чем “значимо/не значимо”.

  • проверка гипотез отвечает: можно ли отвергнуть ноль?
  • доверительный интервал отвечает: какие размеры эффекта вообще правдоподобны по данным?
  • Практическое правило (для многих стандартных тестов):

  • если 95% доверительный интервал для разницы не содержит 0, то при вы обычно отвергнете о нулевой разнице
  • Это помогает не терять “размер эффекта” за бинарным решением.

    Размер эффекта: статистическая значимость против спортивного смысла

    На больших данных можно получить маленькое p-value даже для микроскопической разницы.

    Поэтому в спортивной аналитике важно разделять:

  • статистическую значимость: маловероятно получить такие данные при
  • практическую значимость: разница достаточно велика, чтобы менять решения
  • Один из способов говорить о размере эффекта при сравнении средних — стандартизировать разницу через разброс. Например, Cohen’s d:

    Где:

  • — разница средних
  • — “типичный” масштаб разброса (объединённая оценка стандартного отклонения)
  • Справка: Effect size.

    Множественные сравнения: ловушка “мы нашли 3 значимых игрока из 50”

    Если вы сравниваете много игроков, позиций или метрик, то вы неизбежно найдёте “значимые” различия просто по случайности.

    Пример логики:

  • вы сделали 100 независимых проверок при
  • даже если везде верна, вы ожидаете около 5 ложноположительных “находок”
  • Один из простых способов контроля — поправка Бонферрони: если вы делаете тестов, используйте уровень

    Где:

  • — желаемый общий риск ложноположительных выводов
  • — число проверок
  • — порог для каждого отдельного теста
  • Справка: Поправка Бонферрони.

    Альтернатива, часто полезная в аналитике больших наборов показателей, — контроль доли ложных открытий (FDR): False discovery rate.

    !Схема показывает, как ужесточается порог при множественных проверках

    Когда классические тесты дают сбой

    В спорте особенно часто ломаются предпосылки “учебной статистики”:

  • наблюдения зависимы во времени (форма, травмы, календарь)
  • выборки нерепрезентативны (отбор ситуаций)
  • распределения асимметричны и с выбросами
  • В таких случаях полезны вычислительные подходы.

    Перестановочный тест: проверка без жёстких предположений

    Идея: если верна и “разницы нет”, то метки “игрок A” и “игрок B” можно случайно перемешивать, и статистика разницы будет вести себя похоже.

    Процедура часто выглядит так:

  • Вы выбираете статистику эффекта, например .
  • Считаете наблюдаемое .
  • Много раз перемешиваете метки принадлежности наблюдений к группам.
  • Каждый раз пересчитываете и получаете “нулевое” распределение.
  • p-value оцениваете как долю перестановок, где эффект не менее экстремален, чем .
  • Этот подход близок по духу к бутстрэпу из прошлой статьи, но отвечает именно на вопрос гипотезы.

    Справка: Permutation test.

    Рабочий чек-лист: как сравнивать игроков и команды аккуратно

  • Чётко сформулировать эффект
  • - разница долей? разница средних? зависимость факторов в таблице?
  • Зафиксировать контекст
  • - дом/выезд, сила соперника, минуты на площадке, роль игрока
  • Выбрать тест и убедиться, что он подходит
  • - для долей: тест разности долей или точные методы - для средних: t-тест (часто Уэлча) или парный вариант - для таблиц: хи-квадрат или точные методы
  • Всегда добавлять оценку размера эффекта и доверительный интервал
  • Если сравнений много — учитывать множественные проверки
  • Интерпретировать результат как поддержку решения, а не как “математическое доказательство”
  • Что дальше

    Проверка гипотез завершает базовый цикл курса: от вероятностей и условных вероятностей к распределениям, оценкам, доверительным интервалам и решениям на данных.

    Дальше логично переходить к моделям, которые учитывают сразу несколько факторов и дают прогнозы вида или , а также к сравнению качества таких моделей на данных.

    7. Вероятностные модели матчей и прогнозирование исходов

    Вероятностные модели матчей и прогнозирование исходов

    В предыдущих статьях курса мы научились формулировать спортивные задачи через события и вероятности, учитывать контекст с помощью условной вероятности, описывать метрики как случайные величины с распределениями, оценивать параметры по выборке и проверять гипотезы.

    Теперь соберём всё в прикладной инструмент спортивной аналитики: вероятностную модель матча, которая выдаёт не одно предсказание «кто победит», а распределение вероятностей по исходам и счёту.

    Главная идея: хороший прогноз в спорте — это правильные вероятности, а не только «угаданный результат». Команда может проиграть матч, который выигрывает в 70% симуляций, и это не будет противоречием.

    Что такое вероятностная модель матча

    Вероятностная модель матча — это способ описать неопределённый исход через вероятности.

    В зависимости от цели модель может выдавать:

  • , , — вероятности победы, ничьи и поражения
  • вероятности рынков: ,
  • распределение счёта:
  • Почему это важно:

  • вероятности позволяют сравнивать решения по ожиданию и риску (связь со статьёй про и )
  • вероятности можно обновлять по ходу матча как условные (связь с )
  • вероятностные прогнозы можно оценивать по качеству (а не только по «проценту угаданных»)
  • Моделирование счёта через распределение Пуассона

    Для футбола и других видов спорта с редкими результативными событиями стартовая точка — моделировать число голов (или шайб) как распределение Пуассона.

    Пусть:

  • — голы хозяев
  • — голы гостей
  • — среднее число голов хозяев в модели
  • — среднее число голов гостей в модели
  • Тогда базовая идея:

    - -

    Где запись означает: «случайная величина имеет пуассоновское распределение с параметром ». В этой модели одновременно задаёт и среднее, и дисперсию: и .

    Справка: Распределение Пуассона.

    Как из получить вероятность конкретного числа голов

    В пуассоновской модели вероятность того, что команда забьёт ровно голов, равна:

    Где:

  • — число голов (0, 1, 2, ...)
  • — среднее число голов по модели
  • — математическая константа
  • — факториал (произведение чисел от 1 до )
  • Вероятность счёта и вероятности W/D/L

    Если дополнительно принять, что и независимы, то вероятность точного счёта равна:

    Где:

  • — голы хозяев
  • — голы гостей
  • независимость означает, что совместная вероятность раскладывается в произведение
  • Дальше вероятности исходов выражаются суммированием вероятностей счётов:

    - - -

    Здесь суммы идут по всем целым и , но на практике их считают по разумному диапазону (например, 0–7), потому что вероятности больших значений обычно малы.

    !Тепловая карта помогает увидеть, как распределение счёта превращается в вероятности победы, ничьей и поражения

    Откуда берутся и

    Самый важный практический вопрос — как задать интенсивности и .

    Обычно их делают функцией контекста:

  • сила атаки команды
  • сила обороны соперника
  • домашнее преимущество
  • кадровые потери
  • темп и стиль (если есть данные)
  • Один из стандартных способов — моделировать логарифм интенсивности линейно:

    Где:

  • — логарифм ожидаемых голов хозяев
  • — общий базовый уровень результативности лиги
  • — поправка на домашнее поле
  • — параметр силы атаки хозяев
  • — параметр силы обороны гостей
  • Почему берут логарифм:

  • должна быть положительной
  • через логарифм удобно получать модель вида «база + эффекты», а затем возвращаться к через экспоненту:
  • Это пример того, как в одной модели встречаются темы курса:

  • распределение (Пуассон)
  • условность (интенсивность зависит от признаков)
  • оценивание параметров (, , ) по данным
  • Ограничения пуассоновского подхода

    В реальных данных часто нарушаются предпосылки базовой модели.

  • Переразброс: дисперсия голов может быть больше среднего из-за меняющегося контекста
  • Зависимость голов команд: красная карточка, сценарий матча и риск в концовке связывают и
  • Смещение из-за стиля: одни команды «закрывают» матч при 1:0, другие продолжают атаковать
  • Это не означает, что Пуассон «плох», но означает, что это стартовая модель, которую уточняют:

  • условными
  • моделями зависимости (например, бивариантный Пуассон)
  • поправками под специфику футбола
  • Моделирование исхода напрямую: вероятности W/D/L без счёта

    Иногда вам не нужен счёт, а нужна вероятность события напрямую:

  • победа команды
  • «не проиграет»
  • проход в следующий раунд
  • Тогда строят модель для вероятности события как функции признаков.

    Логистическая регрессия для бинарного события

    Пусть:

  • — индикатор события (например, если команда выиграла)
  • — набор признаков (дом/выезд, рейтинг, травмы, rest days)
  • Тогда модель может задавать вероятность победы так:

    Где:

    -

  • — свободный член
  • — веса признаков
  • — математическая константа
  • Дробь называется логистической функцией: она всегда даёт число от 0 до 1, то есть корректную вероятность.

    Справка: Логистическая регрессия.

    Модель на три исхода

    Для используют обобщение на несколько классов (мультиномиальная логистическая регрессия). Практический смысл тот же: модель выдаёт три вероятности, которые суммируются в 1:

    Чем этот подход отличается от пуассоновского:

  • пуассоновский подход моделирует механику счёта и из него выводит исход
  • модель исхода напрямую может быть проще и устойчивее, но даёт меньше деталей (например, тоталы и точные счёта получаются хуже)
  • Прогнозирование по ходу матча как условная вероятность

    Матч можно рассматривать как последовательность состояний. Это прямое продолжение темы условной вероятности: нас интересует вероятность исхода при условии текущей информации.

    Примеры условий:

  • текущее время
  • текущий счёт
  • красные карточки
  • текущие xG или опасные атаки
  • Идея записывается так:

  • вместо работаем с
  • На практике часто моделируют вероятность оставшихся голов на оставшееся время, меняя в зависимости от состояния:

  • при красной карточке интенсивности атак меняются
  • при преимуществе в счёте команда может снижать темп
  • Это способ сделать модель «контекстной» и тем самым снизить ошибки из-за смешения факторов.

    Оценивание параметров модели: связь с выборкой и неопределённостью

    Любая вероятностная модель имеет параметры:

  • или параметры для
  • веса в логистической регрессии
  • Их оценивают по историческим данным. На практике чаще всего используют максимизацию правдоподобия: выбирают параметры, при которых наблюдённые результаты наиболее вероятны.

    Важно помнить из прошлых статей:

  • оценки параметров «шумят» из-за конечной выборки
  • доверительные интервалы и бутстрэп помогают оценить неопределённость
  • проверка гипотез отвечает на вопрос «похоже ли, что эффект не нулевой», но для прогноза важнее стабильность на новых данных
  • Как оценивать качество вероятностных прогнозов

    Процент «угаданных побед» плохо подходит для вероятностей, потому что он:

  • не отличает прогноз 0.51 от 0.99
  • не наказывает за чрезмерную уверенность
  • Нужны метрики, которые оценивают именно качество вероятностей.

    Логарифмическая потеря

    Для бинарного события (победа/не победа) вводят:

  • — факт
  • — предсказанная вероятность события ()
  • Тогда логарифмическая потеря (log loss) равна:

    Пояснение:

  • если событие произошло (), штрафуется маленький через
  • если событие не произошло (), штрафуется большой через
  • модель, которая часто «уверенно ошибается», получает большой штраф
  • Справка: Log loss.

    Квадратичная потеря вероятностей (Brier score)

    Для бинарного события:

    Где:

  • — прогноз вероятности
  • — факт (0 или 1)
  • Это простой способ оценить, насколько вероятности близки к реальности.

    Справка: Brier score.

    Калибровка: соответствуют ли вероятности реальности

    Даже если модель неплохо ранжирует матчи, она может быть плохо калибрована.

    Пример плохой калибровки:

  • модель часто говорит 0.80 на победу
  • но реально такие матчи выигрываются только в 65% случаев
  • Калибровку проверяют графиком: группируют прогнозы по диапазонам и сравнивают прогнозируемую вероятность с фактической долей.

    !График показывает, соответствуют ли прогнозируемые вероятности реальным частотам

    Практический чек-лист: как построить модель матча в аналитике

  • Определите, что вы прогнозируете: исход, счёт, тотал, «обе забьют»
  • Зафиксируйте единицу наблюдения и контекст: матч, тайм, отрезок, составы
  • Выберите семейство модели:
  • - Пуассон, если нужна модель счёта и производных рынков - логистическая модель, если нужен исход напрямую

  • Разделите данные на обучение и проверку (или используйте кросс-валидацию)
  • Оценивайте качество вероятностей метриками вроде LogLoss и Brier score и обязательно смотрите калибровку
  • Всегда держите в голове неопределённость оценок и переносимость: модель, сильная на одном сезоне и лиге, может просесть на другом контексте
  • Что дальше

    Вероятностные модели матчей — это точка, где теория вероятностей становится инструментом принятия решений:

  • через распределения и ожидания вы получаете прогнозы и риски
  • через условные вероятности обновляете прогноз по ходу игры
  • через статистические оценки и проверку гипотез понимаете, насколько данные поддерживают выводы
  • Дальше обычно развивают два направления:

  • более богатые модели, которые учитывают больше факторов и зависимостей
  • симуляции матчей и сезонов, где распределения превращаются в прогнозы турнирных таблиц и вероятности достижения целей