Теория вероятности для спортивной аналитики

1. Случайные события и вероятности в спорте

Случайные события и вероятности в спорте

Спортивная аналитика почти всегда начинается с вопроса «насколько вероятно, что произойдёт X?». X может быть голом, победой, попаданием в створ, тоталом больше 2.5, травмой игрока в сезоне или тем, что команда наберёт не меньше 10 очков в следующих пяти матчах.

В этой статье мы разберём базовые кирпичики теории вероятностей: случайный эксперимент, исходы, события и вероятность. Это язык, на котором дальше будут формулироваться модели, метрики и прогнозы.

Что в спорте является случайностью

Важно различать:

Неопределённость для наблюдателя (мы не знаем заранее исход)

Случайность как удобная модель (мы описываем процесс вероятностно, даже если «в реальности» всё обусловлено множеством факторов)

В спорте результат зависит от погоды, усталости, микротравм, тактики, судейских решений и множества неучтённых переменных. Поэтому вероятностная модель помогает:

формализовать ожидания

сравнивать игроков и команды честнее, чем по одному матчу

отделять «шум» от устойчивых тенденций

Случайный эксперимент и пространство исходов

Случайный эксперимент — это процедура с заранее определёнными правилами, результат которой заранее неизвестен.

Примеры экспериментов в спорте:

пробитие пенальти одним игроком

исход матча (победа/ничья/поражение)

количество угловых в матче

попадёт ли бросок в баскетболе с конкретной позиции

Исход — конкретный результат эксперимента.

Пространство исходов — множество всех возможных исходов.

Примеры:

Для серии «победа/ничья/поражение»:

Здесь — «все варианты», (win) — победа, (draw) — ничья, (loss) — поражение.

Для пенальти «гол/не гол»:

Здесь — гол, — не гол.

События: как задавать то, что нас интересует

Событие — это подмножество , то есть набор исходов, который мы считаем «успехом» по определению задачи.

Примеры событий в матче с :

«Команда не проиграет» — событие

«Команда выиграет» — событие

Примеры событий для количества голов, если рассматриваем только 0, 1, 2, 3+:

«Тотал больше 1.5» — событие

Полезные операции над событиями

Пусть и — события.

Объединение : произошло хотя бы одно из событий (A или B).

Пересечение : произошли оба события одновременно (A и B).

Дополнение : событие «A не произошло».

Пример (футбол):

= «команда забьёт хотя бы 1 гол»

= «команда не проиграет»

Тогда:

= «команда забьёт и не проиграет»

= «команда не забьёт»

!Венн-диаграмма помогает увидеть разницу между объединением, пересечением и дополнением событий.

Вероятность: что означает число

Вероятность события — число от 0 до 1, которое отражает, насколько ожидаемо событие.

Обозначение: — вероятность события .

Интерпретация:

— событие невозможно в рамках модели

— событие обязательно произойдёт в рамках модели

— событие происходит «примерно в 70% подобных случаев» (в частотной интерпретации)

Базовые правила (аксиомы)

В спортивной аналитике обычно опираются на стандартные аксиомы вероятности (часто называемые аксиомами Колмогорова; формально они описаны в математических учебниках и справочниках).

Для любого события :

Если события и не могут произойти одновременно (то есть ), то:

Здесь:

означает «или»

означает «и»

— пустое множество (нет общих исходов)

Практический пример (исход матча): события «победа» и «ничья» взаимоисключающие, значит

А это и есть вероятность «не проиграть».

Справка: аксиомы вероятности.

Как получать вероятности в спорте

В реальных задачах спортивной аналитики вероятность почти никогда не «берётся из воздуха». Обычно используются два подхода.

Модельный (теоретический) подход

Он возможен, когда структура процесса хорошо понятна и упрощения приемлемы.

Примеры:

серия пенальти как независимые испытания с постоянной вероятностью гола

«монетка» как базовая метафора для 50/50 ситуаций (в спорте почти всегда это упрощение)

Эмпирический (частотный) подход

Вероятность оценивают по данным.

Если у нас было похожих ситуаций и событие случилось раз, то частотная оценка:

Здесь:

— оценка вероятности по данным

— сколько раз событие произошло

— сколько наблюдений всего

Пример: игрок бил 50 пенальти и забил 40. Тогда оценка вероятности гола:

Важное ограничение: «похожие ситуации» — ключевая часть. Пенальти в товарищеском матче и в финале могут быть разными по контексту.

Условная вероятность: «если известно, что…»

В спорте почти всё зависит от условий: состав, счёт, домашнее поле, удаление, стадия турнира.

Условная вероятность отвечает на вопрос: какова вероятность события , если мы знаем, что произошло событие ?

Обозначение: .

Формула:

Здесь:

— вероятность при условии

— событие «A и B вместе»

условие означает: нельзя «условиться» на событие с нулевой вероятностью в модели

Спортивная интерпретация:

= «команда выиграет матч»

= «команда ведёт в счёте после первого тайма»

Тогда — вероятность победы при условии, что команда уже ведёт после 45 минут.

Независимость: когда одно не меняет другое

Два события и называются независимыми, если знание о не меняет вероятность :

Эквивалентная форма (часто удобнее):

Почему это важно в спорте:

Многие «интуитивно независимые» вещи на самом деле зависимы (например, «забили гол» и «выиграли матч»)

Ошибка независимости приводит к неверным оценкам вероятностей и переоценке уверенности прогнозов

Пример близкий к независимости: «выпадет ли дождь в день матча» и «сделает ли конкретный защитник ошибку в первом тайме» — могут быть зависимы через состояние поля, но часто их ошибочно считают независимыми.

Мини-словарь: как формулировать события в аналитике

| Аналитическая формулировка | Событие | Пример пространства исходов | |---|---|---| | Победа команды | | | | Не проиграет | | | | Обе забьют | «гол хозяев» «гол гостей» | по голам/счёту | | Тотал больше 2.5 | | | | Удаление в матче | «будет красная карточка» | да, нет |

Типичные ошибки новичков

Путать исходы и события

Исход — один конкретный результат, событие — набор исходов.

Смешивать «вероятность» и «уверенность»

Вероятность — часть модели. Если модель плохая (мало данных, неверные предположения), число может выглядеть точным, но быть неверным.

Игнорировать условность

без указания контекста часто бесполезна. Гораздо информативнее .

Что дальше

В следующем материале логично переходить к тому, как считать вероятности для комбинаций событий (правила сложения и умножения), а также к базовым техникам работы с данными: частотные оценки, влияние размера выборки и здравые проверки.

2. Условная вероятность и зависимость факторов

Условная вероятность и зависимость факторов

В предыдущей статье мы ввели язык спортивной вероятности: случайные эксперименты, пространство исходов , события и базовые правила для . Теперь сделаем следующий шаг: научимся корректно говорить о вероятностях в контексте — когда нам известно какое-то условие (счёт, удаление, домашнее поле, состав), и разберём, что значит зависимость факторов в данных.

Главная мысль для аналитика: одна и та же «вероятность победы» может быть совершенно разной в зависимости от того, что уже известно.

Условная вероятность: вероятность с учётом контекста

Условная вероятность отвечает на вопрос: какова вероятность события , если мы знаем, что произошло событие .

Обозначение: .

Формула:

Разберём элементы формулы:

— событие, которое хотим оценить (например, «команда выиграет матч»).

— известное условие (например, «команда ведёт после первого тайма»).

— событие «произошли и , и ».

— вероятность условия (важно, чтобы , иначе «делить не на что»).

Интуитивно эта формула говорит: из всех случаев, где условие случилось, мы смотрим, в какой доле этих случаев также случилось .

Мини-пример на данных

Пусть у команды в сезоне 100 матчей.

В 40 матчах команда вела после первого тайма: это означает .

Из этих 40 матчей она выиграла 30: это означает .

Тогда:

То есть вероятность победы при условии лидерства в перерыве оценивается как 75%.

!B), P(не A|B), P(A|не B). Цветом выделить ветку A∩B. | Дерево вероятностей показывает, как условные вероятности живут внутри разных веток контекста

Зависимость и независимость: когда контекст меняет вероятность

События и называются независимыми, если знание о не меняет вероятность :

Эквивалентная и часто удобная запись:

Пояснение элементов:

— вероятность того, что произойдут оба события.

— что было бы, если бы события «перемножались» как независимые.

Почему в спорте независимость — редкость

В спорте почти всё связано:

«Команда забила первой» и «команда победила» — обычно зависимы.

«Удаление у соперника» и «тотал больше» — часто зависимы.

«Домашний матч» и «количество фолов» — может быть зависимо через стиль судейства, давление трибун и тактику.

Типичная ошибка — молча предполагать независимость и получать слишком уверенные оценки.

Правило умножения: как переходить между совместной и условной вероятностью

Из определения условной вероятности следует практичная формула:

Это читается так: «вероятность и затем при условии ».

Спортивная интерпретация:

= «команда ведёт после первого тайма»

= «команда выиграла матч»

Тогда — вероятность сценария «ведём в перерыве и выигрываем».

Закон полной вероятности: когда контекст разбивает мир на случаи

Часто удобно разложить вероятность на несколько непересекающихся сценариев.

Пусть событие — «команда играла дома», а — «команда играла в гостях». Эти два события:

покрывают все матчи (либо дома, либо в гостях)

не происходят одновременно

Тогда для любого события (например, «победа») верно:

Пояснение:

— вероятность победы дома.

— доля домашних матчей.

— вероятность победы в гостях.

— доля гостевых матчей.

Это полезно, когда общая вероятность — это смесь разных режимов (дом/выезд, стартовый состав/ротация, наличие/отсутствие лидера).

Теорема Байеса: как переворачивать условие

В аналитике часто нужен обратный вопрос:

не только «какова вероятность победы, если команда ведёт?»,

но и «насколько вероятно, что команда вела, если она победила?»

Теорема Байеса связывает эти величины:

Где:

— вероятность условия при известном исходе .

— «прямая» условная вероятность.

— базовая вероятность условия.

— базовая вероятность исхода.

Практический смысл: Байес помогает обновлять вероятность гипотезы (например, «команда была сильнее по моментам») после наблюдения результата (например, «команда выиграла»). В спортивных данных это часто используется в рейтингах, фильтрации сигналов и моделях, где «истинная сила» скрыта.

Справка: Теорема Байеса.

Зависимость факторов в данных: что может пойти не так

Условные вероятности легко посчитать, но легко и ошибиться в интерпретации. В спорте большинство факторов взаимосвязаны, и простое сравнение «при X вероятность выше» ещё не означает, что X причина.

Смешение факторов (конфаунинг): ложный эффект

Смешивающий фактор — это переменная, которая влияет и на «причину», и на «результат», создавая иллюзию связи.

Пример логики (без формул):

Команда чаще ведёт в счёте к перерыву, когда играет против слабых соперников.

Против слабых соперников команда чаще побеждает.

Если не учитывать силу соперника, можно переоценить «магический эффект лидерства в перерыве».

Иными словами, событие («ведём к перерыву») может быть не причиной победы, а маркером того, что изначально матч был легче.

Парадокс Симпсона: агрегирование может перевернуть вывод

Иногда в каждом сегменте данных связь одна, но в целом — противоположная. Это известно как парадокс Симпсона.

Справка: Парадокс Симпсона.

Спортивная интуиция:

В каждом типе матчей (например, «против сильных» и «против слабых») одна тактика может быть лучше.

Но если команда применяла эту тактику чаще именно в самых сложных матчах, то в суммарной статистике она может выглядеть хуже.

Вывод для аналитика: условные вероятности надо считать в корректных разрезах (по силе соперника, дому/выезду, составу, состоянию игрока), иначе можно получить неправильную историю.

«Корреляция не означает причинность» в вероятностной форме

Фраза «корреляция не означает причинность» в нашем языке означает: если , то это показывает зависимость, но не доказывает, что вызывает .

Справка: Correlation does not imply causation.

Практика: как задавать условные вероятности в спортивной задаче

Чтобы условная вероятность работала на вас, полезно формулировать контекст как события и аккуратно задавать выборку.

Чек-лист постановки

Чётко определить и в виде событий

Убедиться, что наблюдаемо и однозначно

Уточнить, что значит «похожие ситуации»

Следить за размером выборки для

Пример формулировок

| Вопрос аналитика | Событие | Условие | Что оцениваем | |---|---|---|---| | Как часто команда выигрывает, если забила первой? | «победа» | «первый гол за нами» | | | Как меняется шанс гола со стандарта при дожде? | «гол со стандарта» | «дождь» | | | Насколько удаление соперника влияет на победу? | «победа» | «удаление у соперника» | сравнение и |

Что дальше

Условная вероятность — основной инструмент спортивной аналитики: почти любой матч можно описать как последовательность состояний и обновлений шансов. Дальше обычно переходят к моделированию случайных величин (голы, броски, очки), выборкам и оценкам параметров, а также к тому, как строить вероятностные модели, которые учитывают сразу несколько факторов.

3. Случайные величины и распределения спортивных метрик

Случайные величины и распределения спортивных метрик

В первых материалах курса мы говорили о событиях (например, «команда не проиграет») и о том, как контекст меняет шансы через условную вероятность . Следующий шаг в спортивной аналитике — перейти от «да/нет» к числам: сколько голов, сколько бросков, какой будет разрыв в счёте, сколько минут игрок проведёт на площадке.

Такие числовые показатели описывают через случайные величины и их распределения. Это базовый инструментарий для прогнозов, симуляций матчей и оценки неопределённости.

Случайная величина: число, которое получается случайно

Случайная величина — это правило, которое каждому исходу матча/эпизода из пространства исходов ставит в соответствие число.

Примеры в спорте:

— число голов команды за матч

— число трёхочковых попаданий игрока

— время владения мячом (в процентах)

— разница в счёте (очки хозяев минус очки гостей)

Связь с предыдущими статьями:

событие «тотал больше 2.5» можно записать как , где — общее число голов в матче

условная вероятность «победа при лидерстве в перерыве» — это частный случай условного распределения: нас интересует распределение результата при условии известного состояния матча

Дискретные и непрерывные метрики

Дискретные случайные величины

Дискретная величина принимает счётные значения (обычно целые).

Примеры:

число голов:

число фолов:

число угловых:

Для дискретной величины задают функцию вероятностей (часто называют PMF):

Здесь:

— случайная величина

— конкретное значение (например, гола)

— вероятность ровно

Непрерывные случайные величины

Непрерывная величина принимает значения на отрезке/интервале.

Примеры:

скорость игрока (км/ч)

дистанция пробега (км)

время реакции (сек)

доля владения мячом в модели как число от 0 до 1

Для непрерывной величины вероятность «ровно одного значения» обычно равна нулю: . Вместо этого рассматривают вероятность попасть в интервал, например . Для описания используют плотность вероятности (PDF) и/или функцию распределения.

Функция распределения: универсальный язык для любых

Функция распределения (CDF) случайной величины :

Где:

— порог (например, )

— вероятность, что величина не превысит порог

Почему CDF полезна в спорте:

легко получать вероятности формата «не меньше/не больше»

одинаково работает для дискретных и непрерывных метрик

Пример: пусть — голы команды за матч. Тогда — вероятность забить 0 или 1 гол.

!Ступенчатая CDF помогает увидеть, как вероятности отдельных значений накапливаются

Математическое ожидание: «среднее» в вероятностном смысле

Математическое ожидание (expected value) — это долгосрочное среднее значение метрики, если ситуацию повторять много раз.

Обозначение: .

Для дискретной величины:

Где:

сумма берётся по всем возможным значениям

— вероятность каждого значения

Спортивная интерпретация:

если — голы команды за матч, то — «ожидаемые голы» в среднем по большому числу матчей при одинаковых условиях модели

Важно: ожидание — это не гарантированный исход одного матча. Команда с часто будет забивать 1, иногда 0, иногда 3.

Дисперсия: насколько сильно метрика «шумит»

Чтобы понимать риск и неопределённость, нужна не только «середина», но и разброс.

Дисперсия:

Где:

— отклонение от среднего

квадрат нужен, чтобы положительные и отрицательные отклонения не сокращались

Стандартное отклонение (часто удобнее для интерпретации):

Где измеряется в тех же единицах, что и (например, «гола»).

Практический смысл в спорте:

две команды могут иметь одинаковые по голам, но разный разброс: одна стабильно забивает около 1–2, другая «то 0, то 4»

Типовые распределения для спортивных задач

Ниже — не «обязательные истины», а популярные приближения, которые часто хорошо работают как стартовая модель.

Бернулли: событие «да/нет» как случайная величина

Если результат эпизода бинарный (успех/неуспех), удобно ввести .

Пример:

, если пенальти забит

, если не забит

Тогда:

- -

(ожидаемое значение равно вероятности успеха)

Справка: Bernoulli distribution.

Биномиальное распределение: число успехов в попытках

Если есть попыток с одинаковой вероятностью успеха и (в модели) независимостью, то число успехов часто моделируют биномиально.

Пример:

— количество штрафных бросков игрока

— сколько он забил

Вероятность ровно успехов:

Где:

— число попыток

— число успехов

— вероятность успеха в одной попытке

— число способов выбрать, какие именно попыток стали успешными

Справка: Binomial distribution.

Ограничение в спорте: редко бывает «постоянным» (усталость, защита, качество моментов), поэтому биномиальная модель — часто приближение.

Пуассон: счётные события за фиксированное время

Число голов/бросков/угловых за матч часто начинают моделировать распределением Пуассона, если события:

считаются редкими на малых промежутках времени

происходят «примерно с постоянной интенсивностью»

Пусть — число голов команды за матч, а — среднее число голов (интенсивность) в рамках модели.

Тогда:

Где:

— число голов (0,1,2,...)

— математическая константа

— факториал

Свойства, полезные аналитикам:

(разброс равен среднему в базовой версии модели)

Справка: Poisson distribution.

Практическое замечание: в данных часто бывает переразброс (дисперсия больше среднего), потому что интенсивность меняется от матча к матчу (сила соперника, стиль, красные карточки). Это сигнал, что нужна условная модель .

!Сравнение эмпирического распределения с теоретическим помогает проверить, насколько модель адекватна

Нормальное приближение: метрики-«суммы»

Многие спортивные показатели — это сумма большого числа мелких вкладов:

очки в баскетболе — сумма результативных атак

дистанция пробега — сумма перемещений

В таких случаях распределение может быть близко к нормальному (колоколообразному) как приближение.

Справка: Normal distribution.

Ограничение: нормальное распределение не подходит для строго неотрицательных счётчиков (голы) и может давать «невозможные» значения (например, отрицательные).

Условные распределения: метрики зависят от контекста

В предыдущей статье мы обсуждали условную вероятность . Для случайных величин аналогичная идея звучит так: распределение меняется при условии .

Примеры:

— голы команды за матч, — «играем дома»

— количество бросков, — «у соперника красная карточка»

Тогда нас интересует не просто , а .

Очень практичная форма — закон полной вероятности для дискретного через разбиение контекста на случаи и :

Где:

— насколько часто встречается контекст (например, доля домашних матчей)

— распределение метрики внутри этого контекста

Интерпретация для аналитика: «общее распределение — это смесь распределений разных режимов».

Как выбирать распределение в задаче спортивной аналитики

Практический чек-лист:

Определите тип метрики

- счётчик (0,1,2,...) - доля/процент (0..1) - непрерывная величина (скорость, время)

Определите единицу наблюдения

- матч, тайм, смена, владение, бросок

Проверьте базовые эмпирические признаки

- среднее и дисперсию (например, для Пуассона они примерно равны) - наличие «лишних нулей» (часто бывает в ударах в створ у отдельных игроков)

Подумайте о контексте

- если метрика явно меняется от условий, полезнее моделировать , чем одно общее

Таблица-ориентир:

| Метрика | Тип | Частая стартовая модель | Комментарий | |---|---|---|---| | Пенальти: гол/не гол | дискретная (0/1) | Бернулли | | | Забитые штрафные из | дискретная | Биномиальная | важно, насколько реалистична «одинаковость» | | Голы за матч | дискретная | Пуассон | часто нужно делать зависимой от контекста | | Очки команды в баскетболе | дискретная, но большая | Нормальное приближение | как приближение для сумм | | Скорость, время реакции | непрерывная | зависит от данных | часто сравнивают эмпирически и выбирают семейство |

Что дальше

Случайные величины и распределения превращают спортивные метрики в модели, с которыми можно работать: считать ожидания, доверительные интервалы, делать симуляции и обновлять прогнозы по ходу матча. В следующих шагах курса обычно переходят к оцениванию параметров распределений по данным и к моделям, которые учитывают сразу несколько факторов (то есть строят распределения вида ).

4. Математическое ожидание, дисперсия и риск

Математическое ожидание, дисперсия и риск

В прошлой статье мы ввели случайные величины (например, голы за матч) и распределения или . Теперь разберём три понятия, без которых спортивная аналитика быстро превращается в набор «средних по больнице»:

математическое ожидание: что мы в среднем получим на длинной дистанции;

дисперсия (и стандартное отклонение): насколько результат «шумит» вокруг среднего;

риск: как этот шум превращается в неприятные сценарии (провалы, апсеты, проигрыши ставок, нестабильность формы).

Ключевая идея: две команды/игрока могут иметь одинаковое «среднее», но совершенно разную вероятность провальных матчей.

Математическое ожидание: «среднее на дистанции»

Математическое ожидание случайной величины обозначают и читают как «ожидаемое значение ».

Если дискретна (например, голы за матч), то

Где:

— метрика (например, голы команды за матч).

— возможное значение метрики ().

— вероятность ровно .

— суммирование по всем значениям, которые может принимать .

Интерпретация в спорте: если многократно «проигрывать» матч в одинаковых условиях модели, то среднее число голов будет стремиться к .

Почему ожидание — не прогноз счёта

Если , это не означает «скорее всего будет 1.6 гола». Это означает:

0–1 гол может случаться часто;

3–4 гола — реже;

но на длинной дистанции среднее будет около 1.6.

То есть ожидание — это центр распределения, а не самый вероятный исход.

Ожидание как основа решений

Ожидание удобно, когда вы выбираете между альтернативами.

Пример (пенальти как Бернулли): пусть , где если гол, и если нет. Тогда

— вероятность забить;

Подставим в формулу ожидания:

То есть для «да/нет» ожидание равно вероятности успеха.

Если же вы оцениваете «ценность» действия в очках/победе/деньгах, ожидание превращается в ожидаемую полезность: результат умножается на «цену» и усредняется.

Линейность ожидания: важнейшее свойство для спортивных сумм

Очень часто метрика — сумма многих вкладов: очки = очки за владения, броски = броски за отрезки, голы = голы по таймам.

Если и — любые случайные величины, то

Где:

— суммарная метрика (например, голы в 1-м тайме + голы во 2-м).

и — средние по компонентам.

Важно: это верно даже если и зависимы. Для аналитика это означает, что ожидания удобно складывать почти всегда.

Справка: Математическое ожидание.

Дисперсия и стандартное отклонение: «насколько нестабильно»

Если ожидание отвечает за «центр», то дисперсия отвечает за «разброс» результатов.

Дисперсия обозначается и определяется так:

Разберём, что здесь означает каждый кусок:

— наблюдаемое значение метрики (например, голы в конкретном матче).

— среднее значение метрики.

— отклонение от среднего.

— квадрат отклонения (чтобы минусы не сокращали плюсы и сильные отклонения штрафовались сильнее).

— «усреднение» этих квадратов отклонений.

Поскольку дисперсия измеряется в «квадратных единицах» (например, «гол^2»), часто используют стандартное отклонение:

Где измеряется в тех же единицах, что и (например, «голы»).

Справка: Дисперсия случайной величины, Стандартное отклонение.

Две команды с одинаковым средним, но разной дисперсией

Представьте две команды, у которых по голам одинаковое.

Команда A чаще играет «ровно на свой уровень» (много матчей 1–2 гола).

Команда B «качает» (то 0, то 3–4).

У них может быть одинаковое ожидание, но у B будет выше дисперсия и выше риск провалов.

!Сравнение двух распределений с одинаковым средним, но разным разбросом

Связь с моделями из прошлой статьи

В статье про распределения мы обсуждали Пуассона как стартовую модель для голов: у неё часто и . В реальных данных дисперсия нередко больше среднего (переразброс) из-за меняющегося контекста: сила соперника, красные карточки, стиль игры. Это прямой сигнал, что «одна на все матчи» — слишком грубо, и нужно моделировать условно: .

Риск в спортивной аналитике: что именно мы боимся

Слово риск в спортивных задачах обычно означает не абстрактный «разброс», а вероятность и тяжесть нежелательных сценариев.

Чаще всего риск проявляется так:

риск провала: для неприятного порога (например, «забьём 0»);

риск апсета: вероятность проиграть матч, где по ожиданиям вы сильнее;

риск тотала: вероятность недобора/перебора относительно линии;

риск нестабильности игрока: высокая дисперсия формы означает больше матчей «ниже ожиданий»;

риск ошибки вывода: маленькая выборка даёт нестабильные оценки среднего и дисперсии.

Почему нельзя смотреть только на среднее

Два игрока могут иметь одинаковые 15 очков в среднем:

один стабильно даёт 13–17;

второй то 5, то 30.

Для тренера это разные профили риска:

в плей-офф может быть ценнее стабильность (низкий риск провала);

андердогу может быть выгодна «качка», потому что апсет часто требует «верхнего хвоста» распределения.

Риск как выбор метрики под задачу

Одна и та же дисперсия может быть «плохой» или «хорошей» в зависимости от цели.

Если задача — минимизировать вероятность поражения в равном матче, часто ценится меньшая дисперсия.

Если задача — максимизировать шанс апсета против фаворита, иногда полезна большая дисперсия (больше шансов попасть в «выдающийся матч»).

Как оценивать ожидание и дисперсию по данным

В практике у вас есть выборка значений (например, голы команды в матчах при похожем контексте).

Выборочное среднее

Где:

— число матчей/наблюдений.

— значение метрики в -м матче.

— сумма по всем матчам.

— оценка ожидания .

Выборочная дисперсия

Часто используют оценку

Где:

— оценка дисперсии.

— отклонение конкретного матча от среднего.

деление на (а не на ) применяется как стандартная поправка, чтобы дисперсия не занижалась на малых выборках.

Практические замечания для спорта

Старайтесь считать и в корректном контексте: дома/выезд, сила соперника, состав. Это напрямую связано с условными вероятностями из прошлой статьи.

На малых выборках разброс оценок очень высок: «10 матчей» редко достаточно для уверенных выводов о дисперсии.

Типичные ошибки

Путать «высокое ожидание» с «низким риском»: высокий не гарантирует малую вероятность провала.

Сравнивать игроков по среднему, игнорируя роль и контекст (например, игрок со скамейки и стартер).

Делать выводы о стабильности по коротким сериям: визуально кажется, что «поплыл», но это может быть нормальный шум при высокой дисперсии.

Что дальше

Ожидание и дисперсия — это базовые числа, которые связывают распределение метрики с решениями и риском. Следующий практический шаг — научиться:

строить вероятности событий вроде и из распределений;

делать условные оценки и ;

использовать эти величины в моделях прогнозирования и симуляциях матчей.

5. Выборка, оценки и доверительные интервалы

Выборка, оценки и доверительные интервалы

В предыдущих статьях курса мы обсуждали, как задавать события и вероятности, как учитывать контекст через условную вероятность, и как описывать спортивные метрики как случайные величины с распределениями. Теперь добавим ключевой мост между моделью и данными: как по наблюдениям (матчам, эпизодам, сезонам) получать численные оценки вероятностей и средних значений, и насколько этим оценкам можно доверять.

Эта статья про три практических инструмента спортивного аналитика:

выборка — какие данные мы считаали и почему это важно

оценка — какое число мы получили (например, вероятность гола или среднее число бросков)

доверительный интервал — диапазон, который показывает неопределённость оценки из-за конечного числа наблюдений

Генеральная совокупность и выборка

Генеральная совокупность — это «все случаи, которые нас интересуют», даже если мы их не наблюдаем целиком.

Примеры в спорте:

все пенальти, которые игрок мог бы пробить в будущем при похожих условиях

все матчи команды в сезоне против соперников определённого уровня

все броски игрока из конкретной зоны площадки

Выборка — реально наблюдённые случаи из этой совокупности.

Важно: в спорте выборка почти всегда неидеальна.

Матчи отличаются по контексту (дом/выезд, состав, усталость).

Данные часто зависимы во времени (форма, травмы, календарь).

Есть смещение из-за отбора (например, «игрок бросает только когда открыт»).

Справка: Выборка (статистика)).

Что такое оценка параметра

Обычно мы хотим узнать параметр — неизвестную характеристику процесса.

Примеры параметров:

— вероятность, что пенальти будет забит

— истинное среднее число голов команды за матч в данном контексте

— интенсивность голов в пуассоновской модели

Оценка — число, которое мы вычисляем по выборке, чтобы приблизить параметр.

Частотная оценка вероятности

Если событие случилось раз из наблюдений, то частотная оценка вероятности:

Где:

— число наблюдений (например, число пенальти)

— сколько раз событие произошло (например, сколько пенальти забито)

— оценка вероятности по данным

Это ровно то, что мы уже использовали интуитивно в ранних статьях, когда обсуждали «сколько раз из ».

Оценка среднего значения метрики

Если у нас есть значения метрики (например, голы в каждом матче), то выборочное среднее:

Где:

— значение метрики в -м наблюдении

— размер выборки

— сумма всех значений

— оценка математического ожидания в данном контексте

Почему оценки «шумят»: идея выборочного распределения

Даже если истинная вероятность гола с пенальти равна , ваша оценка будет разной на разных наборах из пенальти. Это не ошибка вычислений, а нормальная неопределённость из-за конечной выборки.

Мысленный эксперимент:

берём 50 пенальти игрока и считаем

повторяем это много раз на других «похожих» 50 пенальти

получаем распределение оценок

Это распределение называют выборочным распределением оценки.

!Иллюстрация того, что при большем размере выборки оценка вероятности становится стабильнее

Стандартная ошибка: «типичный» размер ошибки оценки

Чтобы перейти от идеи «оценка шумит» к числам, используют стандартную ошибку.

Для среднего значения

Сначала вводят выборочное стандартное отклонение (мы уже видели похожую формулу в статье про дисперсию как оценку разброса по данным):

Где:

— отклонение наблюдения от среднего

квадрат нужен, чтобы отклонения не сокращались

деление на — стандартная поправка для оценки разброса по выборке

Тогда стандартная ошибка среднего:

Где:

— насколько в среднем может «плавать» оценка среднего из-за конечного

— корень из размера выборки: рост уменьшает неопределённость примерно как

Для доли (вероятности) в бинарном событии

Если мы оцениваем вероятность события через долю , то часто используют приближение стандартной ошибки:

Где — оценка дисперсии бинарной величины (успех/неуспех), а — размер выборки.

Важно: это приближение хуже работает при малых и при вероятностях, близких к 0 или 1.

Доверительный интервал: диапазон правдоподобных значений параметра

Доверительный интервал — это диапазон, который описывает неопределённость оценки.

Частая форма: оценка «погрешность».

Например, для среднего (в простом приближении):

Где:

— оценка среднего

— стандартная ошибка

число соответствует примерно 95% покрытию в нормальном приближении

Смысл числа 1.96: если оценка ведёт себя примерно как нормальная случайная величина, то около 95% массы нормального распределения лежит в пределах примерно стандартных отклонений.

Справки:

Доверительный интервал

Центральная предельная теорема

Как правильно интерпретировать 95% доверительный интервал

Нужно аккуратно с интерпретацией.

Правильная частотная интерпретация:

Если мы много раз повторим процедуру построения интервала на новых выборках такого же размера и качества, то примерно в 95% случаев интервал будет содержать истинный параметр.

Неправильная, но распространённая интерпретация:

«Вероятность, что истинный параметр лежит в этом конкретном интервале, равна 95%».

Почему это считается неправильным в классической статистике: параметр фиксирован (просто неизвестен), а случайным является интервал, который меняется от выборки к выборке.

!Визуальное объяснение смысла доверительного интервала как процедуры, а не вероятности для одного интервала

Практические доверительные интервалы в спортивных задачах

Интервал для доли: пример с пенальти

Игрок забил из пенальти. Тогда .

Сначала оценим стандартную ошибку:

Здесь:

— оценка разброса бинарного исхода при

деление на означает, что больше наблюдений уменьшает неопределённость

Приближённый 95% интервал:

Практический вывод: даже при интервал может быть довольно широким на , а на будет ещё шире.

Важно: для долей при малых выборках часто используют более устойчивые интервалы (например, интервал Уилсона), потому что простое приближение может давать странные границы и переоценивать уверенность.

Интервал для среднего: пример с бросками в створ

Пусть — броски в створ команды за матч. Мы собрали матчей в похожем контексте (например, против соперников из середины таблицы), получили:

- -

Тогда:

И приближённый 95% интервал:

Смысл: мы не только говорим «в среднем 5.1», но и показываем, насколько это число неопределённо при .

Бутстрэп: доверительный интервал без сложных формул

В спортивной аналитике часто бывает сложно честно выписать формулу для стандартной ошибки:

метрика не нормальная

выборка маленькая

есть выбросы

распределение сильно асимметрично

Тогда помогает бутстрэп: компьютерный способ оценить неопределённость.

Идея простая:

У вас есть выборка из матчей.

Вы много раз создаёте «новую выборку» размера , случайно выбирая матчи с возвращением из исходной выборки.

Для каждой такой псевдовыборки считаете нужную статистику (например, среднее или долю побед).

Получаете распределение этой статистики и берёте, например, 2.5-й и 97.5-й процентили как 95% интервал.

Справка: Бутстрэп (статистика)).

!Схематичное объяснение бутстрэпа как многократного пересэмплирования для оценки доверительного интервала

Что чаще всего ломает выводы в спортивных данных

Ниже — причины, почему интервал может выглядеть «научно», но быть обманчивым.

Наблюдения не независимы

Многие формулы стандартных ошибок предполагают независимость наблюдений. В спорте это часто нарушено:

серия матчей с одинаковыми травмами и ротацией

календарь (несколько игр за короткий срок)

психологические и тактические эффекты по ходу сезона

Практическое следствие: реальная неопределённость может быть больше, чем показывает «классический» интервал.

Выборка не соответствует вопросу

Если вы хотите оценить , а считаете по всем атакам вместе, вы получаете смесь контекстов (ровно то, о чём мы говорили в статье про условную вероятность и закон полной вероятности).

Смещение из-за отбора

Примеры:

игрок бросает только в удобных ситуациях, поэтому «процент» выше, чем был бы при большем объёме и более сложных бросках

команда чаще выходит вперёд в матчах против слабых соперников, поэтому условные оценки «если ведём — мы выигрываем» могут быть завышены без учёта силы соперника

Это не проблема доверительного интервала как инструмента, это проблема постановки: интервал честно описывает неопределённость внутри выбранных данных, но не гарантирует переносимость на другие условия.

Мини-чек-лист для аналитика

Чётко сформулируйте параметр: вероятность чего именно, среднее чего именно, при каком контексте.

Убедитесь, что выборка соответствует контексту (или используйте условные оценки).

Всегда фиксируйте рядом с оценкой.

Для маленьких выборок и нестандартных метрик рассмотрите бутстрэп.

Интерпретируйте доверительный интервал как свойство процедуры, а не как «вероятность для числа».

Что дальше

Доверительные интервалы и стандартные ошибки завершают базовый цикл: события и вероятности → условные вероятности → распределения метрик → среднее/дисперсия → оценивание по выборке с неопределённостью.

Следующий практический шаг спортивной аналитики — использовать эти идеи в моделях прогнозирования: строить и , сравнивать модели по качеству и не путать «точность на истории» с реальной предсказательной силой.

6. Проверка гипотез и сравнение игроков и команд

Проверка гипотез и сравнение игроков и команд

В прошлой статье мы научились оценивать вероятности и средние по данным и добавлять к ним неопределённость через стандартные ошибки и доверительные интервалы. Но в спортивной аналитике часто звучит следующий вопрос:

игрок A действительно лучше игрока B, или разница случайна?

команда стала сильнее после смены тренера, или это просто удачный отрезок?

новая тактика увеличила количество моментов, или мы видим шум?

Проверка статистических гипотез превращает такие вопросы в формальную процедуру принятия решения с контролируемым риском ошибки.

Что такое гипотеза в спортивной задаче

В терминах курса у нас есть неизвестный параметр (или несколько), который описывает процесс:

— вероятность забить пенальти

— среднее число бросков в створ за матч

— разница средних между двумя игроками или режимами

Мы наблюдаем выборку и получаем оценку (, ), но она шумит из-за конечного числа наблюдений.

Гипотеза — это утверждение о параметре, которое мы хотим проверить.

Обычно формулируют две гипотезы:

Нулевая гипотеза : эффекта нет или разницы нет.

Альтернативная гипотеза : эффект есть.

Примеры:

: у двух игроков одинаковая вероятность забить пенальти

: вероятности отличаются

Важно: проверка гипотез не доказывает, что истинна или ложна навсегда. Это процедура, которая говорит, насколько наблюдаемые данные совместимы с .

Справка: Статистическая проверка гипотез.

Логика проверки гипотез: что именно мы сравниваем

Процедура почти всегда устроена одинаково:

Вы задаёте и .

Вы выбираете статистику теста — число, которое измеряет величину эффекта в данных.

Вы понимаете, как эта статистика ведёт себя, если верна.

Вы вычисляете, насколько “экстремально” ваше наблюдение при .

Ключевой термин здесь — p-value.

p-value: что это и чего это не означает

p-value — это вероятность получить наблюдение не менее экстремальное, чем ваше, при условии, что верна.

То есть p-value — это про , а не про .

Типичные ошибки интерпретации:

Неправильно: “p-value = 0.03 означает, что вероятность того, что разницы нет, равна 3%”.

Правильно: “если бы разницы не было, такие (или ещё более сильные) данные встречались бы примерно в 3% случаев”.

Справка: p-value.

Уровень значимости и ошибки решений

Чтобы превратить p-value в решение, заранее выбирают уровень значимости (часто 0.05).

если p-value , говорят, что результат статистически значим, и отвергают

если p-value , не отвергают

При этом возможны два типа ошибок:

Ошибка первого рода: отвергли , хотя она верна (ложноположительный вывод). Её вероятность и контролируется уровнем .

Ошибка второго рода: не отвергли , хотя на самом деле эффект есть (ложноотрицательный вывод).

Также важна мощность теста: вероятность обнаружить эффект, если он существует. На мощность сильно влияют размер выборки и величина реального эффекта.

!Схема показывает, как связаны уровень значимости, ошибки и мощность

Сравнение долей: “у кого выше вероятность успеха”

Очень частая спортивная задача: сравнить две вероятности успеха.

Пример:

игрок A забил пенальти из

игрок B забил пенальти из

Оценки вероятностей:

- -

Идея теста для разности долей

Нулевая гипотеза часто выглядит так:

Тогда в рамках можно оценить “общую” вероятность успеха, используя объединённые данные:

Где:

— число успехов у игрока A и B

— число попыток

— общая доля успеха, если предположить, что вероятности одинаковы

Дальше считается статистика (часто её обозначают ), которая сравнивает разницу с типичным “шумом” этой разницы при :

Пояснение элементов:

числитель — наблюдаемая разница

выражение под корнем — оценка стандартного отклонения разницы долей при

и отражают простой факт: чем больше попыток, тем стабильнее оценка

Далее по значению получают p-value (например, для “двусторонней” проверки, когда интересует любое отличие, и в плюс, и в минус).

Практическая оговорка: при малых выборках для долей часто используют точные методы, например Точный критерий Фишера.

Сравнение средних: “кто набирает больше в среднем”

Если метрика числовая (очки, xG за матч, передачи под удар), часто сравнивают средние значения.

Пример:

— очки игрока за матч

есть выборки матчей игрока A и игрока B

t-тест для независимых выборок

Одна из стандартных процедур — t-тест. Его базовая идея: сравнить разницу средних с ожидаемым уровнем шума.

Одна из популярных форм (особенно в варианте Уэлча, когда дисперсии могут отличаться) использует статистику:

Пояснение элементов:

— выборочные средние для двух игроков/команд

— выборочные дисперсии (оценки разброса)

— размеры выборок

знаменатель — оценка стандартной ошибки разницы средних

Если слишком велик для того, что обычно бывает при , p-value становится маленьким.

Парные сравнения: когда важна “сопоставимость” матчей

Во многих спортивных задачах наблюдения логично сравнивать парами, чтобы убрать шум контекста.

Примеры:

команда “до” и “после” смены тренера, но сравниваем матчи против соперников похожей силы

один и тот же игрок “до” и “после” изменения роли, сравнение по одинаковым типам соперников

Тогда вместо двух независимых выборок анализируют разности внутри пар:

И проверяют, отличается ли средняя разность от нуля.

Идея: парный подход уменьшает дисперсию “внешних факторов”, потому что сравнение происходит внутри более похожих ситуаций.

Табличные данные: “связаны ли два фактора”

Иногда метрика — не число и не доля успехов, а таблица частот. Например:

результат матча (победа/ничья/поражение)

признак (дом/выезд)

Тогда вопрос: зависит ли распределение исходов от признака?

Для таких задач часто используют Критерий хи-квадрат.

Статистика обычно имеет вид:

Пояснение элементов:

— наблюдаемое число матчей в ячейке таблицы (например, “победа дома”)

— ожидаемое число матчей в ячейке, если зависимости нет (если верна)

сумма идёт по всем ячейкам таблицы

Если расхождения между наблюдаемыми и ожидаемыми частотами слишком велики, становится большим, p-value уменьшается.

Доверительные интервалы и проверки гипотез: практическая связь

Доверительный интервал из прошлой статьи часто даёт более полезную картину, чем “значимо/не значимо”.

проверка гипотез отвечает: можно ли отвергнуть ноль?

доверительный интервал отвечает: какие размеры эффекта вообще правдоподобны по данным?

Практическое правило (для многих стандартных тестов):

если 95% доверительный интервал для разницы не содержит 0, то при вы обычно отвергнете о нулевой разнице

Это помогает не терять “размер эффекта” за бинарным решением.

Размер эффекта: статистическая значимость против спортивного смысла

На больших данных можно получить маленькое p-value даже для микроскопической разницы.

Поэтому в спортивной аналитике важно разделять:

статистическую значимость: маловероятно получить такие данные при

практическую значимость: разница достаточно велика, чтобы менять решения

Один из способов говорить о размере эффекта при сравнении средних — стандартизировать разницу через разброс. Например, Cohen’s d:

Где:

— разница средних

— “типичный” масштаб разброса (объединённая оценка стандартного отклонения)

Справка: Effect size.

Множественные сравнения: ловушка “мы нашли 3 значимых игрока из 50”

Если вы сравниваете много игроков, позиций или метрик, то вы неизбежно найдёте “значимые” различия просто по случайности.

Пример логики:

вы сделали 100 независимых проверок при

даже если везде верна, вы ожидаете около 5 ложноположительных “находок”

Один из простых способов контроля — поправка Бонферрони: если вы делаете тестов, используйте уровень

Где:

— желаемый общий риск ложноположительных выводов

— число проверок

— порог для каждого отдельного теста

Справка: Поправка Бонферрони.

Альтернатива, часто полезная в аналитике больших наборов показателей, — контроль доли ложных открытий (FDR): False discovery rate.

!Схема показывает, как ужесточается порог при множественных проверках

Когда классические тесты дают сбой

В спорте особенно часто ломаются предпосылки “учебной статистики”:

наблюдения зависимы во времени (форма, травмы, календарь)

выборки нерепрезентативны (отбор ситуаций)

распределения асимметричны и с выбросами

В таких случаях полезны вычислительные подходы.

Перестановочный тест: проверка без жёстких предположений

Идея: если верна и “разницы нет”, то метки “игрок A” и “игрок B” можно случайно перемешивать, и статистика разницы будет вести себя похоже.

Процедура часто выглядит так:

Вы выбираете статистику эффекта, например .

Считаете наблюдаемое .

Много раз перемешиваете метки принадлежности наблюдений к группам.

Каждый раз пересчитываете и получаете “нулевое” распределение.

p-value оцениваете как долю перестановок, где эффект не менее экстремален, чем .

Этот подход близок по духу к бутстрэпу из прошлой статьи, но отвечает именно на вопрос гипотезы.

Справка: Permutation test.

Рабочий чек-лист: как сравнивать игроков и команды аккуратно

Чётко сформулировать эффект

- разница долей? разница средних? зависимость факторов в таблице?

Зафиксировать контекст

- дом/выезд, сила соперника, минуты на площадке, роль игрока

Выбрать тест и убедиться, что он подходит

- для долей: тест разности долей или точные методы - для средних: t-тест (часто Уэлча) или парный вариант - для таблиц: хи-квадрат или точные методы

Всегда добавлять оценку размера эффекта и доверительный интервал

Если сравнений много — учитывать множественные проверки

Интерпретировать результат как поддержку решения, а не как “математическое доказательство”

Что дальше

Проверка гипотез завершает базовый цикл курса: от вероятностей и условных вероятностей к распределениям, оценкам, доверительным интервалам и решениям на данных.

Дальше логично переходить к моделям, которые учитывают сразу несколько факторов и дают прогнозы вида или , а также к сравнению качества таких моделей на данных.

7. Вероятностные модели матчей и прогнозирование исходов

Вероятностные модели матчей и прогнозирование исходов

В предыдущих статьях курса мы научились формулировать спортивные задачи через события и вероятности, учитывать контекст с помощью условной вероятности, описывать метрики как случайные величины с распределениями, оценивать параметры по выборке и проверять гипотезы.

Теперь соберём всё в прикладной инструмент спортивной аналитики: вероятностную модель матча, которая выдаёт не одно предсказание «кто победит», а распределение вероятностей по исходам и счёту.

Главная идея: хороший прогноз в спорте — это правильные вероятности, а не только «угаданный результат». Команда может проиграть матч, который выигрывает в 70% симуляций, и это не будет противоречием.

Что такое вероятностная модель матча

Вероятностная модель матча — это способ описать неопределённый исход через вероятности.

В зависимости от цели модель может выдавать:

, , — вероятности победы, ничьи и поражения

вероятности рынков: ,

распределение счёта:

Почему это важно:

вероятности позволяют сравнивать решения по ожиданию и риску (связь со статьёй про и )

вероятности можно обновлять по ходу матча как условные (связь с )

вероятностные прогнозы можно оценивать по качеству (а не только по «проценту угаданных»)

Моделирование счёта через распределение Пуассона

Для футбола и других видов спорта с редкими результативными событиями стартовая точка — моделировать число голов (или шайб) как распределение Пуассона.

Пусть:

— голы хозяев

— голы гостей

— среднее число голов хозяев в модели

— среднее число голов гостей в модели

Тогда базовая идея:

- -

Где запись означает: «случайная величина имеет пуассоновское распределение с параметром ». В этой модели одновременно задаёт и среднее, и дисперсию: и .

Справка: Распределение Пуассона.

Как из получить вероятность конкретного числа голов

В пуассоновской модели вероятность того, что команда забьёт ровно голов, равна:

Где:

— число голов (0, 1, 2, ...)

— среднее число голов по модели

— математическая константа

— факториал (произведение чисел от 1 до )

Вероятность счёта и вероятности W/D/L

Если дополнительно принять, что и независимы, то вероятность точного счёта равна:

Где:

— голы хозяев

— голы гостей

независимость означает, что совместная вероятность раскладывается в произведение

Дальше вероятности исходов выражаются суммированием вероятностей счётов:

- - -

Здесь суммы идут по всем целым и , но на практике их считают по разумному диапазону (например, 0–7), потому что вероятности больших значений обычно малы.

!Тепловая карта помогает увидеть, как распределение счёта превращается в вероятности победы, ничьей и поражения

Откуда берутся и

Самый важный практический вопрос — как задать интенсивности и .

Обычно их делают функцией контекста:

сила атаки команды

сила обороны соперника

домашнее преимущество

кадровые потери

темп и стиль (если есть данные)

Один из стандартных способов — моделировать логарифм интенсивности линейно:

Где:

— логарифм ожидаемых голов хозяев

— общий базовый уровень результативности лиги

— поправка на домашнее поле

— параметр силы атаки хозяев

— параметр силы обороны гостей

Почему берут логарифм:

должна быть положительной

через логарифм удобно получать модель вида «база + эффекты», а затем возвращаться к через экспоненту:

Это пример того, как в одной модели встречаются темы курса:

распределение (Пуассон)

условность (интенсивность зависит от признаков)

оценивание параметров (, , ) по данным

Ограничения пуассоновского подхода

В реальных данных часто нарушаются предпосылки базовой модели.

Переразброс: дисперсия голов может быть больше среднего из-за меняющегося контекста

Зависимость голов команд: красная карточка, сценарий матча и риск в концовке связывают и

Смещение из-за стиля: одни команды «закрывают» матч при 1:0, другие продолжают атаковать

Это не означает, что Пуассон «плох», но означает, что это стартовая модель, которую уточняют:

условными

моделями зависимости (например, бивариантный Пуассон)

поправками под специфику футбола

Моделирование исхода напрямую: вероятности W/D/L без счёта

Иногда вам не нужен счёт, а нужна вероятность события напрямую:

победа команды

«не проиграет»

проход в следующий раунд

Тогда строят модель для вероятности события как функции признаков.

Логистическая регрессия для бинарного события

Пусть:

— индикатор события (например, если команда выиграла)

— набор признаков (дом/выезд, рейтинг, травмы, rest days)

Тогда модель может задавать вероятность победы так:

Где:

— свободный член

— веса признаков

— математическая константа

Дробь называется логистической функцией: она всегда даёт число от 0 до 1, то есть корректную вероятность.

Справка: Логистическая регрессия.

Модель на три исхода

Для используют обобщение на несколько классов (мультиномиальная логистическая регрессия). Практический смысл тот же: модель выдаёт три вероятности, которые суммируются в 1:

Чем этот подход отличается от пуассоновского:

пуассоновский подход моделирует механику счёта и из него выводит исход

модель исхода напрямую может быть проще и устойчивее, но даёт меньше деталей (например, тоталы и точные счёта получаются хуже)

Прогнозирование по ходу матча как условная вероятность

Матч можно рассматривать как последовательность состояний. Это прямое продолжение темы условной вероятности: нас интересует вероятность исхода при условии текущей информации.

Примеры условий:

текущее время

текущий счёт

красные карточки

текущие xG или опасные атаки

Идея записывается так:

вместо работаем с

На практике часто моделируют вероятность оставшихся голов на оставшееся время, меняя в зависимости от состояния:

при красной карточке интенсивности атак меняются

при преимуществе в счёте команда может снижать темп

Это способ сделать модель «контекстной» и тем самым снизить ошибки из-за смешения факторов.

Оценивание параметров модели: связь с выборкой и неопределённостью

Любая вероятностная модель имеет параметры:

или параметры для

веса в логистической регрессии

Их оценивают по историческим данным. На практике чаще всего используют максимизацию правдоподобия: выбирают параметры, при которых наблюдённые результаты наиболее вероятны.

Важно помнить из прошлых статей:

оценки параметров «шумят» из-за конечной выборки

доверительные интервалы и бутстрэп помогают оценить неопределённость

проверка гипотез отвечает на вопрос «похоже ли, что эффект не нулевой», но для прогноза важнее стабильность на новых данных

Как оценивать качество вероятностных прогнозов

Процент «угаданных побед» плохо подходит для вероятностей, потому что он:

не отличает прогноз 0.51 от 0.99

не наказывает за чрезмерную уверенность

Нужны метрики, которые оценивают именно качество вероятностей.

Логарифмическая потеря

Для бинарного события (победа/не победа) вводят:

— факт

— предсказанная вероятность события ()

Тогда логарифмическая потеря (log loss) равна:

Пояснение:

если событие произошло (), штрафуется маленький через

если событие не произошло (), штрафуется большой через

модель, которая часто «уверенно ошибается», получает большой штраф

Справка: Log loss.

Квадратичная потеря вероятностей (Brier score)

Для бинарного события:

Где:

— прогноз вероятности

— факт (0 или 1)

Это простой способ оценить, насколько вероятности близки к реальности.

Справка: Brier score.

Калибровка: соответствуют ли вероятности реальности

Даже если модель неплохо ранжирует матчи, она может быть плохо калибрована.

Пример плохой калибровки:

модель часто говорит 0.80 на победу

но реально такие матчи выигрываются только в 65% случаев

Калибровку проверяют графиком: группируют прогнозы по диапазонам и сравнивают прогнозируемую вероятность с фактической долей.

!График показывает, соответствуют ли прогнозируемые вероятности реальным частотам

Практический чек-лист: как построить модель матча в аналитике

Определите, что вы прогнозируете: исход, счёт, тотал, «обе забьют»

Зафиксируйте единицу наблюдения и контекст: матч, тайм, отрезок, составы

Выберите семейство модели:

- Пуассон, если нужна модель счёта и производных рынков - логистическая модель, если нужен исход напрямую

Разделите данные на обучение и проверку (или используйте кросс-валидацию)

Оценивайте качество вероятностей метриками вроде LogLoss и Brier score и обязательно смотрите калибровку

Всегда держите в голове неопределённость оценок и переносимость: модель, сильная на одном сезоне и лиге, может просесть на другом контексте

Что дальше

Вероятностные модели матчей — это точка, где теория вероятностей становится инструментом принятия решений:

через распределения и ожидания вы получаете прогнозы и риски

через условные вероятности обновляете прогноз по ходу игры

через статистические оценки и проверку гипотез понимаете, насколько данные поддерживают выводы

Дальше обычно развивают два направления:

более богатые модели, которые учитывают больше факторов и зависимостей

симуляции матчей и сезонов, где распределения превращаются в прогнозы турнирных таблиц и вероятности достижения целей