Математический фундамент анализа данных: от теории вероятностей до статистического вывода

1. Основы теории вероятностей и комбинаторный анализ

Основы теории вероятностей и комбинаторный анализ

Представьте, что вы анализируете логи посещений крупного интернет-магазина. Перед вами стоит задача: какова вероятность того, что пользователь, зашедший на сайт трижды в течение недели, совершит покупку именно на третий раз? Или более приземленный вопрос: сколько существует способов составить уникальный пароль из восьми символов, если использовать только латинские буквы и цифры? Ответы на эти вопросы лежат в плоскости теории вероятностей и комбинаторики — дисциплин, которые превращают интуитивное «скорее всего» в строгий математический расчет. Без этого фундамента невозможно построить ни одну модель машинного обучения, так как любая нейросеть в своей основе оперирует не истиной, а вероятностью правильного ответа.

Природа случайности и классическое определение вероятности

В основе теории вероятностей лежит понятие случайного эксперимента — действия, результат которого невозможно предсказать заранее, даже если мы в точности повторим все начальные условия. Каждое такое действие приводит к одному из элементарных исходов. Множество всех возможных элементарных исходов образует пространство элементарных событий, которое в математике принято обозначать греческой буквой (омега).

Чтобы перейти от абстрактного пространства к числам, в XVIII веке Пьером-Симоном Лапласом было сформулировано классическое определение вероятности. Оно применимо в ситуациях, когда все элементарные исходы равновозможны (например, при подбрасывании идеально симметричной монеты или игральной кости).

Вероятность события (обозначается как ) вычисляется по формуле:

где — количество исходов, благоприятствующих событию , а — общее число всех возможных элементарных исходов в эксперименте.

Из этой формулы вытекают фундаментальные свойства вероятности:

Вероятность любого события всегда находится в диапазоне от до .

Вероятность достоверного события (которое произойдет обязательно) равна .

Вероятность невозможного события равна .

Рассмотрим пример с игральной костью. Пространство исходов , следовательно, . Если нас интересует событие — «выпадение четного числа», то благоприятными исходами будут , то есть . Тогда .

Однако в реальности Data Science мы редко сталкиваемся с идеальными костями. Чаще мы имеем дело со статистической вероятностью, которая определяется как предел относительной частоты появления события при бесконечном увеличении числа испытаний. Это подводит нас к закону больших чисел, но прежде чем анализировать массивы данных, необходимо научиться корректно считать те самые и , что подводит нас к комбинаторике.

Комбинаторный анализ: искусство подсчета

Комбинаторика отвечает на вопрос «сколькими способами?». В анализе данных это критично для оценки мощности пространства признаков или при расчете вероятностей в задачах с выборками.

Правила суммы и произведения

Это два столпа, на которых строится весь комбинаторный подсчет. * Правило суммы: если объект можно выбрать способами, а объект — способами, причем выборы взаимоисключающие, то выбрать «либо , либо » можно способами. * Правило произведения: если объект можно выбрать способами и после каждого такого выбора объект можно выбрать способами, то пара выбирается способами.

Представьте, что в вашей команде 5 аналитиков и 3 разработчика. Выбрать одного человека для презентации можно способами. А сформировать рабочую пару «аналитик + разработчик» можно способами.

Размещения, перестановки и сочетания

Когда мы работаем с наборами элементов, ключевым вопросом становится: важен ли порядок?

Перестановки (). Используются, когда мы берем все имеющиеся элементы и меняем их местами. Количество способов расставить объектов в ряд:

Символ (факториал) означает произведение всех натуральных чисел от до . Например, 3 аналитика могут сесть в ряд способами.

Размещения (). Используются, когда из элементов мы выбираем только и порядок выбора нам важен. Например, мы выбираем из 10 кандидатов двоих на роли «Тимлид» и «Заместитель». Здесь Вася-лид и Петя-зам — это не то же самое, что Петя-лид и Вася-зам.

Для нашего примера: способов.

Сочетания (). Самый важный инструмент в статистике. Мы выбираем элементов из , но их порядок внутри выборки не имеет значения. Например, выбор двоих сотрудников из 10 для участия в конференции.

Здесь мы делим количество размещений на , чтобы «схлопнуть» все варианты, отличающиеся только порядком. способов.

Алгебра событий и теоремы сложения

События редко происходят в изоляции. Обычно мы анализируем их комбинации: «произойдет событие И событие » или «произойдет ХОТЯ БЫ ОДНО из них».

Суммой двух событий называется событие, состоящее в том, что наступит или , или , или оба сразу. Для произвольных событий формула выглядит так:

Мы вычитаем (вероятность их совместного наступления), потому что эта область при простом сложении учитывается дважды. Если же события несовместны (не могут произойти одновременно, например, выпадение 1 и 6 на одной кости), то , и формула упрощается до .

> Важный нюанс для практики: сумма вероятностей события и его отрицания (событие «не ») всегда равна . Это часто используется для упрощения расчетов: . Иногда гораздо проще посчитать вероятность того, что событие НЕ произойдет, и вычесть её из единицы.

Условная вероятность и зависимость событий

В Data Science мы постоянно ищем зависимости. Влияет ли наличие подписки на вероятность того, что пользователь удалит приложение? Это вопрос об условной вероятности.

Условной вероятностью называется вероятность события при условии, что событие уже произошло.

Отсюда вытекает теорема умножения вероятностей: . Вероятность того, что произойдут оба события, равна вероятности первого, умноженной на вероятность второго при условии наступления первого.

Если же , это означает, что наступление события никак не меняет шансы события . Такие события называются независимыми. Для них формула умножения принимает максимально простой вид:

Кейс: Оценка надежности системы

Допустим, серверная система состоит из двух независимых узлов. Вероятность отказа первого узла , второго . Система выходит из строя только при отказе ОБОИХ узлов. Так как узлы независимы, вероятность общего отказа: . А какова вероятность того, что система будет работать? Мы можем посчитать это двумя способами:

Через противоположное событие: .

Через сумму вероятностей работоспособности: . Это сложнее, но дает тот же результат.

Формула полной вероятности и теорема Байеса

Это венец основ теории вероятностей, имеющий колоссальное значение в машинном обучении (например, в наивном байесовском классификаторе).

Представьте, что событие может произойти только совместно с одной из нескольких гипотез , которые образуют полную группу (несовместны и в сумме дают 1). Тогда вероятность события вычисляется как средневзвешенное:

Здесь — вероятность гипотезы, а — условная вероятность события при этой гипотезе.

Теорема Байеса позволяет нам «развернуть» вероятность. Если нам известно, что событие уже произошло, мы можем переоценить вероятности гипотез:

Это математическая модель обучения: у нас были априорные (до опыта) знания о гипотезах , мы получили новые данные (событие ) и обновили свои знания до апостериорных .

Разбор примера: Медицинский тест

Представьте редкое заболевание, которым страдает населения (). Существует тест, точность которого (если человек болен, тест положителен в случаев: ). Однако тест дает ложноположительный результат в случаев (). Вопрос: какова вероятность, что человек действительно болен, если тест показал «плюс»?

Сначала найдем полную вероятность положительного теста :

Теперь применим формулу Байеса:

Результат контринтуитивен: даже при точности теста в , вероятность болезни при положительном результате составляет всего около . Это происходит потому, что само заболевание очень редкое, и количество ложноположительных срабатываний среди здоровых людей перевешивает количество истинно положительных среди больных. Этот пример учит аналитиков всегда учитывать базовую пропорцию (base rate) в данных.

Схема Бернулли и повторные испытания

В анализе данных мы часто сталкиваемся с серией одинаковых независимых испытаний, в каждом из которых событие может либо произойти (успех), либо нет (неудача). Это называется схемой Бернулли. Вероятность того, что в испытаниях успех наступит ровно раз, вычисляется по формуле:

где — вероятность успеха в одном испытании.

Эта формула — мостик к биномиальному распределению, которое мы будем изучать позже. Она объясняет, почему, например, при конверсии сайта в , вероятность того, что из 100 посетителей купят ровно 5 человек, на самом деле довольно мала, хотя это и есть «ожидаемое» число.

Понимание этих механизмов позволяет аналитику не просто констатировать факты, а строить предиктивные модели. Когда вы понимаете, как комбинируются вероятности и как пересчитываются гипотезы при поступлении новых данных, вы перестаете видеть в данных хаос и начинаете видеть структуру. Комбинаторика дает нам инструменты для оценки масштаба задачи, а теория вероятностей — линейку для измерения неопределенности. В следующей главе мы перейдем от этих дискретных основ к описательной статистике, где научимся эффективно суммировать большие объемы данных с помощью средних значений и мер разброса.