Основы теории вероятностей

Курс охватывает фундаментальные принципы вероятностного анализа, от базовой аксиоматики до предельных теорем. Вы научитесь моделировать случайные процессы и рассчитывать характеристики случайных величин.

1. Случайные события, классическое определение вероятности и элементы комбинаторики

Введение в мир случайностей

Добро пожаловать в курс «Основы теории вероятностей». Мы живем в мире, где абсолютная уверенность — это роскошь. Пойдет ли завтра дождь? Выиграет ли любимая команда матч? Какова вероятность встретить динозавра на улице (спойлер: — либо встретите, либо нет, но об этой шутке мы поговорим позже с научной точки зрения)?

Теория вероятностей — это раздел математики, который изучает закономерности в случайных явлениях. Это не магия и не гадание на кофейной гуще, а строгая наука, позволяющая оценивать шансы и принимать взвешенные решения в условиях неопределенности.

В этой первой статье мы разберем фундамент: что такое случайное событие, как математики договорились считать вероятность и как научиться подсчитывать варианты, когда их становится слишком много.

Случайные события: анатомия неопределенности

Прежде чем считать цифры, нужно определиться с терминами. В основе всего лежит опыт (или испытание) — это действие, которое можно повторить при определенных условиях. Например, подбрасывание монеты, выстрел по мишени или извлечение карты из колоды.

Результат этого опыта называется событием.

Виды событий

События делятся на три основные категории:

  • Достоверное событие. Это событие, которое обязательно произойдет в результате опыта. Если вы подбросите обычный игральный кубик, то выпадение числа меньше 7 — это достоверное событие.
  • Невозможное событие. Это событие, которое никогда не произойдет в данном опыте. Например, выпадение цифры 8 на стандартном шестигранном кубике.
  • Случайное событие. Это событие, которое может произойти, а может и не произойти. Выпадение «орла» при броске монеты — классический пример.
  • !Иллюстрация различий между достоверным, невозможным и случайным событиями.

    Операции над событиями

    События можно комбинировать, подобно тому как мы складываем или умножаем числа. Представим, что у нас есть два события: и .

    Сумма событий ( или ). Это событие, состоящее в появлении хотя бы одного* из них (или , или , или оба сразу). Пример: — выпадение четного числа, — выпадение числа, кратного 3. Сумма — выпадение 2, 3, 4 или 6. Произведение событий ( или ). Это событие, состоящее в одновременном* появлении и , и . В примере выше произведением будет выпадение числа 6 (так как оно и четное, и кратное 3). Противоположное событие (). Это событие, состоящее в том, что не произошло*. Если — выпадение «орла», то — выпадение «решки».

    > Бог не играет в кости. > — Альберт Эйнштейн

    Эйнштейн сомневался в случайной природе квантовой механики, но в нашем макромире «игра в кости» — лучшая модель для понимания вероятности.

    Классическое определение вероятности

    Как же измерить случайность? Если мы говорим, что шанс выпадения «орла» равен 50%, что мы имеем в виду?

    Исторически первым и самым простым способом оценки является классическое определение вероятности. Оно работает, когда у опыта есть конечное число исходов, и все эти исходы равновозможны.

    Формула выглядит так:

    Где: — вероятность события (от латинского Probabilitas* — вероятность). * — количество исходов, благоприятствующих событию (тех, которые нам нужны). * — общее количество всех возможных элементарных исходов испытания.

    Пример с игральной костью

    Рассмотрим бросок стандартного кубика. Какова вероятность того, что выпадет четное число?

  • Определяем : Всего у кубика 6 граней. Значит, всего может выпасть 6 вариантов (1, 2, 3, 4, 5, 6). Итак, .
  • Определяем : Нас интересуют четные числа. Это 2, 4 и 6. Всего их 3 штуки. Значит, .
  • Считаем :
  • Где — число четных граней, — всего граней, — итоговая вероятность.

    Вероятность всегда выражается числом от 0 до 1. * — невозможное событие. * — достоверное событие. * Часто вероятность выражают в процентах, умножая результат на 100 (то есть ).

    !Визуализация подсчета благоприятных и общих исходов на примере игральной кости.

    Элементы комбинаторики: искусство подсчета

    Классическая формула выглядит простой, пока и малы. Но что, если мы спросим: «Какова вероятность угадать 5 чисел из 36 в лотерее?» или «Какова вероятность, что в группе из 25 человек у двоих день рождения в один день?».

    Перебирать варианты вручную здесь невозможно. На помощь приходит комбинаторика — раздел математики, обучающий подсчету количества возможных комбинаций.

    Два основных правила комбинаторики

    Прежде чем переходить к формулам, нужно усвоить два фундаментальных принципа логики подсчета.

    1. Правило суммы

    Если объект можно выбрать способами, а объект — способами, то выбрать либо , либо можно способами.

    Пример: На тарелке лежат 3 яблока и 2 груши. Сколькими способами можно взять один фрукт? способов.

    2. Правило произведения

    Если объект можно выбрать способами, и после каждого такого выбора объект можно выбрать способами, то пару ( и ) можно выбрать способами.

    Пример: У вас есть 3 рубашки и 2 пары брюк. Сколько разных костюмов можно составить? К каждой из 3 рубашек можно подобрать любые из 2 брюк. Итого: вариантов.

    Факториал

    В формулах комбинаторики постоянно встречается понятие факториал. Это произведение всех натуральных чисел от 1 до .

    Где читается как «эн факториал», — начало отсчета, — конечное число.

    Пример: . Важно: Принято считать, что .

    Основные комбинаторные конфигурации

    В зависимости от того, важен ли нам порядок элементов и используются ли все элементы множества, выделяют три типа соединений: перестановки, размещения и сочетания.

    Перестановки (Permutations)

    Сколькими способами можно переставить различных предметов в ряд? Здесь участвуют все элементы, и важен только их порядок.

    Формула:

    Где — число перестановок из элементов, — факториал числа .

    Пример: Сколькими способами можно расставить 3 книги на полке? способов.

    Размещения (Arrangements)

    Нам нужно выбрать элементов из доступных и расставить их по порядку. Здесь важен и состав, и порядок.

    Формула:

    Где — число размещений из по , — общее число элементов, — сколько элементов выбираем.

    Пример: В турнире участвуют 10 команд. Сколькими способами могут распределиться 1-е, 2-е и 3-е места (золото, серебро, бронза)? Порядок важен, так как медали разные.

    Здесь мы сократили дробь: — это произведение от 1 до 10, а — от 1 до 7. Остаются только множители 8, 9 и 10.

    Сочетания (Combinations)

    Самый частый случай в задачах на вероятность. Нам нужно выбрать элементов из , но порядок выбора не важен. Мы просто набираем «горсть» элементов.

    Формула:

    Где — число сочетаний из по (читается «це из эн по ка»), — всего элементов, — выбираемых элементов.

    Пример: Студенту нужно выбрать 2 вопроса из 10 для экзамена. Ему неважно, в каком порядке он их вытянет, главное — какие именно вопросы достанутся.

    Где получилось после сокращения и , а — это .

    !Схема алгоритма выбора правильной комбинаторной формулы.

    Заключение

    Сегодня мы заложили первый кирпич в фундамент понимания теории вероятностей. Мы узнали, что вероятность — это отношение благоприятных исходов к общему числу исходов (), и научились считать эти исходы с помощью комбинаторики.

    Главное, что нужно запомнить:

  • Вероятность всегда находится в диапазоне от 0 до 1.
  • Если порядок важен — используем перестановки или размещения.
  • Если порядок не важен (просто выбор группы) — используем сочетания.
  • В следующей статье мы усложним задачу и поговорим о теоремах сложения и умножения вероятностей, а также узнаем, что такое условная вероятность.

    2. Условная вероятность, формула полной вероятности и теорема Байеса

    Условная вероятность: как новая информация меняет всё

    В предыдущей статье мы научились считать вероятность простых событий: бросали монетки, вытягивали карты и крутили рулетку. В тех примерах каждое событие рассматривалось изолированно. Но в реальной жизни события редко происходят в вакууме. Обычно мы уже что-то знаем, и это «что-то» меняет наши оценки.

    Представьте, что вы гадаете, пойдет ли сегодня дождь. Если вы сидите в бункере без окон, ваша оценка — это просто статистика климата (скажем, ). Но если вы выглянули в окно и увидели черные тучи, вероятность дождя для вас резко возрастает, возможно, до . Тучи — это условие, которое изменило вероятность.

    Сегодня мы переходим от простой арифметики азартных игр к серьезной аналитике. Мы разберем условную вероятность, формулу полной вероятности и знаменитую теорему Байеса, которая лежит в основе современного искусственного интеллекта и медицинской диагностики.

    Что такое условная вероятность?

    Условная вероятность — это вероятность наступления события , вычисленная в предположении, что событие уже произошло.

    Обозначается это так: . Читается как «вероятность события при условии ».

    Интуитивный пример

    Допустим, мы бросаем игральную кость. Какова вероятность выпадения тройки?

    Где — вероятность выпадения тройки, — количество благоприятных исходов (только грань «3»), — общее число граней.

    А теперь представьте, что кость упала, вы не видите результат, но ваш друг говорит: «Выпало нечетное число». Это новая информация (событие ). Как изменилась вероятность того, что там тройка?

    Теперь возможных исходов не 6, а всего 3 (это числа 1, 3, 5). Тройка — один из них. Значит, вероятность стала:

    Где — вероятность выпадения тройки при условии нечетного числа, — количество троек, — количество всех нечетных чисел на кубике.

    !Визуализация сужения пространства элементарных исходов до события B.

    Формула условной вероятности

    Математически это записывается так:

    Где: * — вероятность события при условии, что произошло. * — вероятность совместного наступления событий и (их пересечение). * — вероятность наступления условия (при этом ).

    Из этой формулы вытекает теорема умножения вероятностей:

    Где: * — вероятность того, что произойдут оба события. * — вероятность первого события. * — вероятность второго события, при условии, что первое уже случилось.

    Это правило работает, когда события зависимы. Если я вытащил туза из колоды и не вернул его, вероятность вытащить второго туза изменится (тузов стало меньше, карт тоже).

    Независимые события

    Если наступление события никак не влияет на вероятность события (например, вы бросили монету, а ваш сосед в другой стране чихнул), то такие события называются независимыми.

    Для них справедливо:

    Где — условная вероятность, равная безусловной вероятности .

    Формула полной вероятности

    Часто бывает так, что событие может произойти только в результате одного из нескольких несовместных сценариев (гипотез).

    Представьте завод, где детали производят три разных станка. У каждого станка свой процент брака. Мы берем случайную деталь со склада. Какова вероятность, что она бракованная? Чтобы ответить, нам нужно учесть вклад каждого станка.

    Пусть — это полная группа событий (гипотез). Это значит, что они не пересекаются и в сумме дают вероятности (деталь точно сделана на одном из станков).

    Тогда вероятность события рассчитывается по формуле полной вероятности:

    Где: * — полная вероятность интересующего нас события. * — знак суммирования (мы складываем результаты для всех вариантов). * — вероятность того, что сработала гипотеза (например, деталь со станка №1). * — вероятность события именно для этой гипотезы (процент брака у станка №1).

    Пример с заводом

    * Станок 1 производит деталей, брак . * Станок 2 производит деталей, брак . * Станок 3 производит деталей, брак .

    Какова вероятность взять бракованную деталь ()?

    Распишем гипотезы: * (вероятность, что деталь от 1-го станка). * (от 2-го). * (от 3-го).

    Условные вероятности брака: * * *

    Считаем полную вероятность:

    Итого: вероятность того, что случайно взятая деталь окажется бракованной, составляет или .

    !Древовидная схема, помогающая визуализировать путь вычисления полной вероятности.

    Теорема Байеса: переворачиваем вероятность

    Теперь самое интересное. Формула полной вероятности позволяет нам идти от причин к следствию (зная станки, найти общий брак). А что, если мы уже видим следствие и хотим найти причину?

    Мы взяли деталь, и она оказалась бракованной. Какова вероятность, что её сделал именно третий станок (самый «проблемный»)?

    Интуитивно кажется, что раз у третьего станка самый высокий процент брака (), то скорее всего это он. Но не спешите. Третий станок производит мало деталей.

    Здесь на сцену выходит Томас Байес и его теорема. Она позволяет переоценить вероятность гипотез после того, как событие уже произошло.

    Формула Байеса

    Где: — апостериорная вероятность (вероятность гипотезы после* того, как случилось событие ). * — априорная вероятность гипотезы (наша исходная оценка, сколько деталей делает станок). * — вероятность события при этой гипотезе (процент брака станка). * — полная вероятность события (то, что мы считали в предыдущем разделе).

    Решение задачи про станок

    Найдем вероятность, что бракованная деталь пришла с 3-го станка ().

  • Мы уже знаем полную вероятность брака .
  • Числитель: .
  • Подставляем:

    То есть вероятность того, что виноват третий станок — около . Заметьте, это меньше , хотя он самый «плохой».

    А что насчет первого станка? Он делает больше всего деталей, но качественно.

    Вероятность того, что брак от первого станка — .

    Парадокс медицинских тестов

    Теорема Байеса часто взрывает мозг, когда речь заходит о редких событиях и тестах. Это классический пример, который должен знать каждый образованный человек.

    Представьте редкую болезнь, которой болеет населения (). Существует тест на эту болезнь. Он не идеален: * Если человек болен, тест покажет «плюс» в случаев (чувствительность). * Если человек здоров, тест ошибочно покажет «плюс» в случаев (ложноположительный результат).

    Вы сдаете тест, и он положительный. Паника? Какова вероятность, что вы реально больны?

    Многие ответят: «Ну, точность , значит вероятность болезни . Все плохо». Давайте посчитаем по Байесу.

    Пусть: * — человек болен (). * — человек здоров (). * — тест положительный.

    Сначала найдем полную вероятность положительного теста :

    Теперь применим формулу Байеса, чтобы найти вероятность болезни при положительном тесте :

    Ответ: .

    Вы получили положительный результат очень точного теста, но вероятность того, что вы больны — всего лишь подбрасывание монетки.

    Почему так? Потому что здоровых людей гораздо больше. И тот крошечный ошибок на огромной массе здоровых людей дает столько же ложных срабатываний, сколько реальных больных.

    > Интуиция — плохой советчик в теории вероятностей. Формулы — ваши лучшие друзья.

    Заключение

    Сегодня мы разобрали мощнейшие инструменты анализа:

  • Условная вероятность позволяет сужать круг поиска, отсекая лишние варианты.
  • Формула полной вероятности помогает оценить шансы события, которое зависит от множества факторов.
  • Теорема Байеса учит нас обновлять свои убеждения при поступлении новых данных.
  • В следующей статье мы перейдем от событий к числам и познакомимся с понятием случайной величины, узнаем, что такое математическое ожидание и почему казино всегда выигрывает.

    3. Дискретные и непрерывные случайные величины и их законы распределения

    От событий к числам: Случайные величины

    В предыдущих статьях мы оперировали понятиями «событие»: выпал орёл, пошел дождь, деталь оказалась бракованной. Это качественные описания. Но математика любит цифры. Инженеру важно не просто знать, что «деталь сломается», а сколько часов она проработает. Инвестору важно не просто «акции упадут», а на сколько долларов изменится их цена.

    Здесь на сцену выходит центральное понятие всей теории вероятностей — случайная величина.

    Что такое случайная величина?

    Говоря простым языком, случайная величина — это переменная, значение которой зависит от случайного случая. До проведения опыта мы не знаем, чему она будет равна, но знаем множество возможных значений.

    Математически это функция, которая переводит результат эксперимента (из пространства элементарных исходов) в число.

    Обозначают случайные величины заглавными латинскими буквами: . А их конкретные значения — строчными:

    Пример: Бросаем монету. * Событие: выпал «Орёл». * Мы можем ввести случайную величину : если Орёл, то , если Решка, то . Теперь мы можем считать среднее, строить графики и применять мощный аппарат алгебры.

    Случайные величины делятся на два больших лагеря: дискретные и непрерывные.

    Дискретные случайные величины (ДСВ)

    Слово «дискретный» означает «прерывистый», «раздельный». Случайная величина называется дискретной, если она может принимать только отдельные, изолированные значения, которые можно перенумеровать (раз, два, три...).

    Примеры: * Количество очков на кубике (1, 2, 3, 4, 5, 6). * Число звонков в колл-центр за час (0, 1, 2, ... 100...). * Количество бракованных деталей в партии из 10 штук.

    Между значениями 1 и 2 нет промежуточного состояния. Нельзя выбросить на кубике 1.5 очка.

    Закон распределения ДСВ

    Чтобы полностью описать дискретную случайную величину, недостаточно просто перечислить её значения. Нужно указать, с какой вероятностью каждое значение выпадает. Это соответствие называется законом распределения.

    Самый простой способ задать его — таблица (ряд распределения):

    | | | | ... | | | :--- | :--- | :--- | :--- | :--- | | | | | ... | |

    Где: * — возможные значения величины. * — вероятности того, что примет значение .

    Главное свойство

    Так как в результате опыта случайная величина обязательно примет одно из возможных значений, сумма всех вероятностей должна быть равна единице:

    Где: * — знак суммы. * — вероятность -го значения. * — полная вероятность (достоверное событие).

    !Графическое представление закона распределения для игральной кости

    Пример: Лотерея

    Вы покупаете билет за 100 рублей. В лотерее разыгрывается: * 1 приз в 1000 рублей (вероятность 0.01). * 10 призов по 200 рублей (вероятность 0.1). * Остальные билеты без выигрыша (вероятность 0.89).

    Пусть — ваш чистый выигрыш (приз минус цена билета).

    Возможные значения :

  • руб.
  • руб.
  • руб. (проигрыш).
  • Закон распределения:

    | | 900 | 100 | -100 | | :--- | :--- | :--- | :--- | | | 0.01 | 0.10 | 0.89 |

    Проверка: . Всё верно.

    Непрерывные случайные величины (НСВ)

    Теперь представьте, что мы измеряем рост случайного прохожего, время ожидания автобуса или температуру воздуха.

    Может ли рост быть равен точно 175 см? В реальности — нет. Если взять сверхточный микроскоп, это будет 175.00001 см или 174.99999 см. Значений так много, что их невозможно перенумеровать. Они заполняют сплошной промежуток.

    Такие величины называются непрерывными.

    Примеры: * Рост человека. * Вес яблока. * Время, которое вы проведете в очереди. * Расстояние от центра мишени до точки попадания пули.

    Парадокс нулевой вероятности

    У непрерывной величины бесконечное число возможных значений. Если мы попытаемся составить таблицу, как для кубика, нам придется делить единицу на бесконечность.

    Где — вероятность того, что непрерывная величина примет конкретное, точное значение .

    Это кажется странным, но вероятность того, что автобус придет ровно через 5 минут 00.000... секунд, равна нулю. А вот вероятность того, что он придет в интервале от 4 до 6 минут — вполне осязаема.

    Поэтому для НСВ закон распределения задается не таблицей, а функцией плотности.

    Плотность вероятности

    Представьте график, где по оси отложены значения величины, а по оси — «густота» вероятности. Эта кривая называется плотностью распределения (Probability Density Function, PDF).

    Вероятность попадания величины в интервал от до равна площади под графиком этой функции на данном участке.

    Математически это выражается через интеграл:

    Где: * — вероятность того, что попадет в диапазон от до . * — определенный интеграл (площадь фигуры под кривой). * — функция плотности вероятности.

    !Иллюстрация геометрического смысла вероятности для непрерывных величин

    Свойства плотности

  • Неотрицательность: (вероятность не может быть отрицательной).
  • Нормировка: Вся площадь под графиком равна 1 (событие обязательно произойдет где-то в диапазоне возможных значений).
  • Где интеграл от минус до плюс бесконечности означает суммирование площади под всей кривой.

    Функция распределения (CDF)

    Существует универсальный способ описать и дискретные, и непрерывные величины. Это функция распределения (Cumulative Distribution Function).

    Она отвечает на вопрос: «Какова вероятность, что случайная величина будет меньше числа ?»

    Где: * — значение функции распределения в точке . * — вероятность того, что случайная величина примет значение строго меньше .

    Свойства :

  • Она всегда растет (или не убывает) от 0 до 1.
  • При , (вероятность быть меньше минус бесконечности нулевая).
  • При , (вероятность быть меньше плюс бесконечности — 100%).
  • Для дискретных величин график выглядит как ступеньки. Для непрерывных — как плавная линия, поднимающаяся вверх.

    Важнейшие законы распределения

    В природе и технике некоторые законы встречаются так часто, что получили собственные имена.

    1. Биномиальное распределение (Дискретное)

    Описывает число успехов в серии из независимых опытов. Пример: Подбрасываем монету 10 раз. Сколько раз выпадет орел? Это основа контроля качества и социологических опросов.

    2. Нормальное распределение (Непрерывное)

    Король всех распределений, также известное как распределение Гаусса. Его график — знаменитая колоколообразная кривая (Bell Curve).

    Оно возникает там, где на величину влияет множество мелких независимых факторов. Примеры: Рост людей, погрешности измерений, отклонение снаряда от цели, IQ тесты.

    Большинство значений группируется вокруг среднего, а чем дальше от центра — тем реже встречаются значения.

    !Классическая кривая нормального распределения

    3. Равномерное распределение

    Бывает и дискретным, и непрерывным. Суть одна: все значения равновероятны. * Дискретное: игральный кубик (шанс любой грани 1/6). * Непрерывное: генератор случайных чисел, выдающий число от 0 до 1.

    Заключение

    Мы перешли от абстрактных событий к конкретным числам и функциям. Теперь мы знаем: * Дискретные величины считаются поштучно (таблица вероятностей). * Непрерывные величины измеряются (функция плотности). * Вероятность для непрерывной величины — это площадь.

    Но как сравнить две случайные величины? Как понять, какая из них «выгоднее» или «стабильнее», не глядя на графики? Для этого существуют числовые характеристики: математическое ожидание и дисперсия. О них мы поговорим в следующей статье.

    4. Числовые характеристики: математическое ожидание, дисперсия и моменты

    Введение: Портрет случайной величины

    В предыдущей статье мы познакомились со случайными величинами и узнали, что они описываются законами распределения. Для дискретных величин это таблица, для непрерывных — график функции плотности. Это полная, исчерпывающая информация. Но всегда ли она нам нужна?

    Представьте, что вы выбираете между двумя инвестиционными фондами. У одного таблица доходности занимает три страницы, у другого — сложный график. Сравнивать их «на глаз» неудобно. Вам хочется узнать всего две вещи: «Сколько я в среднем заработаю?» и «Каков риск всё потерять?».

    Именно для этого существуют числовые характеристики. Они сжимают всю сложную информацию о распределении до нескольких чисел, которые описывают суть процесса. Сегодня мы разберем «центр тяжести» случайности (математическое ожидание), меру её разброса (дисперсию) и узнаем, что такое моменты.

    Математическое ожидание: Центр тяжести

    Математическое ожидание (обозначается или ) — это среднее значение случайной величины, если бы мы повторяли опыт бесконечное количество раз. В бытовом смысле это «средний выигрыш».

    Для дискретных величин

    Чтобы найти матожидание, нужно каждое возможное значение величины умножить на вероятность этого значения и сложить полученные результаты.

    Где: * — математическое ожидание случайной величины . * — знак суммирования (сумма по всем возможным исходам). * — конкретное значение, которое может принять случайная величина. * — вероятность того, что величина примет значение .

    > Математическое ожидание — это не то, что произойдет в конкретном опыте. Это то, к чему будет стремиться среднее арифметическое при длительной серии испытаний.

    Пример с лотереей: Билет стоит 100 рублей. С вероятностью вы выигрываете 5000 рублей, с вероятностью — ничего (0 рублей). Случайная величина — это выплата. Найдем её среднее значение:

    Где — это средняя выплата на один билет. Если билет стоит 100 рублей, то в среднем вы теряете 50 рублей с каждой покупки (). Казино или организатор лотереи всегда в плюсе.

    Механическая аналогия

    Представьте, что ось — это невесомый стержень. В точках мы подвешиваем грузики, масса которых равна вероятностям . Точка, в которой стержень будет держать равновесие, и есть математическое ожидание.

    !Иллюстрация математического ожидания как центра тяжести системы вероятностей.

    Для непрерывных величин

    Если величина непрерывная, сумму заменяем на интеграл, а вероятность — на плотность распределения .

    Где: * — определенный интеграл по всей числовой оси. * — значение случайной величины. * — функция плотности вероятности. * — дифференциал переменной (элемент интегрирования).

    Свойства математического ожидания

  • Матожидание константы равно самой константе: . Если вы всегда получаете 5 рублей, то и в среднем вы получаете 5 рублей.
  • Вынос множителя: . Если все призы увеличить в 2 раза, средний выигрыш тоже вырастет в 2 раза.
  • Сумма: . Средний рост двух людей равен сумме их средних ростов.
  • Дисперсия: Мера риска

    Знать среднее значение недостаточно. Представьте двух стрелков: * Стрелок А всегда попадает в «восьмерку». * Стрелок Б один раз попадает в «десятку», а другой раз — в «шестерку». В среднем . Тоже «восьмерка»!

    Матожидания у них одинаковые, но качество стрельбы разное. Стрелок А стабилен, Стрелок Б — нет. Чтобы измерить эту «стабильность» (или разброс), используют дисперсию.

    Дисперсия (от лат. dispersio — рассеяние) — это математическое ожидание квадрата отклонения случайной величины от её среднего значения.

    Где: * — дисперсия случайной величины. * — операция взятия математического ожидания. * — случайная величина. * — её математическое ожидание (центр). * — возведение в квадрат. Мы возводим в квадрат, чтобы отклонения в минус и в плюс не уничтожали друг друга (как и ), и чтобы сильнее «наказывать» за большие промахи.

    Для расчетов удобнее использовать другую формулу:

    Где: * — математическое ожидание квадратов значений величины. * — квадрат математического ожидания величины.

    Среднеквадратическое отклонение

    У дисперсии есть один недостаток: она измеряется в «квадратных единицах». Если — это метры, то — квадратные метры. Это неудобно для восприятия.

    Поэтому чаще используют среднеквадратическое отклонение (или стандартное отклонение), обозначаемое греческой буквой «сигма» ().

    Где: * — среднеквадратическое отклонение. * — квадратный корень. * — дисперсия.

    Сигма показывает, насколько в среднем значения отклоняются от центра. В нормальном распределении в диапазон попадает всех значений (знаменитое «правило трех сигм»).

    !Сравнение двух распределений с одинаковым матожиданием, но разной дисперсией.

    Свойства дисперсии

  • Дисперсия константы равна нулю: . У постоянной величины нет разброса.
  • Вынос множителя в квадрате: . Если увеличить все значения в 2 раза, разброс увеличится в 4 раза.
  • Сдвиг не влияет на дисперсию: . Если ко всем результатам прибавить 5, график просто сдвинется, но его ширина не изменится.
  • Моменты: Форма распределения

    Математическое ожидание и дисперсия — это частные случаи более общего понятия, называемого моментами. Термин пришел из физики (момент силы, момент инерции).

    В теории вероятностей моменты помогают описать форму графика распределения более детально.

    Начальные и центральные моменты

    Начальный момент -го порядка ():

    Где — матожидание величины, возведенной в степень . * При мы получаем просто — математическое ожидание.

    Центральный момент -го порядка ():

    Где мы рассматриваем отклонения от центра. * При центральный момент всегда равен 0. * При мы получаем — дисперсию.

    Асимметрия и Эксцесс

    Зачем нужны моменты высших порядков? Они описывают «перекосы» и «остроту» графика.

  • Коэффициент асимметрии (Skewness).
  • Основан на 3-м центральном моменте. Он показывает, симметричен ли график. * Если асимметрия , график симметричен (как идеальный колокол). * Если , у графика «длинный хвост» справа. * Если , «длинный хвост» слева.

  • Коэффициент эксцесса (Kurtosis).
  • Основан на 4-м центральном моменте. Он показывает, насколько график «острый» или «приплюснутый» по сравнению с нормальным распределением. * Высокий эксцесс означает, что у распределения «тяжелые хвосты» (редкие события происходят чаще, чем ожидается в норме). Это критически важно в управлении рисками на бирже.

    Заключение

    Теперь у нас есть полный набор инструментов для описания случайной величины: * Математическое ожидание говорит нам, где находится центр событий. * Дисперсия и стандартное отклонение показывают, насколько сильно события разбросаны вокруг этого центра. * Моменты высших порядков уточняют форму распределения, указывая на перекосы и аномалии.

    В следующей статье мы перейдем от описания одной величины к изучению массовых явлений. Мы узнаем о Законе больших чисел — принципе, который объясняет, почему казино всегда выигрывает, а страховые компании не разоряются, несмотря на случайность каждого отдельного случая.

    5. Закон больших чисел и центральная предельная теорема

    Порядок из хаоса: Закон больших чисел и Центральная предельная теорема

    В предыдущих статьях мы прошли путь от подбрасывания одной монетки до изучения сложных функций распределения. Мы научились считать математическое ожидание (среднее значение) и дисперсию (меру риска). Но до сих пор мы рассматривали случайные величины поодиночке или в малых группах.

    Однако настоящая магия теории вероятностей начинается там, где событий становится много. Почему казино всегда в плюсе, хотя исход каждой отдельной игры случаен? Почему страховые компании знают, сколько денег выплатить в следующем году, не зная, кто именно попадет в аварию? Почему средний рост людей в толпе всегда примерно одинаков?

    Ответы на эти вопросы дают два фундаментальных столпа статистики: Закон больших чисел и Центральная предельная теорема. Сегодня мы узнаем, как из абсолютного хаоса рождается идеальный порядок.

    Неравенство Чебышёва: Границы случайности

    Прежде чем говорить о больших числах, нужно понять, как связаны дисперсия и вероятность. Интуитивно мы понимаем: если у случайной величины маленькая дисперсия (разброс), то она редко отклоняется от своего среднего значения.

    Великий русский математик Пафнутий Львович Чебышёв дал этому строгое математическое обоснование. Его неравенство утверждает: какова бы ни была случайная величина, вероятность того, что она сильно отклонится от своего математического ожидания, мала.

    Формула неравенства Чебышёва:

    Где: * — вероятность события. * — модуль (абсолютная величина), нас интересует отклонение в любую сторону. * — случайная величина. * — математическое ожидание (среднее значение) этой величины. * — знак «больше или равно». * (эпсилон) — некоторое положительное число, задающее границу отклонения (насколько далеко мы разрешаем уйти от среднего). * — знак «меньше или равно». * — дисперсия случайной величины . * — квадрат заданного отклонения.

    Что это значит простыми словами? Если дисперсия мала, то дробь справа будет маленькой. Значит, вероятность большого отклонения ничтожна. Это неравенство универсально — оно работает для любых распределений, даже если мы не знаем их точного закона.

    Закон больших чисел (ЗБЧ)

    Закон больших чисел — это принцип, утверждающий, что при очень большом числе испытаний средний результат перестает быть случайным и становится предсказуемым.

    Представьте, что вы подбрасываете монету. * 10 бросков: может выпасть 8 орлов и 2 решки. Частота орла — . Это нормально. * 100 бросков: скорее всего, будет около 45-55 орлов. * 1 000 000 бросков: частота выпадения орла будет практически неотличима от .

    !График демонстрации стабилизации частоты при увеличении числа испытаний.

    Теорема Чебышёва (форма ЗБЧ)

    Если мы рассматриваем среднее арифметическое большого количества независимых случайных величин, то это среднее стремится к их математическому ожиданию.

    Математически это записывается через предел:

    Где: * — предел при стремлении числа испытаний к бесконечности. * — вероятность. * — среднее арифметическое наших наблюдений (сумма всех значений, деленная на их количество). * (мю) — истинное математическое ожидание (теоретическое среднее). * — сколь угодно малое положительное число (погрешность). * — достоверное событие.

    Суть: С вероятностью, близкой к , среднее значение ваших наблюдений будет сколь угодно близко к истинному среднему, если наблюдений достаточно много.

    Практическое применение

  • Казино. Владельцы рулетки не знают, выпадет ли «зеро» сейчас. Но они точно знают, что на дистанции в миллион запусков «зеро» выпадет определенный процент раз, обеспечив прибыль заведения.
  • Страхование. Нельзя предсказать, сгорит ли конкретный дом. Но если застраховать 100 000 домов, можно с высокой точностью предсказать общий ущерб и установить цену полиса так, чтобы остаться в прибыли.
  • Измерения. Чтобы узнать точную длину детали, инженеры измеряют её несколько раз и берут среднее. Случайные ошибки измерения (плюс и минус) гасят друг друга.
  • Центральная предельная теорема (ЦПТ)

    Если Закон больших чисел говорит нам, куда стремится среднее значение (к матожиданию), то Центральная предельная теорема говорит нам, как распределяются отклонения от этого среднего.

    Это, пожалуй, самая удивительная теорема в статистике. Она гласит:

    > Сумма достаточно большого количества независимых случайных величин имеет распределение, близкое к нормальному (распределению Гаусса), независимо от того, какое распределение имели исходные величины.

    Вдумайтесь: вы можете взять величины с равномерным распределением (игральный кубик), с показательным (время ожидания звонка) или вообще с каким-то странным графиком. Но если вы сложите их результаты много раз, итоговая сумма выстроится в идеальный симметричный «колокол».

    !Иллюстрация того, как сумма любых распределений превращается в нормальное распределение.

    Пример с доской Гальтона

    Классическая иллюстрация ЦПТ — доска Гальтона (квинквинкс). Шарики падают сверху и натыкаются на гвоздики, отскакивая влево или вправо с вероятностью . Каждый отскок — это случайная величина. Положение шарика на дне — это сумма всех отскоков.

    В результате шарики на дне всегда образуют форму колокола — нормальное распределение. Хаос движения каждого отдельного шарика превращается в строгий порядок общей кучи.

    Формула ЦПТ

    Если у нас есть независимых одинаковых случайных величин с матожиданием и стандартным отклонением , то их нормированная сумма стремится к стандартному нормальному распределению:

    Где: * — стандартизированная случайная величина. * — сумма результатов испытаний. * — ожидаемая сумма (количество испытаний умноженное на среднее одного испытания). * — стандартное отклонение одной величины. * — квадратный корень из числа испытаний. * — стремится к нормальному распределению с центром в 0 и стандартным отклонением 1.

    Почему это важно?

    ЦПТ — это причина, почему нормальное распределение встречается повсюду: от роста людей и веса животных до ошибок в измерениях и колебаний цен. Большинство природных процессов — это результат сложения множества мелких независимых факторов. А где есть сумма факторов — там возникает нормальное распределение.

    Заключение

    Мы завершили блок изучения случайных величин. Теперь вы знаете:

  • Неравенство Чебышёва гарантирует, что случайные величины редко уходят далеко от среднего.
  • Закон больших чисел обеспечивает стабильность средних показателей при массовых явлениях.
  • Центральная предельная теорема объясняет, почему мир стремится к «нормальности» (колоколообразной кривой).
  • Эти знания — фундамент для следующего большого раздела: Математической статистики. В следующих статьях мы перестанем знать вероятности заранее. Мы будем иметь только данные (выборку) и с их помощью пытаться угадать истинные законы природы.