Случайные величины: дискретные и непрерывные распределения
В предыдущей статье мы научились описывать эксперименты с помощью пространства элементарных событий . Мы говорили об исходах, таких как «выпал орел» или «выпала шестерка». Но математика — это наука о числах. Работать с абстрактными понятиями вроде «орел» или «красный шар» неудобно, когда мы хотим строить графики, считать средние значения или прогнозировать риски.
Поэтому следующим логическим шагом является перевод исходов эксперимента на язык чисел. Для этого вводится понятие случайной величины. Это мост, соединяющий реальные события с математическим анализом.
Что такое случайная величина?
Представьте, что вы стреляете по мишени. Попадание в «десятку» — это событие. Но для статистики нам важно не само событие, а количество очков, которое вы выбили. Или представьте, что вы ждете автобус. Событие — «автобус приехал», но нас интересует время ожидания в минутах.
Случайная величина — это переменная, значение которой определяется исходом случайного эксперимента. Проще говоря, это правило (функция), которое каждому исходу из пространства элементарных событий ставит в соответствие некоторое число.
Обычно случайные величины обозначают заглавными латинскими буквами: , , , а их конкретные значения — строчными: , , .
Примеры:
* — число, выпавшее на игральной кости (принимает значения 1, 2, 3, 4, 5, 6).
* — количество бракованных деталей в партии из 100 штук.
* — время, которое прослужит лампочка до перегорания.
Главное различие между этими примерами кроется в типе значений, которые они могут принимать. По этому признаку случайные величины делятся на два больших класса: дискретные и непрерывные.
!Классификация случайных величин на дискретные и непрерывные.
Дискретные случайные величины
Случайная величина называется дискретной, если она может принимать только отдельные, изолированные друг от друга значения. Эти значения можно пересчитать (пронумеровать): .
Между двумя соседними значениями дискретной величины нет других возможных значений. Например, в семье может быть 2 или 3 ребенка, но не может быть 2.5 ребенка.
Закон распределения дискретной случайной величины
Чтобы полностью описать дискретную случайную величину, недостаточно просто перечислить её возможные значения. Нужно знать, с какой вероятностью она принимает каждое из них. Это соответствие называется законом распределения.
Чаще всего его записывают в виде таблицы:
| | | | ... | |
| :--- | :--- | :--- | :--- | :--- |
| | | | ... | |
Где:
* — случайная величина.
* — возможные значения величины.
* — вероятности того, что величина примет соответствующее значение.
Важнейшее свойство: Сумма всех вероятностей должна быть равна единице, так как одно из этих значений обязательно выпадет (это достоверное событие).
Где:
* — знак суммирования.
* — вероятность -го значения.
* — количество возможных значений.
* — полная вероятность.
Пример:
Пусть — количество орлов при одном броске монеты (0 — решка, 1 — орел). Если монета честная, то вероятность каждого исхода 0.5.
| | 0 | 1 |
| :--- | :--- | :--- |
| | 0.5 | 0.5 |
Проверка: . Все верно.
!Графическое представление равномерного дискретного распределения.
Непрерывные случайные величины
Случайная величина называется непрерывной, если она может принимать любое значение из некоторого промежутка. Количество возможных значений здесь бесконечно велико, и их невозможно перенумеровать.
Примеры:
* Рост человека (может быть 170 см, 170.1 см, 170.005 см и т.д.).
* Температура воздуха.
* Время ожидания звонка.
* Ошибка измерения прибора.
Проблема с вероятностью конкретного значения
Здесь возникает интересный парадокс. Поскольку возможных значений бесконечно много, вероятность того, что непрерывная случайная величина примет конкретное, абсолютно точное значение (например, рост ровно 175.00000... см), равна нулю.
Где:
* — вероятность того, что случайная величина примет конкретное значение .
* — нулевая вероятность.
Это не значит, что событие невозможно. Это значит, что в непрерывном мире мы не можем говорить о вероятности точки. Мы можем говорить только о вероятности попадания в интервал.
Плотность вероятности
Вместо таблицы с вероятностями для описания непрерывных величин используют функцию , которая называется плотностью распределения вероятностей (или просто плотностью вероятности).
График этой функции — это кривая, под которой «размазана» вероятность. Вероятность того, что величина попадет в интервал от до , равна площади фигуры под графиком функции на этом участке.
С точки зрения математического анализа, эта площадь выражается через определенный интеграл:
Где:
* — вероятность того, что величина окажется в диапазоне между и .
* — знак определенного интеграла (площадь под кривой от точки до точки ).
* — функция плотности вероятности.
* — дифференциал переменной (элемент интегрирования).
Свойства плотности вероятности:
(плотность не может быть отрицательной).
Вся площадь под кривой плотности равна 1 (аналог суммы вероятностей для дискретного случая).Где:
* — интеграл по всей числовой прямой (все возможные значения).
* — полная вероятность.
!Геометрический смысл вероятности для непрерывной величины.
Функция распределения
Существует универсальный способ описания как дискретных, так и непрерывных величин. Это функция распределения (иногда её называют кумулятивной функцией распределения).
Она показывает вероятность того, что случайная величина примет значение, меньшее или равное некоторому числу .
Где:
* — значение функции распределения в точке .
* — вероятность того, что случайная величина не превысит значение .
Как она выглядит?
* Для дискретных величин график имеет ступенчатый вид (растет скачками в точках, где есть вероятность).
* Для непрерывных величин график — это плавная неубывающая линия, которая начинается от 0 (на минус бесконечности) и стремится к 1 (на плюс бесконечности).
Числовые характеристики (Краткий обзор)
Чтобы сравнивать случайные величины между собой, часто используют не полные графики или таблицы, а сжатые числовые характеристики. О них мы подробно поговорим в следующей статье, но сейчас важно знать два главных понятия:
Математическое ожидание ( или ) — это «среднее» значение, вокруг которого группируются исходы. Центр тяжести распределения.
Дисперсия ( или ) — мера разброса значений. Показывает, насколько сильно значения отклоняются от среднего.Заключение
Мы разделили мир случайностей на две части: дискретный (мир игральных костей и счетных предметов) и непрерывный (мир измерений и времени).
* Если вы можете пересчитать исходы по пальцам (даже если пальцев нужно очень много) — используйте дискретные распределения и таблицы вероятностей.
* Если исходы плавно перетекают друг в друга и заполняют интервалы — используйте непрерывные распределения и функцию плотности.
Понимание природы ваших данных — это первый шаг к правильному выбору статистического метода. В следующий раз мы научимся вычислять математическое ожидание и оценивать риски с помощью дисперсии.