Теория вероятностей и математическая статистика

Этот курс охватывает фундаментальные принципы анализа случайных явлений и методы обработки статистических данных. Студенты изучат путь от базовых аксиом вероятности до проверки сложных статистических гипотез.

1. Основные понятия теории вероятностей: пространство элементарных событий и комбинаторика

Основные понятия теории вероятностей: пространство элементарных событий и комбинаторика

Добро пожаловать в курс «Теория вероятностей и математическая статистика». Мы начинаем наше путешествие в мир случайности, неопределенности и закономерностей, которые скрываются за хаосом.

В повседневной жизни мы постоянно сталкиваемся с вероятностями. «Какова вероятность дождя сегодня?», «Стоит ли покупать лотерейный билет?», «Каковы шансы, что этот проект окупится?». Интуитивно мы понимаем, что вероятность — это мера возможности наступления события. Но математика требует точности. В этой статье мы заложим фундамент, на котором будет строиться весь дальнейший курс: разберемся с пространством элементарных событий и научимся считать варианты с помощью комбинаторики.

Случайные события и эксперименты

В основе теории вероятностей лежит понятие опыта (или эксперимента). Это не обязательно лабораторная работа с пробирками. В нашем контексте опыт — это любое действие, которое можно повторить при определенных условиях.

Примеры опытов: * Подбрасывание монеты. * Бросок игральной кости. * Выстрел по мишени. * Извлечение карты из колоды.

Результат опыта называется исходом. Главная особенность случайного эксперимента заключается в том, что его результат нельзя предсказать заранее с полной уверенностью.

Виды событий

Событие — это любой факт, который может произойти или не произойти в результате опыта. События делятся на три типа:

  • Достоверное событие — событие, которое обязательно произойдет в данном опыте. Например, если вы подбросите обычный игральный кубик, выпадение числа меньше 7 — это достоверное событие.
  • Невозможное событие — событие, которое никогда не произойдет в данном опыте. Например, выпадение числа 8 на стандартном кубике.
  • Случайное событие — событие, которое может произойти, а может и не произойти. Например, выпадение «орла» при броске монеты.
  • Пространство элементарных событий

    Чтобы математически описать эксперимент, нам нужно знать все возможные его исходы. Совокупность всех возможных, взаимоисключающих исходов опыта называется пространством элементарных событий.

    Обозначается оно греческой буквой (Омега большая).

    Где: * — пространство элементарных событий (множество всех исходов). * — элементарные события (конкретные исходы).

    Пример с монетой: Если мы подбрасываем монету один раз, у нас всего два возможных исхода: Орел (О) и Решка (Р).

    Пример с игральной костью: При броске кубика возможны 6 исходов.

    !Схематичное изображение пространств элементарных событий для разных экспериментов.

    Любое случайное событие является подмножеством пространства . Например, событие — «выпало четное число на кубике». Тогда:

    Операции над событиями

    Поскольку события — это множества исходов, над ними можно производить операции, аналогичные операциям над множествами в математике. Это язык, на котором мы будем формулировать задачи.

    1. Сумма событий (Объединение)

    Суммой событий и называется событие (или ), которое состоит в наступлении хотя бы одного из них (или , или , или обоих сразу).

    2. Произведение событий (Пересечение)

    Произведением событий и называется событие (или ), которое состоит в одновременном наступлении и события , и события .

    3. Противоположное событие

    Событие (читается «не А») состоит в том, что событие не произошло. Оно включает в себя все исходы из , которые не входят в .

    Где: * — вероятность события . * — вероятность противоположного события. * — полная вероятность (достоверное событие).

    [VISUALIZATION: Диаграммы Эйлера-Венна. Три круга. 1) Два пересекающихся круга, закрашена вся область обоих кругов — подпись

    2. Случайные величины: дискретные и непрерывные распределения

    Случайные величины: дискретные и непрерывные распределения

    В предыдущей статье мы научились описывать эксперименты с помощью пространства элементарных событий . Мы говорили об исходах, таких как «выпал орел» или «выпала шестерка». Но математика — это наука о числах. Работать с абстрактными понятиями вроде «орел» или «красный шар» неудобно, когда мы хотим строить графики, считать средние значения или прогнозировать риски.

    Поэтому следующим логическим шагом является перевод исходов эксперимента на язык чисел. Для этого вводится понятие случайной величины. Это мост, соединяющий реальные события с математическим анализом.

    Что такое случайная величина?

    Представьте, что вы стреляете по мишени. Попадание в «десятку» — это событие. Но для статистики нам важно не само событие, а количество очков, которое вы выбили. Или представьте, что вы ждете автобус. Событие — «автобус приехал», но нас интересует время ожидания в минутах.

    Случайная величина — это переменная, значение которой определяется исходом случайного эксперимента. Проще говоря, это правило (функция), которое каждому исходу из пространства элементарных событий ставит в соответствие некоторое число.

    Обычно случайные величины обозначают заглавными латинскими буквами: , , , а их конкретные значения — строчными: , , .

    Примеры: * — число, выпавшее на игральной кости (принимает значения 1, 2, 3, 4, 5, 6). * — количество бракованных деталей в партии из 100 штук. * — время, которое прослужит лампочка до перегорания.

    Главное различие между этими примерами кроется в типе значений, которые они могут принимать. По этому признаку случайные величины делятся на два больших класса: дискретные и непрерывные.

    !Классификация случайных величин на дискретные и непрерывные.

    Дискретные случайные величины

    Случайная величина называется дискретной, если она может принимать только отдельные, изолированные друг от друга значения. Эти значения можно пересчитать (пронумеровать): .

    Между двумя соседними значениями дискретной величины нет других возможных значений. Например, в семье может быть 2 или 3 ребенка, но не может быть 2.5 ребенка.

    Закон распределения дискретной случайной величины

    Чтобы полностью описать дискретную случайную величину, недостаточно просто перечислить её возможные значения. Нужно знать, с какой вероятностью она принимает каждое из них. Это соответствие называется законом распределения.

    Чаще всего его записывают в виде таблицы:

    | | | | ... | | | :--- | :--- | :--- | :--- | :--- | | | | | ... | |

    Где: * — случайная величина. * — возможные значения величины. * — вероятности того, что величина примет соответствующее значение.

    Важнейшее свойство: Сумма всех вероятностей должна быть равна единице, так как одно из этих значений обязательно выпадет (это достоверное событие).

    Где: * — знак суммирования. * — вероятность -го значения. * — количество возможных значений. * — полная вероятность.

    Пример: Пусть — количество орлов при одном броске монеты (0 — решка, 1 — орел). Если монета честная, то вероятность каждого исхода 0.5.

    | | 0 | 1 | | :--- | :--- | :--- | | | 0.5 | 0.5 |

    Проверка: . Все верно.

    !Графическое представление равномерного дискретного распределения.

    Непрерывные случайные величины

    Случайная величина называется непрерывной, если она может принимать любое значение из некоторого промежутка. Количество возможных значений здесь бесконечно велико, и их невозможно перенумеровать.

    Примеры: * Рост человека (может быть 170 см, 170.1 см, 170.005 см и т.д.). * Температура воздуха. * Время ожидания звонка. * Ошибка измерения прибора.

    Проблема с вероятностью конкретного значения

    Здесь возникает интересный парадокс. Поскольку возможных значений бесконечно много, вероятность того, что непрерывная случайная величина примет конкретное, абсолютно точное значение (например, рост ровно 175.00000... см), равна нулю.

    Где: * — вероятность того, что случайная величина примет конкретное значение . * — нулевая вероятность.

    Это не значит, что событие невозможно. Это значит, что в непрерывном мире мы не можем говорить о вероятности точки. Мы можем говорить только о вероятности попадания в интервал.

    Плотность вероятности

    Вместо таблицы с вероятностями для описания непрерывных величин используют функцию , которая называется плотностью распределения вероятностей (или просто плотностью вероятности).

    График этой функции — это кривая, под которой «размазана» вероятность. Вероятность того, что величина попадет в интервал от до , равна площади фигуры под графиком функции на этом участке.

    С точки зрения математического анализа, эта площадь выражается через определенный интеграл:

    Где: * — вероятность того, что величина окажется в диапазоне между и . * — знак определенного интеграла (площадь под кривой от точки до точки ). * — функция плотности вероятности. * — дифференциал переменной (элемент интегрирования).

    Свойства плотности вероятности:

  • (плотность не может быть отрицательной).
  • Вся площадь под кривой плотности равна 1 (аналог суммы вероятностей для дискретного случая).
  • Где: * — интеграл по всей числовой прямой (все возможные значения). * — полная вероятность.

    !Геометрический смысл вероятности для непрерывной величины.

    Функция распределения

    Существует универсальный способ описания как дискретных, так и непрерывных величин. Это функция распределения (иногда её называют кумулятивной функцией распределения).

    Она показывает вероятность того, что случайная величина примет значение, меньшее или равное некоторому числу .

    Где: * — значение функции распределения в точке . * — вероятность того, что случайная величина не превысит значение .

    Как она выглядит? * Для дискретных величин график имеет ступенчатый вид (растет скачками в точках, где есть вероятность). * Для непрерывных величин график — это плавная неубывающая линия, которая начинается от 0 (на минус бесконечности) и стремится к 1 (на плюс бесконечности).

    Числовые характеристики (Краткий обзор)

    Чтобы сравнивать случайные величины между собой, часто используют не полные графики или таблицы, а сжатые числовые характеристики. О них мы подробно поговорим в следующей статье, но сейчас важно знать два главных понятия:

  • Математическое ожидание ( или ) — это «среднее» значение, вокруг которого группируются исходы. Центр тяжести распределения.
  • Дисперсия ( или ) — мера разброса значений. Показывает, насколько сильно значения отклоняются от среднего.
  • Заключение

    Мы разделили мир случайностей на две части: дискретный (мир игральных костей и счетных предметов) и непрерывный (мир измерений и времени).

    * Если вы можете пересчитать исходы по пальцам (даже если пальцев нужно очень много) — используйте дискретные распределения и таблицы вероятностей. * Если исходы плавно перетекают друг в друга и заполняют интервалы — используйте непрерывные распределения и функцию плотности.

    Понимание природы ваших данных — это первый шаг к правильному выбору статистического метода. В следующий раз мы научимся вычислять математическое ожидание и оценивать риски с помощью дисперсии.

    3. Числовые характеристики случайных величин: математическое ожидание и дисперсия

    Числовые характеристики случайных величин: математическое ожидание и дисперсия

    В предыдущих статьях мы прошли путь от подбрасывания монетки до построения сложных функций распределения. Мы научились описывать случайные величины с помощью таблиц (для дискретных случаев) и функций плотности (для непрерывных). Это дает полную картину поведения случайной величины.

    Однако в реальной жизни полная картина часто бывает избыточной. Представьте, что вы инвестор, выбирающий акции. Вам не всегда нужно знать детальный график распределения вероятностей цены каждой акции. Чаще всего вас интересуют два главных вопроса: «Сколько я в среднем заработаю?» и «Как сильно я рискую?».

    Именно на эти вопросы отвечают числовые характеристики случайных величин: математическое ожидание и дисперсия. Это своего рода «паспортные данные» случайной величины, сжатая информация, описывающая её суть в двух числах.

    Математическое ожидание: Центр тяжести

    Математическое ожидание (часто обозначается как в русской литературе или от англ. Expected value) — это среднее значение случайной величины, если бы мы повторяли эксперимент бесконечное количество раз.

    Интуитивно это можно представить как «центр тяжести» распределения. Если вы вырежете график плотности вероятности из картона и попытаетесь удержать его на пальце, точка равновесия и будет математическим ожиданием.

    Для дискретных случайных величин

    Если случайная величина принимает значения с вероятностями , то математическое ожидание вычисляется как сумма произведений всех возможных значений на их вероятности.

    Где: * — математическое ожидание случайной величины . * — возможное значение случайной величины. * — вероятность появления этого значения. * — знак суммирования по всем возможным исходам.

    Пример: Лотерея Представьте лотерею. Билет стоит 100 рублей. В лотерее разыгрывается: * 1 приз в 10 000 рублей (вероятность 0.001). * 10 призов по 1 000 рублей (вероятность 0.01). * Остальные билеты без выигрыша (вероятность 0.989).

    Чему равен средний выигрыш на один билет (без учета его стоимости)?

    Где: * — суммы выигрышей (). * — соответствующие вероятности ().

    Это значит, что в среднем каждый билет приносит 20 рублей выигрыша. Если билет стоит 100 рублей, то «средний» убыток игрока составляет 80 рублей с каждого билета. Математическое ожидание здесь показывает реальную «ценность» игры.

    Для непрерывных случайных величин

    Для непрерывных величин вместо суммы используется интеграл, а вместо вероятностей конкретных значений — плотность вероятности .

    Где: * — интеграл по всей числовой прямой. * — значение случайной величины. * — функция плотности вероятности. * — дифференциал переменной интегрирования.

    !Визуализация физического смысла математического ожидания как центра масс системы.

    Свойства математического ожидания

    Математическое ожидание обладает свойствами, которые делают вычисления проще:

  • Математическое ожидание постоянной величины равно самой постоянной.
  • Где — константа. Если вы всегда получаете 5 рублей, то и в среднем вы получаете 5 рублей.

  • Постоянный множитель можно выносить за знак ожидания.
  • Где — постоянное число. Если все призы в лотерее удвоить, средний выигрыш тоже удвоится.

  • Математическое ожидание суммы равно сумме математических ожиданий.
  • Где и — две случайные величины. Средний доход семьи равен среднему доходу мужа плюс средний доход жены.

    Дисперсия: Мера риска

    Знание среднего значения не всегда достаточно. Рассмотрим пример с двумя стрелками.

    * Стрелок А выбивает: 49, 50, 51 очко. Среднее — 50. * Стрелок Б выбивает: 0, 50, 100 очков. Среднее — тоже 50.

    Математические ожидания у них одинаковые (), но качество стрельбы совершенно разное. Стрелок А стабилен, а результаты Стрелка Б имеют огромный разброс. Чтобы измерить этот разброс, используется дисперсия.

    Дисперсия (обозначается или ) показывает, насколько сильно значения случайной величины отклоняются от её среднего значения.

    Определение дисперсии

    Дисперсия — это математическое ожидание квадрата отклонения случайной величины от её математического ожидания.

    Где: * — дисперсия. * — случайная величина. * — математическое ожидание этой величины. * — квадрат отклонения значения от среднего.

    Почему квадрат? Потому что отклонения могут быть как положительными, так и отрицательными (например, и ). Если их просто сложить, они уничтожат друг друга и дадут ноль. Возведение в квадрат делает все отклонения положительными и придает больший вес сильным отклонениям.

    Формула для вычислений

    На практике использовать определение неудобно. Гораздо проще применять следующую формулу:

    Где: * — математическое ожидание квадрата случайной величины (среднее значение квадратов). * — квадрат математического ожидания (квадрат среднего значения).

    Вернемся к примеру со стрелками: Пусть для простоты вероятности всех исходов равны .

    Стрелок А (49, 50, 51):

  • .
  • Квадраты значений: , , .
  • .
  • Стрелок Б (0, 50, 100):

  • .
  • Квадраты значений: , , .
  • .
  • Дисперсия второго стрелка в тысячи раз больше! Это математическое подтверждение того, что он нестабилен.

    !Сравнение распределений с одинаковым математическим ожиданием, но разной дисперсией.

    Свойства дисперсии

  • Дисперсия постоянной величины равна нулю.
  • Где — константа. У постоянной величины нет разброса, она не меняется.

  • Постоянный множитель выносится за знак дисперсии в квадрате.
  • Где — число. Это важное свойство: если увеличить масштаб данных в 2 раза, дисперсия (разброс) увеличится в 4 раза.

  • Дисперсия суммы независимых величин равна сумме их дисперсий.
  • Где и — независимые случайные величины. Обратите внимание: дисперсии всегда складываются, даже если величины вычитаются (), так как неопределенность при вычитании только растет.

    Среднеквадратическое отклонение

    У дисперсии есть один недостаток: она имеет «квадратную» размерность. Если измеряется в метрах, то — в квадратных метрах. Если — в рублях, то — в «квадратных рублях», что не имеет физического смысла.

    Чтобы вернуть размерность к исходной, из дисперсии извлекают квадратный корень. Эта величина называется среднеквадратическим отклонением (или стандартным отклонением) и обозначается буквой (сигма).

    Где: * — среднеквадратическое отклонение. * — квадратный корень из дисперсии.

    В примере со стрелком Б дисперсия была . Тогда . Это означает, что в среднем его выстрелы отклоняются от центра на 40.8 очков. Это число уже легко интерпретировать.

    Заключение

    Теперь в вашем арсенале есть два мощных инструмента:

  • Математическое ожидание — показывает, чего ждать от случайности в среднем (центр).
  • Дисперсия и стандартное отклонение — показывают меру риска, ошибки или разброса данных вокруг центра.
  • Эти понятия лежат в основе всей статистики. В следующий раз мы применим их для изучения самого известного закона природы — Нормального распределения, где играет ключевую роль, определяя правило «трех сигм».

    4. Предельные теоремы теории вероятностей и закон больших чисел

    Предельные теоремы теории вероятностей и закон больших чисел

    Мы прошли долгий путь от простых подбрасываний монетки до понимания того, как измерять средние значения и риски. В прошлой статье мы узнали, что такое математическое ожидание (центр распределения) и дисперсия (мера разброса).

    Но у вас мог возникнуть вопрос: «А почему мы вообще уверены, что вероятность работает?»

    Почему мы говорим, что вероятность выпадения орла — 0.5, если при двух бросках могут выпасть два орла подряд? Почему казино всегда в выигрыше, хотя каждый отдельный игрок может сорвать джекпот? Почему страховые компании не разоряются, выплачивая огромные страховки?

    Ответ кроется в магии больших чисел. Сегодня мы изучим фундамент всей статистики — Закон больших чисел и Центральную предельную теорему. Эти законы объясняют, как из хаоса случайных событий рождается строгий порядок.

    Неравенство Чебышёва

    Прежде чем перейти к великим законам, нам нужен инструмент для оценки вероятностей. Этим инструментом является неравенство, доказанное великим русским математиком Пафнутием Львовичем Чебышёвым.

    Представьте, что вы знаете средний рост людей (математическое ожидание) и то, насколько сильно рост варьируется (дисперсию). Неравенство Чебышёва позволяет оценить, какова вероятность встретить человека, чей рост сильно отличается от среднего, даже если мы не знаем точного закона распределения.

    Суть неравенства: Вероятность того, что случайная величина отклонится от своего математического ожидания больше чем на заданную величину, ограничена.

    Формула неравенства Чебышёва:

    Где: * — вероятность события. * — знак модуля (абсолютной величины). * — случайная величина. * — математическое ожидание случайной величины . * — знак «больше или равно». * (эпсилон) — заданное положительное число (величина отклонения). * — знак «меньше или равно». * — дисперсия случайной величины . * — квадрат величины отклонения.

    Что это значит на практике? Если дисперсия мала (разброс маленький), то вероятность большого отклонения очень низкая. Если дисперсия велика, то и сюрпризы более вероятны. Это неравенство универсально и работает для любых случайных величин.

    Закон больших чисел (ЗБЧ)

    Закон больших чисел — это не одна теорема, а группа теорем, которые утверждают один и тот же принцип: при очень большом числе испытаний средний результат перестает быть случайным.

    Теорема Бернулли

    Это простейшая форма ЗБЧ. Вернемся к монетке. Если вы подбросите её 10 раз, может выпасть 7 орлов (частота 0.7). Это далеко от вероятности 0.5. Но если вы подбросите её 10 000 раз, частота выпадения орла будет очень близка к 0.5.

    Теорема гласит: при неограниченном увеличении числа испытаний , относительная частота события сходится к его вероятности.

    !График, показывающий стабилизацию частоты выпадения орла при увеличении числа бросков

    Теорема Чебышёва

    Это обобщение закона на случайные величины. Представьте, что мы измеряем какую-то величину много раз (например, взвешиваем детали на заводе) и считаем среднее арифметическое этих измерений.

    Пусть — независимые случайные величины с одинаковым математическим ожиданием и ограниченной дисперсией. Тогда:

    Где: * — предел при стремлении количества испытаний к бесконечности. * — вероятность события. * — знак модуля. * — сумма значений случайных величин в испытаниях. * — количество испытаний. * — среднее арифметическое наблюдаемых значений. * — теоретическое математическое ожидание (истинное среднее). * — сколь угодно малое положительное число. * — единица, означающая достоверное событие (100% вероятность).

    Простыми словами: Среднее арифметическое результатов большого числа опытов практически наверняка равно теоретическому среднему значению. Случайные отклонения отдельных измерений в одну и в другую сторону взаимно гасят друг друга.

    Практическое значение ЗБЧ

  • Страхование: Страховая компания не знает, попадет ли в аварию конкретный Иван Иванович. Но благодаря ЗБЧ она точно знает, какой процент из 100 000 клиентов попадет в аварию. Это позволяет рассчитать стоимость полиса так, чтобы покрыть убытки и получить прибыль.
  • Казино: В рулетке есть сектор «Зеро». Это создает небольшое преимущество казино (математическое ожидание выигрыша игрока отрицательное). Один игрок может выиграть миллион, но если игроков тысячи, казино гарантированно получит свою прибыль, равную математическому ожиданию.
  • Измерения: Чтобы узнать точный вес предмета, физики взвешивают его много раз и берут среднее. Ошибки приборов (случайные величины) усредняются и исчезают.
  • Центральная предельная теорема (ЦПТ)

    Если Закон больших чисел говорит нам, куда стремится среднее значение (к математическому ожиданию), то Центральная предельная теорема говорит нам, как распределяются отклонения от этого среднего.

    Это, пожалуй, самая красивая теорема в теории вероятностей. Она утверждает: сумма достаточно большого количества независимых случайных величин имеет распределение, близкое к нормальному (Гауссовскому), независимо от того, как были распределены сами эти величины.

    Представьте, что вы бросаете игральный кубик. Распределение равномерное (все грани равновероятны). Но если вы бросите 100 кубиков и сложите очки, то сумма очков будет распределена уже не равномерно, а по «колоколу» нормального распределения!

    !Схематичное изображение Доски Гальтона, демонстрирующее формирование нормального распределения из множества случайных отскоков

    Формулировка (Теорема Ляпунова)

    Если — независимые случайные величины, у которых есть математическое ожидание и дисперсия , то закон распределения их суммы при неограниченном росте приближается к нормальному закону.

    Математически это записывается через функцию стандартного нормального распределения :

    Где: * — предел при стремящемся к бесконечности. * — вероятность. * — сумма случайных величин. * — математическое ожидание всей суммы (так как ожидание суммы равно сумме ожиданий). * — стандартное отклонение всей суммы (корень из дисперсии суммы). * — стандартизированная случайная величина (центрированная и нормированная). * — некоторое число. * — функция распределения стандартного нормального закона.

    Почему ЦПТ так важна?

    Она объясняет, почему нормальное распределение встречается в природе повсюду.

    * Почему рост людей распределен нормально? * Почему ошибки измерения распределены нормально? * Почему отклонения снаряда от цели распределены нормально?

    Потому что любой такой параметр — это результат воздействия огромного количества мелких независимых факторов.

    Например, на рост человека влияют: гены (тысячи их), питание в детстве, климат, болезни, спорт, сон и т.д. Каждый фактор вносит свой маленький вклад (плюс или минус). Сумма этих миллионов маленьких случайных величин, согласно ЦПТ, дает нормальное распределение.

    Итоги

    Мы рассмотрели два столпа теории вероятностей:

  • Закон больших чисел (ЗБЧ): Утверждает, что при большом количестве испытаний среднее значение стабилизируется и стремится к теоретическому математическому ожиданию. Хаос превращается в порядок.
  • Центральная предельная теорема (ЦПТ): Утверждает, что сумма многих случайных факторов всегда стремится к нормальному распределению (колоколу), какими бы ни были эти факторы по отдельности.
  • Эти теоремы позволяют нам переходить от теории вероятностей к математической статистике. Ведь в реальности мы часто не знаем истинных вероятностей, но у нас есть данные наблюдений. ЗБЧ и ЦПТ позволяют нам по этим данным восстанавливать истинные законы природы.

    В следующем разделе курса мы начнем изучать основы математической статистики: генеральную совокупность и выборку.

    5. Введение в математическую статистику: точечные оценки и проверка гипотез

    Введение в математическую статистику: точечные оценки и проверка гипотез

    До этого момента мы занимались теорией вероятностей. Мы жили в идеальном мире, где нам заранее были известны все правила игры: мы знали, что монета честная (), что в колоде 36 карт, а распределение роста людей подчиняется нормальному закону с известными параметрами.

    Но реальный мир устроен иначе. Природа не дает нам инструкций. Когда вы берете монету, вы не знаете, честная она или нет. Когда вы запускаете рекламную кампанию, вы не знаете истинную вероятность клика (CTR). Когда вы тестируете лекарство, вы не знаете наверняка, помогает оно или нет.

    Здесь на сцену выходит математическая статистика. Это наука о том, как на основе ограниченных данных (наблюдений) делать выводы о скрытых законах природы. Если теория вероятностей — это дедукция (от общего правила к частным исходам), то статистика — это индукция (от частных наблюдений к общему правилу).

    Генеральная совокупность и выборка

    Представьте, что вы сварили огромную кастрюлю супа и хотите узнать, достаточно ли он соленый. Вы не будете съедать весь суп (это долго и бессмысленно). Вы перемешаете его, зачерпнете одну ложку и попробуете.

    В этом примере: * Генеральная совокупность — это весь суп в кастрюле (все возможные объекты, которые мы хотим изучить). * Выборка — это ложка супа (часть объектов, которую мы реально наблюдаем и измеряем).

    Главная цель статистики — по вкусу одной ложки (выборки) сделать правильный вывод о вкусе всего супа (генеральной совокупности).

    !Иллюстрация отношения генеральной совокупности и выборки.

    Чтобы вывод был верным, выборка должна быть репрезентативной — то есть правильно отражать свойства генеральной совокупности. Если вы зачерпнете суп только сверху (где жир) или только снизу (где гуща), вы ошибетесь. Поэтому в статистике так важен принцип случайности отбора.

    Точечные оценки параметров

    Допустим, нас интересует средний рост всех жителей города (параметр генеральной совокупности). Измерить всех миллион жителей невозможно. Мы измерили 1000 случайных прохожих.

    Как нам назвать одно конкретное число, которое будет наилучшим приближением к истинному среднему? Это число называется точечной оценкой.

    Оценка математического ожидания

    Самой естественной оценкой для истинного среднего (математического ожидания) является выборочное среднее. Оно обозначается как (читается «икс с чертой»).

    Где: * — выборочное среднее (наша оценка). * — объем выборки (количество наблюдений). * — знак суммирования по всем элементам выборки. * — значение -го элемента выборки.

    Проще говоря, мы складываем все полученные значения и делим на их количество. Согласно Закону больших чисел (который мы изучили в прошлой статье), при увеличении эта оценка будет стремиться к истинному значению.

    Оценка дисперсии

    С дисперсией (мерой разброса) все немного сложнее. Казалось бы, нужно просто посчитать средний квадрат отклонения от выборочного среднего. Но тут кроется подвох.

    Если мы используем обычную формулу, наша оценка будет систематически занижать реальный разброс. Чтобы исправить это, в знаменателе используют не , а . Такая оценка называется исправленной выборочной дисперсией ().

    Где: * — исправленная выборочная дисперсия. * — число степеней свободы (корректирующий множитель). * — значение -го элемента. * — выборочное среднее.

    Требования к оценкам

    Чтобы оценка была качественной, она должна обладать тремя свойствами:

  • Несмещенность: Математическое ожидание оценки должно быть равно истинному значению параметра. То есть, при многократном повторении эксперимента мы в среднем должны попадать «в яблочко», а не систематически мазать влево или вправо.
  • Состоятельность: При увеличении объема выборки () оценка должна стремиться к истинному значению (вероятность ошибки должна стремиться к нулю).
  • Эффективность: Среди всех возможных несмещенных оценок мы выбираем ту, у которой самая маленькая дисперсия (меньше разброс).
  • !Визуализация свойств статистических оценок на примере стрельбы по мишени.

    Проверка статистических гипотез

    Оценка параметра — это только полдела. Часто нам нужно не просто число, а ответ «Да» или «Нет». * Правда ли, что новый дизайн сайта повысил продажи? * Отличается ли средний вес детали от норматива?

    Для этого используется проверка статистических гипотез. Это процедура, похожая на судебный процесс.

    Нулевая и альтернативная гипотезы

    В суде действует презумпция невиновности. Пока вина не доказана, подсудимый считается невиновным. В статистике аналогом презумпции невиновности является Нулевая гипотеза ().

    * (Нулевая гипотеза): Это гипотеза об отсутствии эффекта, различий или изменений. «Монета честная», «Лекарство не работает», «Разницы между группами нет». * (Альтернативная гипотеза): Это то, что мы хотим доказать. «Монета нечестная», «Лекарство эффективно», «Разница есть».

    Мы никогда не можем «доказать» . Мы можем либо отвергнуть её в пользу , либо не отвергнуть (сказать, что у нас недостаточно улик, чтобы считать её ложной).

    Ошибки первого и второго рода

    Поскольку мы работаем со случайными данными, всегда есть риск ошибки. Эти ошибки бывают двух типов:

    | Ситуация в реальности | Мы приняли (Невиновен) | Мы отвергли (Виновен) | | :--- | :--- | :--- | | верна (На самом деле невиновен) | Правильное решение | Ошибка I рода (Ложная тревога) | | неверна (На самом деле виновен) | Ошибка II рода (Пропуск цели) | Правильное решение |

  • Ошибка первого рода: Отвергнуть правильную нулевую гипотезу. Например, сказать, что лекарство работает, когда на самом деле это пустышка. Вероятность этой ошибки обозначают (альфа).
  • Ошибка второго рода: Принять неверную нулевую гипотезу. Например, сказать, что лекарство не работает, хотя оно на самом деле эффективно. Вероятность этой ошибки обозначают (бета).
  • Уровень значимости

    Вероятность ошибки первого рода , которую мы готовы допустить, называется уровнем значимости. Обычно его устанавливают заранее, чаще всего (5%) или (1%).

    Если мы выбираем , это значит: «Мы готовы рискнуть и в 5% случаев ошибочно найти закономерность там, где её нет, ради того, чтобы не пропустить реальные открытия».

    Алгоритм проверки гипотезы

  • Сформулировать и .
  • Выбрать уровень значимости .
  • Выбрать статистический критерий (формулу, по которой будем считать).
  • Посчитать значение критерия по выборке.
  • Сравнить полученное значение с критическим (табличным).
  • * Если значение попало в критическую область (маловероятную для ) — отвергаем . * Если не попало — нет оснований отвергать .

    !Иллюстрация критической области при проверке гипотез.

    Заключение

    Сегодня мы сделали первый шаг в мир статистики. Мы узнали, что: * Выборка — это наш инструмент познания генеральной совокупности. * Точечные оценки (как среднее и дисперсия) помогают нам угадывать параметры целого по его части. * Проверка гипотез — это строгий метод принятия решений в условиях неопределенности, где мы балансируем между риском ложной тревоги (Ошибка I рода) и риском пропуска цели (Ошибка II рода).

    В следующих статьях мы разберем конкретные методы проверки гипотез, такие как t-критерий Стьюдента, который позволяет сравнивать средние значения двух небольших выборок.