Статистика и вероятность: данные, распределения, случайность
Эта статья расширяет курс Математика: основы и применение в сторону работы с данными и неопределённостью. Раньше мы:
считали и преобразовывали числа (арифметика);
записывали и решали уравнения (алгебра);
рассматривали зависимости и графики (функции);
измеряли величины и работали с формулами (геометрия и тригонометрия);
говорили об изменении и скорости (элементы анализа).Теперь добавим два взаимосвязанных инструмента:
статистика помогает описать данные и сделать выводы;
вероятность помогает моделировать случайность и оценивать риски.Справочно: Статистика, Теория вероятностей.
Данные: что именно мы измеряем
Данные — это результаты наблюдений или измерений: цены, рост людей, время доставки, ответы в опросе.
Типы данных
Числовые (количественные): можно складывать, находить среднее (например, масса, время).
Категориальные (качественные): значения — это категории (например, цвет, тариф, город).Числовые данные часто делят ещё на:
Дискретные: принимают отдельные значения (например, число ошибок за день).
Непрерывные: могут принимать любые значения в диапазоне (например, длина).Генеральная совокупность и выборка
В реальности мы редко можем измерить всё.
Генеральная совокупность — все объекты, которые нас интересуют (например, все пользователи сервиса).
Выборка — часть объектов, по которым есть данные (например, 2000 пользователей, случайно выбранных).Важно: выводы надёжнее, когда выборка репрезентативна, то есть похожа на совокупность по ключевым признакам.
Описательная статистика: как “сжать” данные в несколько чисел
Обычно нас интересуют две группы характеристик:
центр данных (типичное значение);
разброс данных (насколько значения различаются).Среднее, медиана, мода
Пусть есть числовые значения .
#### Среднее арифметическое
Пояснение элементов:
— среднее значение;
— наблюдения (каждое измеренное значение);
— количество наблюдений;
дробь означает: “сумму всех значений разделить на их количество”.Среднее полезно, но чувствительно к выбросам. Если один сотрудник получил очень большую премию, среднее может сильно вырасти, хотя “типичная” премия почти не изменилась.
#### Медиана
Медиана — значение “посередине”, если отсортировать данные.
если нечётное — медиана это центральный элемент;
если чётное — медиана это среднее двух центральных.Медиана устойчивее к выбросам и часто лучше отражает “типичность” в данных о доходах, ценах и времени.
#### Мода
Мода — значение, которое встречается чаще всего.
для категориальных данных мода часто является главной характеристикой;
для числовых данных мода особенно полезна, если значения повторяются (например, типовые тарифы).Разброс: размах, дисперсия, стандартное отклонение
#### Размах
Размах — это , то есть “самое большое минус самое маленькое”.
Размах очень простой, но сильно зависит от крайних значений.
#### Дисперсия и стандартное отклонение
Чтобы оценить типичный масштаб отклонений от среднего, используют дисперсию.
Пояснение элементов:
— дисперсия (средний квадрат отклонений);
— отклонение -го значения от среднего;
— квадрат отклонения (чтобы отрицательные и положительные отклонения не взаимно уничтожались);
деление на означает “усредняем по всем наблюдениям”.Так как дисперсия измеряется в “квадратных единицах” (например, м), часто используют стандартное отклонение:
Пояснение элементов:
— стандартное отклонение;
— квадратный корень;
это возвращает величину к исходным единицам измерения (например, обратно к метрам).Справочно: Дисперсия, Среднеквадратическое отклонение.
Визуализация данных: как увидеть структуру
Числа полезно дополнять графиками.
Столбчатая диаграмма — для категорий.
Гистограмма — для распределения числовых данных.
Диаграмма рассеяния — для связи двух числовых величин.!Гистограмма показывает распределение, а кривая помогает сравнить его с “колоколом”
Распределение: что значит “данные ведут себя так-то”
Распределение описывает, как часто встречаются разные значения.
Интуитивно это отвечает на вопросы:
какие значения встречаются чаще;
симметричны ли данные;
есть ли “длинный хвост” больших значений;
есть ли несколько “пиков” (например, два разных типа клиентов).Нормальное распределение (идея)
Одно из самых известных распределений — нормальное: оно похоже на симметричный “колокол”.
центр “колокола” соответствует типичным значениям;
стандартное отклонение связано с шириной “колокола”: больше — шире разброс.Справочно: Нормальное распределение.
Важно: не все данные “нормальны”. Например, доходы часто имеют сильную асимметрию: много средних значений и немного очень больших.
Случайность и вероятность: как говорить о неопределённости
Событие и вероятность
Случайный опыт — действие с непредсказуемым результатом (бросок монеты).
Исход — конкретный результат (выпал орёл).
Событие — набор исходов (выпал орёл или выпала шестёрка).Вероятность события обозначают как .
В простейшей модели “все исходы равновозможны” (например, честный кубик), вероятность можно считать как долю исходов:
Пояснение элементов:
— вероятность события ;
— число благоприятных исходов (которые соответствуют событию );
— общее число равновозможных исходов;
дробь означает “какая часть исходов нам подходит”.Пример: вероятность вытащить красный шар из мешка, где 3 красных и 2 синих.
всего шаров ;
благоприятных ;
значит .Здесь мы явно используем темы арифметики и процентов.
Дополнение события
Если событие — “пошёл дождь”, то дополнение — “дождя нет”.
Тогда удобно помнить правило:
Пояснение:
означает “100% всех возможностей”;
если часть ушла на событие , то остальная часть — на “не ”.Независимость и условная вероятность
Иногда события влияют друг на друга.
Независимые события: одно не меняет вероятность другого (идеализированно: два броска монеты).
Зависимые события: информация о втором событии меняет оценку первого (вытаскиваем карты без возвращения).Условная вероятность события при условии, что произошло , записывается как .
Основная формула:
Пояснение элементов:
— вероятность , если мы знаем, что произошло;
— событие “произошли и , и одновременно”;
— вероятность совместного наступления;
— вероятность условия (и важно, что , иначе деление невозможно).!B) = P(A∩B)/P(B) | Пересечение A∩B — это то, что “остаётся” при одновременном выполнении A и B
Математическое ожидание: средний результат в долгой серии
Если случайная величина принимает значения с вероятностями , то математическое ожидание (среднее “в долгой серии”) равно:
Пояснение элементов:
— математическое ожидание случайной величины ;
— возможные значения результата;
— вероятность получить значение ;
сумма означает “взвешенное среднее”: более вероятные значения сильнее влияют на итог.Справочно: Математическое ожидание.
Пример (честная монета):
выигрыш , если орёл, и , если решка;
вероятности по .Тогда .
Это не означает, что “каждый раз будет 0,5”. Это означает, что в длинной серии доля орлов стремится к 0,5.
Почему статистика и вероятность связаны
Вероятность даёт модель, а статистика помогает проверять её по данным.
Закон больших чисел (интуиция)
Если повторять опыт много раз, то относительная частота события обычно приближается к его вероятности.
Это идея закона больших чисел.
Справочно: Закон больших чисел.
Практический смысл: одна короткая серия может “шуметь”, но большие выборки дают более стабильные оценки.
Связь двух величин: корреляция и осторожность с выводами
Когда есть две числовые величины (например, время подготовки и результат теста), часто строят диаграмму рассеяния.
Корреляция показывает, есть ли тенденция “больше–больше” или “больше–меньше”.
Но корреляция сама по себе не доказывает причинность: две величины могут расти из-за третьей причины.Справочно: Корреляция.
!Точки могут показывать связь, но объяснение причин требует дополнительного анализа
Частые ошибки
Путать среднее и медиану в данных с выбросами.
Считать, что вероятность в реальной задаче всегда вычисляется как “благоприятные делить на все”. Это верно только при равновозможных исходах.
Делать вывод “это причина” только по корреляции.
Игнорировать размер выборки: оценка по 20 наблюдениям обычно менее надёжна, чем по 2000.Итоги
Статистика помогает описывать данные через центр (среднее, медиана, мода) и разброс (размах, дисперсия, стандартное отклонение).
Распределение показывает, как часто встречаются значения; гистограмма помогает его увидеть.
Вероятность формализует случайность через события и величины .
Условная вероятность нужна, когда информация о меняет оценку .
Математическое ожидание — это “средний результат в долгой серии”, полезный для оценки выигрышей, рисков и планирования.