Метод квантилей в математической статистике

1. Введение в квантили и эмпирическую функцию распределения

Введение в квантили и эмпирическую функцию распределения

Представьте, что вы анализируете время доставки заказов в интернет-магазине. Вы собрали данные за месяц и вычислили среднее арифметическое — получилось 2 дня. Звучит отлично! Но когда вы открываете отзывы, то видите десятки разгневанных комментариев от клиентов, которые ждали свои посылки по две недели. Как такое возможно, если среднее время доставки составляет всего 48 часов?

Проблема заключается в том, что среднее арифметическое крайне чувствительно к выбросам — нетипичным, экстремальным значениям в данных. Если 99 заказов доставили за 1 день, а один заказ потерялся и ехал 100 дней, среднее время составит почти 2 дня. Но эта цифра не отражает реальный пользовательский опыт большинства клиентов.

Чтобы получить более объективную картину того, как распределены данные, в математической статистике используется метод квантилей. В этой статье мы разберем базовые понятия этого метода: что такое квантили, какими они бывают и как строится эмпирическая функция распределения.

Что такое квантиль?

Квантиль — это значение, которое делит упорядоченный набор данных на две части в определенной пропорции. Говоря простым языком, квантиль показывает, ниже какого значения находится заданный процент наблюдений.

> Квантиль порядка (где — число от 0 до 1) — это такое число, что доля всех значений выборки меньше или равна этому числу, а оставшаяся доля — больше или равна ему. > > Основы математической статистики

Чтобы найти квантиль на практике, данные обязательно нужно отсортировать по возрастанию.

Рассмотрим пример с зарплатами в небольшом отделе из 5 человек. Их доходы составляют: 40 000 руб., 45 000 руб., 50 000 руб., 60 000 руб. и 200 000 руб. (зарплата начальника).

Если мы хотим найти значение, ниже которого зарабатывает ровно половина сотрудников (то есть ), мы берем число, стоящее ровно посередине отсортированного списка. Это 50 000 руб. Половина сотрудников зарабатывает меньше или столько же, половина — больше. Это значение называется медианой.

Основные виды квантилей

В зависимости от того, на сколько частей мы делим наши данные, квантили получают специальные названия. Для удобства они представлены в таблице ниже.

| Название | Обозначение | Доля данных () | Описание | |---|---|---|---| | Медиана | | 0.50 | Делит отсортированную выборку ровно пополам. | | Квартили | | 0.25, 0.50, 0.75 | Делят данные на четыре равные части (четверти). | | Децили | | 0.10, 0.20 ... 0.90 | Делят данные на десять равных частей. | | Перцентили | | 0.01, 0.02 ... 0.99 | Делят данные на сто равных частей (проценты). |

Обратите внимание, что медиана (), второй квартиль (), пятый дециль () и пятидесятый перцентиль () — это абсолютно одно и то же число для любого набора данных.

Перцентили невероятно популярны в бизнесе и IT. Например, когда провайдер облачных услуг гарантирует скорость ответа сервера, он использует 99-й перцентиль (). Если миллисекунд, это означает, что 99% всех запросов обрабатываются за 200 мс или быстрее, и лишь 1% пользователей сталкивается с более долгим ожиданием.

Математическое определение квантиля

Чтобы двигаться дальше, нам нужно перевести словесное описание на язык математики. В теории вероятностей распределение случайной величины описывается с помощью функции распределения.

Теоретическая функция распределения обозначается как и показывает вероятность того, что случайная величина примет значение, меньшее или равное заданному числу :

Где: * — значение функции распределения в точке . * — вероятность наступления события. * — случайная величина (например, время доставки). * — конкретное числовое значение.

Следовательно, теоретический квантиль порядка (обозначим его как ) — это решение уравнения:

Где: * — функция распределения. * — искомый квантиль. * — заданная вероятность (от 0 до 1).

От теории к практике: Эмпирическая функция распределения

Теоретическая функция существует в идеальном математическом мире, где мы знаем истинные вероятности всех событий. Но в реальности у нас есть только ограниченный набор данных — выборка.

Чтобы оценить теоретическое распределение на основе реальных данных, статистики используют эмпирическую функцию распределения (ЭФР). Слово «эмпирическая» означает «полученная опытным путем».

Эмпирическая функция распределения показывает долю элементов в нашей выборке, которые меньше или равны заданному значению . Математически это записывается так:

Разберем каждый элемент этой формулы: * — значение эмпирической функции в точке . «Крышечка» над в статистике означает, что это оценка, построенная по данным, а индекс указывает на размер выборки. * — общее количество наблюдений в выборке. * — знак суммы. Означает, что мы должны сложить значения для всех элементов от первого () до последнего (). * — индикаторная функция. Она работает как переключатель: равна 1, если условие в скобках истинно (конкретное значение меньше или равно ), и равна 0, если условие ложно.

По сути, эта сложная на вид формула говорит простую вещь: «Посчитай, сколько чисел в твоем списке меньше или равны , и раздели это количество на общее число элементов».

Пошаговый пример построения ЭФР

Давайте построим эмпирическую функцию распределения вручную. Представим, что мы измерили время (в минутах), которое 5 покупателей провели в очереди на кассу: 2, 5, 3, 5, 8.

Шаг 1. Сортировка данных. Упорядочим значения по возрастанию: 2, 3, 5, 5, 8. Размер выборки .

Шаг 2. Вычисление доли для каждого уникального значения. Каждое наблюдение дает вклад в функцию, равный , то есть (или 20%).

Шаг 3. Расчет значений функции для разных . * Возьмем . Сколько чисел в списке ? Ни одного. Значит, . * Возьмем . Одно число (двойка) . Значит, . * Возьмем . Два числа (2 и 3) . Значит, . * Возьмем . Четыре числа (2, 3, 5, 5) . Значит, . * Возьмем . Все пять чисел . Значит, .

Если мы нарисуем график этой функции, он будет выглядеть как лестница. Функция начинается с нуля слева, идет горизонтально, а затем совершает «прыжок» вверх в каждой точке, где есть данные из нашей выборки. Высота прыжка зависит от того, сколько раз встретилось это значение.

!Интерактивный график эмпирической функции распределения

В нашем примере в точке функция прыгнула сразу на 0.4 (с 0.4 до 0.8), потому что значение «5» встретилось в выборке дважды.

Связь между ЭФР и квантилями

Эмпирическая функция распределения и квантили — это две стороны одной медали.

Когда мы используем ЭФР, мы задаем вопрос: «Какая доля данных находится ниже значения ?» (мы знаем , ищем ). Когда мы ищем квантиль, мы задаем обратный вопрос: «Ниже какого значения находится заданная доля данных ?» (мы знаем , ищем ).

Графически поиск квантиля по графику ЭФР выглядит так:

На вертикальной оси (где отложены вероятности от 0 до 1) мы находим нужное нам значение (например, 0.5 для медианы).

Проводим от этой точки горизонтальную линию вправо, пока она не пересечет нашу «лестницу» (график ЭФР).

Из точки пересечения опускаем вертикальную линию вниз, на горизонтальную ось.

Значение на горизонтальной оси и будет нашим квантилем.

!Схема нахождения квантилей по графику ЭФР

Поскольку график ЭФР ступенчатый, горизонтальная линия может пересечь его не в одной точке, а совпасть с целой горизонтальной «ступенькой». В таких случаях в математической статистике существуют специальные правила интерполяции для точного расчета квантиля, но базовая логика остается неизменной.

Понимание эмпирической функции распределения открывает двери к более сложным методам анализа данных. В отличие от среднего арифметического, которое сжимает всю информацию в одно число (часто искаженное выбросами), ЭФР сохраняет всю информацию о выборке. А квантили позволяют извлекать из этой функции именно те срезы данных, которые критически важны для принятия решений — будь то оценка рисков, анализ производительности систем или изучение доходов населения.