Основы высшей математики и статистики

Комплексный курс, объединяющий ключевые элементы математического анализа, линейной алгебры, теории вероятностей и методов статистической обработки данных для решения прикладных задач.

1. Введение в высшую математику: линейная алгебра и основы математического анализа

Введение в высшую математику: линейная алгебра и основы математического анализа

Добро пожаловать в курс «Основы высшей математики и статистики». Это первая статья, и наша цель сегодня — заложить фундамент, на котором будет строиться всё дальнейшее понимание анализа данных, машинного обучения, экономики и инженерных наук.

Многие считают высшую математику набором абстрактных формул, оторванных от реальности. Однако на самом деле это набор мощнейших инструментов для описания окружающего мира. Линейная алгебра помогает нам структурировать данные, а математический анализ позволяет изучать, как эти данные изменяются.

Зачем нам нужна высшая математика?

Прежде чем погружаться в определения, давайте ответим на вопрос «Зачем?».

* Линейная алгебра — это язык компьютеров. Когда вы смотрите видео, играете в игру или используете нейросеть, компьютер производит миллиарды операций с матрицами и векторами. * Математический анализ — это язык физического мира. Движение планет, колебания курсов валют, распространение эпидемий — всё это процессы, протекающие во времени, которые описываются с помощью производных и интегралов.

В этой статье мы разберем две эти большие области, не углубляясь в сложные доказательства, но фокусируясь на сути понятий.

Часть 1. Линейная алгебра: структура и пространство

Линейная алгебра изучает векторы, векторные пространства, линейные отображения и системы линейных уравнений. Это основа для работы с многомерными данными.

Векторы

В школе вектор часто определяют как «направленный отрезок». В высшей математике и программировании вектор — это упорядоченный набор чисел.

Представьте, что мы описываем квартиру. У неё есть площадь (50 кв.м) и цена (5 млн). Мы можем записать это как вектор:

Где: * — обозначение вектора (часто используется жирный шрифт или стрелочка сверху). * и — компоненты (координаты) вектора.

Геометрически вектор можно представить как стрелку, выходящую из начала координат (точки 0,0) в точку с заданными координатами.

!Графическое представление вектора на плоскости как направленного отрезка.

Операции с векторами

Векторы можно складывать и умножать на число. Это интуитивно понятные операции.

  • Сложение: Если мы складываем два вектора, мы просто складываем их соответствующие компоненты.
  • Масштабирование: Если мы умножаем вектор на число (скаляр), мы растягиваем или сжимаем его.
  • Формула сложения векторов:

    Где: * и — складываемые векторы. * — компоненты первого вектора. * — компоненты второго вектора.

    Матрицы

    Матрица — это прямоугольная таблица чисел. Если вектор — это список, то матрица — это сетка (или таблица Excel без заголовков).

    Пример матрицы размера (2 строки, 3 столбца):

    Где: * — заглавная буква, обозначающая матрицу. * Числа внутри — элементы матрицы.

    Матрицы используются для хранения данных и трансформации векторов. Например, поворот изображения в Photoshop — это умножение матрицы координат пикселей на матрицу поворота.

    Умножение матриц

    Это одна из самых важных операций. Чтобы умножить две матрицы, мы берем строку первой матрицы и «накладываем» её на столбец второй матрицы, перемножая соответствующие элементы и складывая результаты.

    Формула для элемента результирующей матрицы при умножении на :

    Где: * — элемент новой матрицы, стоящий на пересечении -й строки и -го столбца. * — знак суммы (сигма), означающий сложение всех результатов. * — количество элементов в строке первой матрицы (и столбце второй). * — элемент -й строки первой матрицы. * — элемент -го столбца второй матрицы.

    > Важно: Умножать матрицы можно только тогда, когда количество столбцов в первой матрице равно количеству строк во второй.

    Часть 2. Основы математического анализа

    Если линейная алгебра статична (структуры, таблицы), то математический анализ (или просто матан) динамичен. Он изучает функции, пределы, изменения и накопления.

    Функция

    Функция — это правило, которое каждому элементу из одного множества ставит в соответствие ровно один элемент из другого множества. Это «черный ящик»: вы кладете в него число , а он выдает число .

    Где: * — зависимая переменная (значение функции). * — правило (закон) преобразования. * — независимая переменная (аргумент).

    Предел (Limit)

    Понятие предела необходимо для понимания того, как функция ведет себя, когда аргумент стремится к определенному значению, но не обязательно достигает его. Это фундамент для производной.

    Где: * — обозначение предела. * — аргумент бесконечно приближается к числу . * — исследуемая функция. * — число, к которому стремится значение функции.

    Представьте, что вы идете к двери. Вы делаете шаг, сокращая расстояние вдвое. Потом еще шаг — снова вдвое. Вы будете бесконечно приближаться к двери, но математически никогда не коснетесь её, если шаги будут бесконечно дробиться. Предел вашего расстояния равен нулю.

    Производная (Derivative)

    Производная — это скорость изменения функции. Если функция описывает путь автомобиля, то её производная описывает его мгновенную скорость (спидометр).

    Геометрически производная в точке — это тангенс угла наклона касательной к графику функции в этой точке.

    !Касательная к графику функции, демонстрирующая наклон (скорость изменения) в конкретной точке.

    Определение производной через предел:

    Где: * — производная функции в точке (читается «эф штрих от икс»). * — бесконечно малое приращение (изменение) аргумента. * — изменение значения функции. * Дробь показывает отношение изменения функции к изменению аргумента.

    Если производная положительная — функция растет. Если отрицательная — убывает. Если равна нулю — мы нашли точку экстремума (максимум или минимум). Именно так работают алгоритмы обучения нейросетей: они ищут минимум ошибки, используя производные (градиентный спуск).

    Интеграл (Integral)

    Интеграл — это операция, обратная производной. Если производная показывает скорость изменения, то интеграл показывает накопленный результат.

    Геометрический смысл определенного интеграла — это площадь фигуры под графиком функции.

    Где: * — площадь под кривой (значение интеграла). * — знак интеграла (вытянутая буква S от слова Summa). * и — нижний и верхний пределы интегрирования (откуда и до куда считаем). * — подынтегральная функция (высота графика в каждой точке). * — бесконечно малый элемент аргумента (ширина).

    Представьте, что — это ваша скорость в каждый момент времени. Тогда интеграл от до покажет пройденное вами расстояние за этот промежуток времени.

    Связь двух миров

    В современной науке о данных (Data Science) эти две области сливаются воедино.

  • Мы представляем данные как матрицы (линейная алгебра).
  • Мы строим модель (функцию), которая предсказывает результат.
  • Мы вычисляем ошибку модели.
  • Мы используем производные, чтобы минимизировать эту ошибку и обучить модель (математический анализ).
  • Заключение

    Мы кратко рассмотрели основные понятия высшей математики:

    * Векторы и матрицы помогают нам хранить и преобразовывать данные. * Пределы позволяют работать с бесконечно малыми величинами. * Производные показывают скорость изменений и помогают находить оптимальные решения. * Интегралы позволяют суммировать бесконечное количество малых величин.

    В следующих статьях курса мы будем углубляться в каждую из этих тем, разбирая их применение в статистике и теории вероятностей. Не бойтесь формул — за каждой из них стоит простая и логичная идея.

    2. Интегральное исчисление и дифференциальные уравнения

    Интегральное исчисление и дифференциальные уравнения

    В предыдущей статье мы познакомились с производной — инструментом, который показывает мгновенную скорость изменения процесса. Мы научились смотреть на график и понимать, как быстро он растет или падает в конкретной точке. Но что, если задача стоит наоборот? Что, если мы знаем скорость, а хотим узнать пройденный путь? Или если мы знаем, как меняется популяция бактерий, и хотим предсказать их количество через час?

    Здесь на сцену выходят два гиганта математического анализа: интегралы и дифференциальные уравнения. Эти инструменты позволяют нам переходить от мгновенных изменений к глобальным результатам и моделировать сложные процессы реального мира.

    Часть 1. Интеграл: искусство суммирования

    Если производная — это «разрезание» функции на бесконечно малые части для анализа скорости, то интеграл — это «склеивание» этих частей обратно для получения целого. Интеграл — это операция, обратная дифференцированию.

    Неопределенный интеграл

    Представьте, что вы знаете, что скорость автомобиля была постоянной и равной 60 км/ч. Какую функцию расстояния он описывал? Это могло быть (если он стартовал из дома) или (если он был уже в 10 км от дома).

    Процесс нахождения функции по её производной называется интегрированием. Результат этого процесса — неопределенный интеграл.

    Где: — знак интеграла (стилизованная буква S от латинского Summa*). * — подынтегральная функция (та, которую мы интегрируем). * — дифференциал аргумента (указывает, по какой переменной идет интегрирование). * — первообразная (функция, производная которой равна ). * — произвольная постоянная (константа интегрирования).

    Почему появляется ? Потому что производная от любого постоянного числа равна нулю. Если мы восстанавливаем функцию по её скорости, мы не знаем начальную позицию без дополнительных данных. Это семейство функций, сдвинутых вверх или вниз вдоль оси Y.

    Определенный интеграл

    Определенный интеграл имеет конкретный геометрический и физический смысл. Это площадь криволинейной трапеции — фигуры, ограниченной графиком функции, осью X и вертикальными прямыми.

    !Геометрический смысл определенного интеграла как площади под кривой.

    Формула Ньютона-Лейбница связывает определенный интеграл с первообразной:

    Где: * и — нижний и верхний пределы интегрирования (границы отрезка). * — значение первообразной в верхней точке. * — значение первообразной в нижней точке. * Результат вычитания — это число, равное площади под графиком.

    Пример из жизни: Если график показывает скорость загрузки файла из интернета (в мегабайтах в секунду) в зависимости от времени, то площадь под этим графиком (интеграл) покажет общий объем скачанного файла за это время.

    Часть 2. Дифференциальные уравнения: язык природы

    Законы физики, экономики и биологии редко говорят нам напрямую, где будет находиться объект. Обычно они говорят, как он изменяется.

    Дифференциальное уравнение — это уравнение, которое связывает функцию, её аргумент и её производные. Наша задача — найти не число (как в алгебре), а саму функцию.

    Почему это важно?

    Почти все динамические процессы описываются дифференциальными уравнениями:

  • Рост популяции: Скорость размножения кроликов пропорциональна их текущему количеству.
  • Остывание кофе: Скорость остывания пропорциональна разнице температур кофе и комнаты.
  • Эпидемии: Скорость заражения зависит от количества больных и здоровых людей.
  • Простейший пример: Экспоненциальный рост

    Рассмотрим уравнение, описывающее неограниченный рост популяции (модель Мальтуса):

    Где: * — скорость изменения численности популяции со временем (производная). * — коэффициент роста (константа, зависящая от вида организма). * — текущая численность популяции.

    Это уравнение говорит: «Чем нас больше, тем быстрее мы растем». Решением этого уравнения является экспоненциальная функция:

    Где: * — численность в момент времени . * — начальная численность популяции (при ). * — число Эйлера (математическая константа, примерно равна 2.718). * — коэффициент скорости роста.

    !Семейство решений дифференциального уравнения роста популяции при разных коэффициентах роста.

    Часть 3. Связь со статистикой и Data Science

    Может показаться, что интегралы нужны только физикам, но в статистике и машинном обучении они играют ключевую роль.

    Вероятность как площадь

    В теории вероятностей одним из центральных понятий является плотность вероятности. Представьте знаменитый «колокол» нормального распределения (распределение Гаусса).

    Чтобы узнать вероятность того, что случайная величина попадет в диапазон от до (например, вероятность того, что рост прохожего будет от 170 до 180 см), нам нужно вычислить площадь под кривой распределения на этом участке. А площадь — это интеграл.

    Где: * — вероятность того, что событие произойдет в границах от до . * — функция плотности вероятности (форма кривой распределения). * — вычисление площади под кривой на заданном участке.

    Вся статистика строится на идее, что полная площадь под кривой плотности вероятности всегда равна 1 (то есть 100% вероятность, что что-то произойдет).

    Оптимизация моделей

    Когда нейросеть обучается, она решает задачу оптимизации — ищет минимум ошибки. Этот процесс часто описывается на языке дифференциальных уравнений (например, стохастические дифференциальные уравнения в диффузионных моделях, которые генерируют изображения).

    Заключение

    Мы рассмотрели два мощных инструмента:

  • Интеграл позволяет нам суммировать бесконечно малые изменения, чтобы найти общий результат (площадь, объем, пройденный путь, полную вероятность).
  • Дифференциальные уравнения позволяют моделировать системы, которые меняются во времени, описывая законы их развития.
  • В следующей статье мы перейдем к Теории вероятностей, где применим полученные знания об интегралах для понимания случайных событий и распределений.

    3. Базовые понятия теории вероятностей и комбинаторика

    Базовые понятия теории вероятностей и комбинаторика

    В предыдущей статье мы обсуждали интегралы и упомянули, что в статистике они используются для вычисления вероятностей в непрерывных распределениях (площадь под кривой). Однако, прежде чем погружаться в сложные распределения, нам необходимо освоить алфавит, на котором написана наука о случайности.

    Теория вероятностей — это раздел математики, изучающий закономерности в случайных явлениях. Если линейная алгебра дает нам структуру данных, а матан — инструменты анализа изменений, то теория вероятностей позволяет нам количественно оценить неопределенность.

    Часть 1. Что такое вероятность?

    В жизни мы часто используем слова «возможно», «вероятно», «шансы 50 на 50». Математика превращает эти интуитивные ощущения в строгие числа.

    Событие и пространство исходов

    Любой процесс, результат которого мы не можем предсказать заранее, называется случайным экспериментом. Примеры: подбрасывание монеты, вытягивание карты из колоды, измерение температуры завтрашним утром.

    Результат эксперимента называется исходом. Множество всех возможных исходов называется пространством элементарных исходов.

    Событие — это любой факт, который может произойти или не произойти в результате опыта. События обозначаются заглавными латинскими буквами: .

    * Достоверное событие: Произойдет обязательно (выпадение числа меньше 7 на обычной игральной кости). Вероятность равна 1 (или 100%). * Невозможное событие: Не может произойти (выпадение 7 на обычной кости). Вероятность равна 0. * Случайное событие: Может произойти, а может и нет.

    Классическое определение вероятности

    Если у нас есть эксперимент с конечным числом равновозможных исходов (как у идеальной монеты или кубика), то вероятность события вычисляется по формуле:

    Где: — вероятность события (от латинского Probabilitas*). * — количество исходов, благоприятствующих событию . * — общее количество всех возможных исходов.

    Пример: Какова вероятность выбросить четное число на игральной кости?

  • Всего исходов (): 1, 2, 3, 4, 5, 6. Итого .
  • Благоприятные исходы (): 2, 4, 6 (это четные числа). Итого .
  • Считаем: (или 50%).
  • !Визуализация классического определения вероятности на примере игральной кости.

    Часть 2. Комбинаторика: искусство подсчета

    Формула выглядит простой. Но что, если (общее число исходов) огромно? Например, какова вероятность угадать 6 номеров из 49 в лотерее? Перечислять все варианты вручную невозможно. Здесь на помощь приходит комбинаторика — раздел математики, который учит нас считать количество вариантов, не перебирая их.

    Правило умножения

    Это фундаментальный принцип. Если объект можно выбрать способами, а объект — способами, то пару можно выбрать способами.

    Пример: У вас есть 3 рубашки и 2 пары брюк. Сколько разных комплектов одежды можно составить?

    Где: * — общее количество комбинаций. * — количество вариантов выбора первого предмета. * — количество вариантов выбора второго предмета.

    Факториал и перестановки

    Сколькими способами можно расставить 5 разных книг на полке? На первое место мы можем поставить любую из 5 книг. На второе — любую из оставшихся 4. На третье — любую из 3, и так далее.

    Это произведение называется факториалом:

    Где: * — количество перестановок из элементов. * — факториал числа (читается «эн факториал»). * — произведение всех натуральных чисел от 1 до .

    Для 5 книг: способов.

    Сочетания (Combinations)

    Это, пожалуй, самая важная формула для статистики. Она отвечает на вопрос: «Сколькими способами можно выбрать предметов из кучи в предметов, если порядок выбора не важен

    Например, выбор трех делегатов из класса в 20 человек. Нам не важно, кого выбрали первым, а кого вторым, важен только итоговый состав группы.

    Где: * — число сочетаний из по (читается «це из эн по ка»). * — факториал общего числа элементов. * — факториал числа выбираемых элементов. * — факториал числа оставшихся (невыбранных) элементов.

    Пример с лотереей: Нужно угадать 2 числа из 5. Сколько всего вариантов пар чисел существует?

    Всего 10 возможных пар. Если вы купили один билет, ваш шанс выиграть — 1 к 10 ().

    !Различие между упорядоченными наборами (перестановки) и неупорядоченными группами (сочетания).

    Часть 3. Операции над вероятностями

    События редко происходят в изоляции. Обычно нас интересуют сложные конструкции: «произойдет событие А И событие Б» или «произойдет событие А ИЛИ событие Б».

    Сложение вероятностей (ИЛИ)

    Используется, когда нам нужно, чтобы произошло хотя бы одно из событий.

    Если события несовместны (не могут произойти одновременно, например, выпадение «орла» и «решки» за один бросок), то их вероятности просто складываются:

    Где: * — вероятность того, что произойдет или , или . * — вероятность первого события. * — вероятность второго события.

    Умножение вероятностей (И)

    Используется, когда нам нужно, чтобы произошли оба события одновременно (или последовательно).

    Если события независимы (результат первого не влияет на второе, например, бросок двух разных монет), то их вероятности перемножаются:

    Где: * — вероятность совместного наступления событий и . * — вероятность первого события. * — вероятность второго события.

    Пример: Какова вероятность два раза подряд выбросить «орла»? (или 25%).

    Часть 4. Условная вероятность

    В реальном мире события часто зависят друг от друга. Вероятность того, что человек поскользнется (), зависит от того, есть ли на улице гололед ().

    Это записывается как — вероятность события при условии, что событие уже произошло.

    Формула умножения для зависимых событий меняется:

    Где: * — вероятность того, что произойдут оба события. * — вероятность наступления условия . * — вероятность события , вычисленная с учетом того, что уже случилось.

    Представьте колоду карт (52 шт). Вероятность вытянуть туза первым ходом — . Если мы вытянули туза и не вернули его, в колоде осталась 51 карта и только 3 туза. Вероятность вытянуть второго туза изменилась и стала . Это и есть зависимые события.

    Заключение

    Мы рассмотрели фундамент теории вероятностей:

  • Вероятность — это отношение благоприятных исходов к общим ().
  • Комбинаторика (факториалы и сочетания) помогает нам находить эти и в сложных задачах.
  • Правила сложения и умножения позволяют комбинировать простые события в сложные сценарии.
  • Эти инструменты необходимы для понимания следующей темы курса — Случайные величины и распределения, где мы узнаем, как описывать не просто отдельные события, а целые потоки данных, с которыми работают Data Scientists.

    4. Случайные величины, законы распределения и предельные теоремы

    Случайные величины, законы распределения и предельные теоремы

    В предыдущей статье мы научились считать вероятности отдельных событий: выпадения орла, вытягивания туза из колоды или выигрыша в лотерею. Мы использовали комбинаторику и базовые формулы. Но в реальной науке о данных (Data Science) и статистике нас редко интересует одно конкретное событие. Нас интересуют закономерности, скрытые в массивах данных.

    Как описать рост всех людей в городе? Как предсказать количество бракованных деталей в партии из миллиона штук? Для этого нам нужно перейти от понятия «событие» к понятию случайная величина.

    Часть 1. Случайные величины

    Представьте, что вы бросаете монету. Результат — «Орел» или «Решка». Это качественное описание. Математика любит цифры. Давайте договоримся: если выпадает «Орел», мы пишем 1, если «Решка» — 0.

    Теперь результат нашего эксперимента — это число.

    Случайная величина — это переменная, значение которой определяется случайным экспериментом. Она переводит исходы из реального мира на язык чисел.

    Обычно случайные величины обозначают заглавными буквами конца латинского алфавита: .

    Дискретные и непрерывные величины

    Это фундаментальное разделение, которое определяет, какие формулы мы будем использовать.

  • Дискретная случайная величина: Принимает отдельные, изолированные значения. Их можно пересчитать (раз, два, три...).
  • Примеры:* Количество детей в семье (0, 1, 2...), число посетителей на сайте, оценка за экзамен. * Между 1 и 2 детьми не может быть 1.5 ребенка.

  • Непрерывная случайная величина: Может принимать любое значение из некоторого промежутка. Их бесконечно много.
  • Примеры:* Рост человека (175.34... см), время загрузки страницы (0.453... сек), температура воздуха. * Между 175 см и 176 см есть бесконечное множество значений.

    !Визуальное сравнение дискретных (прерывистых) и непрерывных (плавных) данных.

    Характеристики случайной величины

    Чтобы описать случайную величину, нам не обязательно знать все её возможные значения. Часто достаточно знать два главных параметра:

    1. Математическое ожидание (Mean / Expectation) Это «среднее» значение, к которому будет стремиться результат при бесконечном повторении опыта. Это центр тяжести нашего распределения.

    Для дискретной величины формула выглядит так:

    Где: * — математическое ожидание случайной величины . * — знак суммирования. * — возможное значение случайной величины. * — вероятность этого значения.

    Пример: Игральная кость. Вероятность выпадения любой грани . . Заметьте, числа 3.5 на кубике нет, но это его среднее значение.

    2. Дисперсия (Variance) и Стандартное отклонение Матожидание показывает центр, а дисперсия показывает разброс. Насколько сильно значения отклоняются от среднего?

    Где: — дисперсия (от англ. Variance*). * — случайная величина. * — среднее значение (матожидание). * Разность возводится в квадрат, чтобы отрицательные отклонения не гасили положительные.

    Так как дисперсия измеряется в «квадратных попугаях», для удобства из неё извлекают корень и получают стандартное отклонение (обозначается греческой буквой — сигма).

    Где: * — стандартное отклонение. * — дисперсия.

    Часть 2. Законы распределения

    Закон распределения — это правило, которое показывает, с какой вероятностью случайная величина принимает те или иные значения. Это «карта» вероятностей.

    Биномиальное распределение (Дискретное)

    Вспомните схему Бернулли: мы проводим независимых опытов, в каждом из которых событие может наступить с вероятностью (успех) или не наступить с вероятностью (неудача).

    Случайная величина — это количество успехов.

    Где: * — вероятность получить ровно успехов в испытаниях. * — число сочетаний (сколько способов выбрать успехов), которое мы разбирали в прошлой статье. * — вероятность успехов. * — вероятность неудач.

    Это распределение описывает броски монет, конверсию на сайте (купил/не купил), контроль качества (брак/не брак).

    Нормальное распределение (Непрерывное)

    Это король всех распределений. Его график называют «колоколом Гаусса».

    В природе большинство величин распределены нормально: рост людей, вес животных, ошибки измерений, IQ тесты. Большинство значений группируется вокруг среднего, а чем дальше от центра — тем реже встречаются значения.

    Нормальное распределение задается двумя параметрами, которые мы изучили выше:

  • (мю) — математическое ожидание (где находится центр колокола).
  • (сигма) — стандартное отклонение (насколько колокол широкий или узкий).
  • !Графики нормального распределения с разным стандартным отклонением: чем больше отклонение, тем шире "колокол".

    Правило трех сигм: * 68% всех значений попадают в диапазон . * 95% значений попадают в диапазон . * 99.7% значений попадают в диапазон .

    Это значит, что встретить человека, чей рост отклоняется от среднего более чем на 3 стандартных отклонения — огромная редкость (почти невозможное событие).

    Часть 3. Предельные теоремы

    Почему нормальное распределение так часто встречается? Почему казино всегда в выигрыше? На эти вопросы отвечают предельные теоремы. Это мост между теорией и практикой.

    Закон больших чисел (Law of Large Numbers)

    Этот закон гласит: чем больше экспериментов мы проводим, тем ближе среднее арифметическое результатов к истинному математическому ожиданию.

    Если вы подбросите монету 10 раз, может выпасть 8 орлов и 2 решки (доля 0.8). Но если вы подбросите её 1 000 000 раз, доля орлов будет практически идеально равна 0.5.

    Где: * — предел при стремлении числа опытов к бесконечности. * — сумма результатов измерений. * — среднее арифметическое полученных значений. * — истинное математическое ожидание. * — сколь угодно малое число (погрешность). * Формула означает: вероятность того, что наше среднее отличается от истинного, стремится к нулю с ростом числа опытов.

    Именно на этом законе строится бизнес страховых компаний и казино. Они не знают, что случится с конкретным клиентом, но они точно знают средний результат на миллионе клиентов.

    Центральная предельная теорема (ЦПТ)

    Это, пожалуй, самая важная теорема в статистике.

    Она утверждает: если сложить вместе много независимых случайных величин (даже если они сами по себе НЕ распределены нормально), то их сумма (и среднее) будет иметь распределение, близкое к нормальному.

    Представьте, что вы берете случайных людей на улице и спрашиваете сумму денег в их кошельке. Распределение будет странным (много людей с мелочью, мало богачей, резкие скачки). Это не нормальное распределение.

    Но если вы возьмете 1000 групп по 50 человек, посчитаете среднюю сумму денег в каждой группе и построите график этих средних, то вы увидите идеальный колокол Гаусса.

    Почему это важно? Это позволяет нам использовать методы статистики (которые часто требуют нормальности данных) даже там, где исходные данные распределены хаотично. Мы просто работаем со средними значениями.

    Заключение

    Сегодня мы сделали огромный шаг от теории вероятностей к математической статистике:

  • Мы узнали, что случайные величины переводят события в числа.
  • Мы поняли разницу между дискретными (счетными) и непрерывными (измеримыми) данными.
  • Мы познакомились с нормальным распределением, которое описывает большинство природных процессов.
  • Мы узнали о Центральной предельной теореме, которая объясняет, почему мир стремится к нормальности.
  • Эти знания — фундамент для проверки гипотез и A/B тестов, которыми мы займемся в будущем.

    5. Основы математической статистики: от выборки до проверки гипотез

    Основы математической статистики: от выборки до проверки гипотез

    В предыдущей статье мы изучили теорию вероятностей — науку, которая позволяет предсказывать поведение случайных величин, если мы знаем законы их распределения. Мы шли от общего к частному: зная, что монета честная, мы предсказывали частоту выпадения орла.

    Математическая статистика работает в обратном направлении — от частного к общему. У нас есть данные (результаты экспериментов), и мы хотим понять, какие законы ими управляют. Мы не знаем, честная ли монета, но мы подбросили её 100 раз и получили 60 орлов. Можем ли мы утверждать, что она смещена? Это и есть главный вопрос статистики.

    Часть 1. Генеральная совокупность и выборка

    Представьте, что вы варите огромный котел супа. Чтобы узнать, достаточно ли он посолен, вам не нужно выпивать весь котел. Достаточно зачерпнуть одну ложку и попробовать.

    В этом примере: * Генеральная совокупность — это весь суп в котле (все возможные объекты исследования). * Выборка — это ложка супа (часть объектов, которую мы реально изучаем).

    Главное требование к выборке — репрезентативность. Это значит, что ложка супа должна точно отражать вкус всего котла. Если вы зачерпнете только сверху (где жир) или только снизу (где гуща), вы сделаете неверный вывод. Поэтому суп нужно перемешать. В статистике это называется случайным отбором.

    Основные характеристики выборки

    Когда мы получили данные, первым делом нужно их описать. Это называется описательной статистикой.

    1. Выборочное среднее (Mean) Это среднее арифметическое всех значений в выборке.

    Где: * — выборочное среднее (читается «икс с чертой»). * — объем выборки (количество наблюдений). * — знак суммы. * — значение -го элемента выборки.

    2. Медиана (Median) Это число, которое делит упорядоченную выборку ровно пополам. Половина элементов меньше медианы, половина — больше.

    > Почему медиана важна? Представьте бар, где сидят 10 рабочих с зарплатой 50 000 рублей. Средняя зарплата — 50 000. Вдруг в бар заходит миллиардер. Средняя зарплата (Mean) мгновенно вырастает до миллионов, хотя 10 человек по-прежнему получают 50 000. Медиана же практически не изменится. Она устойчива к выбросам.

    3. Выборочная дисперсия и стандартное отклонение Эти метрики показывают, насколько сильно данные разбросаны вокруг среднего.

    Где: * — выборочная дисперсия. * — число степеней свободы (используется вместо для более точной оценки генеральной дисперсии на малых выборках). * — отклонение конкретного значения от среднего.

    !Иллюстрация процесса выборки из генеральной совокупности.

    Часть 2. Точечные и интервальные оценки

    Мы посчитали средний рост людей в выборке из 100 человек и получили 175 см. Это точечная оценка. Но какова вероятность, что средний рост всех людей в городе ровно 175 см? Она ничтожно мала. Скорее всего, истинное среднее где-то рядом.

    Чтобы быть честными, статистики используют доверительные интервалы.

    Доверительный интервал (Confidence Interval)

    Мы говорим: «С вероятностью 95% истинный средний рост всех жителей находится в диапазоне от 173 до 177 см».

    Формула для построения интервала (при известной дисперсии или больших выборках):

    Где: * — истинное среднее генеральной совокупности (которое мы хотим найти). * — наше выборочное среднее. * — коэффициент доверия (для 95% надежности он равен 1.96, исходя из нормального распределения). * — стандартное отклонение. * — размер выборки.

    Обратите внимание на в знаменателе. Чем больше людей мы опросим (чем больше ), тем уже будет интервал и тем точнее будет наша оценка.

    Часть 3. Проверка статистических гипотез

    Это сердце научного метода. Мы не просто смотрим на данные, мы задаем вопрос: «Мог ли этот результат быть случайным?»

    Алгоритм проверки гипотез всегда одинаков:

    Шаг 1. Формулировка гипотез

    Всегда есть две конкурирующие гипотезы:

  • Нулевая гипотеза (): «Ничего не происходит», «Разницы нет», «Эффект случаен». Это позиция скептика.
  • Альтернативная гипотеза (): «Есть значимая разница», «Лекарство работает», «Монета смещена».
  • Пример: Мы тестируем новое лекарство. * : Лекарство не отличается от пустышки (плацебо). * : Лекарство эффективнее плацебо.

    Шаг 2. Выбор уровня значимости ()

    Мы должны заранее решить, какой риск ошибки мы готовы принять. Обычно используют (5%). Это значит, что мы готовы ошибочно отвергнуть нулевую гипотезу только в 1 случае из 20.

    Шаг 3. Расчет P-value (P-значение)

    Мы проводим эксперимент и считаем статистику. Затем мы вычисляем P-value.

    P-value — это вероятность получить такие же (или еще более выраженные) результаты, если бы нулевая гипотеза была верна.

    Представьте, что вы играете с другом, и он выигрывает 10 раз подряд. * : Друг играет честно. * Вероятность выиграть 10 раз подряд случайно: (0.1%). * Это и есть P-value. Оно очень маленькое.

    Шаг 4. Принятие решения

    Мы сравниваем P-value с уровнем значимости (0.05).

    * Если P-value < : Вероятность случайности слишком мала. Мы отвергаем и принимаем . Результат статистически значим. * Если P-value > : Такое вполне могло произойти случайно. У нас нет оснований отвергнуть . (Заметьте: мы не доказали, что верна, мы просто не смогли её опровергнуть).

    !Визуализация критических областей и P-value на нормальном распределении.

    Часть 4. Ошибки первого и второго рода

    В статистике, как и в суде, возможны ошибки. Мы никогда не знаем истину на 100%.

    | Ситуация в реальности | Мы приняли (Невиновен) | Мы отвергли (Виновен) | | :--- | :--- | :--- | | верна (Лекарство не работает) | Правильное решение | Ошибка I рода (Ложноположительный) | | неверна (Лекарство работает) | Ошибка II рода (Ложноотрицательный) | Правильное решение |

  • Ошибка первого рода (Type I Error): Мы нашли эффект там, где его нет. Осудили невиновного. Вероятность этой ошибки равна .
  • Ошибка второго рода (Type II Error): Мы пропустили реально существующий эффект. Отпустили преступника. Вероятность этой ошибки обозначается .
  • Мощность теста () — это наша способность детектировать реальный эффект.

    Заключение

    Математическая статистика — это инструмент борьбы с неопределенностью.

    * Мы берем выборку, чтобы судить о генеральной совокупности. * Мы строим доверительные интервалы, чтобы понимать точность наших оценок. * Мы используем P-value, чтобы отличать реальные закономерности от случайного шума.

    Эти методы лежат в основе A/B тестов в маркетинге, клинических испытаний в медицине и контроля качества на производстве. В следующей части курса мы рассмотрим Корреляцию и регрессионный анализ, чтобы научиться находить связи между различными переменными.