Алгоритм кластеризации K-Means: теория и практика

1. Введение в задачу кластеризации и основные принципы работы K-Means

Введение в задачу кластеризации и основные принципы работы K-Means

Добро пожаловать на курс «Алгоритм кластеризации K-Means: теория и практика». Это первая статья, в которой мы заложим фундамент для понимания одного из самых популярных алгоритмов в машинном обучении. Мы разберем, что такое кластеризация, чем она отличается от классификации, и детально изучим механику работы алгоритма K-Means (К-средних).

Что такое кластеризация?

Представьте, что перед вами огромная корзина с перемешанными деталями конструктора LEGO. Там есть кирпичики разных цветов, форм и размеров. Ваша задача — разложить их по кучкам так, чтобы в каждой кучке лежали похожие детали. Вы можете сортировать их по цвету (все красные — в одну кучу), по размеру или по форме.

В мире анализа данных этот процесс называется кластеризацией.

> Кластеризация — это задача разбиения множества объектов на группы (кластеры) таким образом, чтобы объекты в одной группе были максимально похожи друг на друга, а объекты из разных групп — максимально отличались.

Это один из ключевых методов разведочного анализа данных (Exploratory Data Analysis), который помогает найти скрытые структуры в информации без предварительной разметки.

Примеры из реальной жизни

Кластеризация окружает нас повсюду:

Маркетинг: Сегментация клиентов. Магазин анализирует историю покупок и выделяет группы: «экономные покупатели», «любители новинок», «оптовики». Это позволяет делать персонализированные предложения.

Геолокация: Определение зон повышенного спроса для такси или каршеринга.

Обработка изображений: Сжатие изображений путем уменьшения палитры цветов (группировка похожих оттенков).

Медицина: Классификация пациентов по симптомам для выявления подтипов болезней.

Обучение с учителем vs Обучение без учителя

Чтобы понять место K-Means в машинном обучении, важно различать два основных подхода.

Обучение с учителем (Supervised Learning)

В этом подходе у нас есть «правильные ответы». Например, мы показываем алгоритму фотографии кошек и собак и говорим: «Это кошка, а это собака». Задача алгоритма — научиться отличать их на новых фото. Это задачи классификации и регрессии.

Обучение без учителя (Unsupervised Learning)

Здесь правильных ответов нет. Мы просто даем алгоритму данные и говорим: «Посмотри, есть ли здесь какая-то структура?». Алгоритм сам должен понять, что одни объекты похожи на другие.

K-Means относится именно к обучению без учителя. У данных нет меток (лейблов), и алгоритм самостоятельно формирует группы.

!Визуальное сравнение обучения с учителем, где есть метки классов, и обучения без учителя, где данные не размечены.

Алгоритм K-Means: Основная идея

Название алгоритма K-Means (К-средних) раскрывает его суть:

* K — это количество кластеров, которое мы хотим найти (это число задает человек). * Means (средние) — это способ, которым алгоритм находит центр каждого кластера (усредняя координаты точек).

Цель алгоритма — найти такие центры кластеров (их называют центроидами), чтобы минимизировать расстояние от каждой точки до центра её кластера.

Как работает алгоритм: Пошаговый процесс

Алгоритм работает итеративно, то есть повторяет одни и те же действия, пока результат не перестанет улучшаться. Давайте разберем этот цикл.

#### Шаг 1: Инициализация Сначала мы должны выбрать количество кластеров . Допустим, мы решили, что . Алгоритм случайным образом выбирает 3 точки в пространстве данных и назначает их начальными центроидами.

#### Шаг 2: Присвоение кластеров (Assignment Step) Для каждой точки данных мы измеряем расстояние до всех трех центроидов. Точка «приписывается» к тому кластеру, чей центроид находится ближе всего.

Математически расстояние обычно вычисляется как Евклидово расстояние. Для двух точек на плоскости формула выглядит так:

Где: * — расстояние между точкой и центроидом . * — операция извлечения квадратного корня. * — знак суммирования (сумма по всем измерениям/признакам). * — количество признаков (размерность пространства). * — координата -го признака точки . * — координата -го признака центроида .

#### Шаг 3: Обновление центроидов (Update Step) После того как все точки распределены по кластерам, мы пересчитываем положение центроидов. Новый центроид кластера становится в центр масс всех точек, попавших в этот кластер.

Мы просто берем среднее арифметическое координат всех точек кластера:

Где: * — новые координаты центроида для кластера . * — количество точек, попавших в кластер . * — сумма координат всех точек , принадлежащих кластеру .

#### Шаг 4: Проверка сходимости Мы повторяем шаги 2 и 3. Центроиды будут двигаться, а точки могут переходить из одного кластера в другой. Алгоритм останавливается, когда: * Центроиды перестают двигаться (или сдвигаются на ничтожно малое расстояние). * Точки перестают менять свои кластеры. * Достигнуто максимальное количество итераций.

!Иллюстрация итеративного процесса K-Means: от инициализации до стабилизации центроидов.

Математическая цель K-Means

Интуитивно мы хотим, чтобы кучки были плотными. Математически алгоритм пытается минимизировать так называемую внутрикластерную сумму квадратов (Within-Cluster Sum of Squares — WCSS), или инерцию.

Формула целевой функции выглядит так:

Где: * — значение целевой функции (ошибка, которую мы минимизируем). * — количество кластеров. * — сумма по всем кластерам от 1 до . * — сумма по всем точкам внутри конкретного кластера . * — квадрат расстояния от точки до центроида этого кластера.

Простыми словами: мы хотим, чтобы суммарное расстояние от всех точек до их «вождей» (центроидов) было минимальным.

Преимущества и недостатки

Понимание сильных и слабых сторон алгоритма поможет вам применять его правильно.

Преимущества

Простота: Алгоритм легко понять и реализовать.

Скорость: K-Means работает очень быстро и эффективно даже на больших наборах данных (по сравнению с иерархической кластеризацией).

Интерпретируемость: Результаты легко объяснить бизнесу (например, «центр этого кластера — это клиент с доходом X и возрастом Y»).

Недостатки

Необходимость выбора K: Вы должны заранее сказать алгоритму, сколько кластеров искать. Если вы ошибетесь с числом, результат будет бесполезным (о том, как выбирать , мы поговорим в следующих статьях).

Чувствительность к инициализации: Если неудачно выбрать начальные центроиды, алгоритм может застрять в локальном минимуме и выдать плохой результат.

Форма кластеров: K-Means хорошо находит только сферические (круглые) кластеры. Если ваши данные образуют сложные формы (например, один кластер вложен в другой как кольцо), K-Means не справится.

Чувствительность к выбросам: Одна точка, лежащая очень далеко от всех, может сильно сместить центроид и исказить кластеризацию.

Заключение

Мы познакомились с основами кластеризации и алгоритмом K-Means. Теперь вы знаете, что это итеративный процесс, который стремится сгруппировать данные вокруг центроидов, минимизируя расстояние внутри групп.

В следующей статье мы перейдем от теории к практике и разберем, как подготовить данные для кластеризации, почему важно масштабирование признаков и как выбрать оптимальное количество кластеров .

2. Пошаговый разбор алгоритма: инициализация центроидов, шаги назначения и обновления

Пошаговый разбор алгоритма: инициализация центроидов, шаги назначения и обновления

В предыдущей лекции мы рассмотрели общую концепцию кластеризации и интуитивное понимание алгоритма K-Means. Мы узнали, что цель алгоритма — разбить данные на групп так, чтобы объекты внутри одной группы были максимально похожи друг на друга. Но как именно компьютер «понимает», куда сдвинуть границы кластеров? Какая магия происходит внутри «черного ящика»?

В этой статье мы откроем капот алгоритма и детально, шаг за шагом, разберем его механику. Мы изучим три ключевых этапа: инициализацию, шаг назначения (Assignment) и шаг обновления (Update), а также узнаем, почему способ выбора начальных точек может кардинально изменить результат.

Общая схема алгоритма

Алгоритм K-Means (К-средних) относится к классу итеративных алгоритмов. Это означает, что он повторяет цикл действий, постепенно улучшая результат, пока не достигнет идеала (или того, что он считает идеалом).

Глобально алгоритм состоит из следующих этапов:

Инициализация: Выбор начального положения центроидов.

Цикл (повторяется до сходимости):

* Шаг назначения (E-step): Каждая точка данных приписывается к ближайшему центроиду. * Шаг обновления (M-step): Центроиды перемещаются в центры масс своих новых кластеров.

Завершение: Фиксация результата, когда изменения прекращаются.

!Схематичное изображение логики работы алгоритма K-Means.

Разберем каждый этап подробно.

Этап 1: Инициализация центроидов

Все начинается с выбора числа (количества кластеров) и начального размещения их центров. Этот этап критически важен. Поскольку K-Means — это алгоритм локальной оптимизации, неудачный старт может привести к плохому финальному разбиению.

Случайная инициализация (Random Initialization)

Классический подход, предложенный в ранних версиях алгоритма (метод Ллойда), предельно прост: мы случайным образом выбираем точек из нашего набора данных и объявляем их начальными центроидами.

Однако у этого метода есть серьезный недостаток — риск попадания в локальный минимум. Представьте, что истинные кластеры находятся далеко друг от друга, но мы случайно выбрали два начальных центроида внутри одного и того же плотного скопления точек. Алгоритм может «застрять» и разделить один естественный кластер на две части, проигнорировав другой.

Умная инициализация: K-Means++

Чтобы решить проблему случайности, в 2007 году был предложен метод K-Means++. Сегодня это стандарт де-факто в библиотеках машинного обучения (например, в Scikit-learn).

Суть метода заключается в том, чтобы выбрать начальные центроиды так, чтобы они находились как можно дальше друг от друга.

Алгоритм K-Means++:

Первый центроид выбирается случайно из данных.

Для каждой точки данных вычисляется расстояние до ближайшего из уже выбранных центроидов.

Следующий центроид выбирается из оставшихся точек с вероятностью, пропорциональной квадрату расстояния до ближайшего центроида:

Где: * — вероятность того, что точка будет выбрана следующим центроидом. * — кратчайшее расстояние от точки до уже выбранных центроидов. * — сумма квадратов расстояний всех точек до их ближайших центроидов (нормировочный коэффициент).

Простыми словами: чем дальше точка находится от уже существующих центров, тем выше шанс, что она станет новым центром. Это гарантирует, что центроиды «расползутся» по всему пространству данных.

Этап 2: Шаг назначения (Assignment Step)

После того как центроиды размещены, начинается основной цикл. Первый шаг в цикле часто называют E-step (Expectation step).

Задача проста: для каждой точки данных мы должны решить, к какому кластеру она принадлежит. Критерий выбора — близость. Мы вычисляем расстояние от точки до каждого из центроидов и выбираем тот, расстояние до которого минимально.

Математически мы ищем такой индекс кластера , который минимизирует квадрат евклидова расстояния:

Где: * — множество точек, отнесенных к кластеру на итерации . * — конкретная точка данных. * — координаты центроида кластера на итерации . * — квадрат евклидова расстояния. * — квантор всеобщности, означающий «для всех » (сравнение со всеми остальными центроидами).

!Визуализация шага назначения: пространство делится на зоны влияния центроидов.

В результате этого шага каждая точка получает «метку» (label) — номер кластера, к которому она теперь относится.

Этап 3: Шаг обновления (Update Step)

Теперь, когда точки распределены по группам, старые положения центроидов перестают быть актуальными. Скорее всего, геометрический центр новой группы точек сместился.

Этот шаг называют M-step (Maximization step), хотя технически мы минимизируем внутрикластерное расстояние. Мы пересчитываем координаты центроидов.

Новый центроид — это просто среднее арифметическое координат всех точек, попавших в данный кластер. Отсюда и название алгоритма: K-Means (К-средних).

Формула обновления:

Где: * — новые координаты центроида кластера для следующей итерации. * — количество точек в кластере (мощность множества). * — векторная сумма координат всех точек , принадлежащих кластеру .

Если кластер оказался пустым (в него не попало ни одной точки), обычно либо оставляют старый центроид, либо выбирают новую случайную точку (стратегия зависит от реализации).

!Иллюстрация шага обновления: центроиды смещаются в центр масс своих кластеров.

Сходимость алгоритма: когда остановиться?

Мы повторяем шаги Назначения и Обновления снова и снова. С каждой итерацией центроиды двигаются все меньше, а перераспределение точек происходит все реже. Алгоритм гарантированно сходится (для евклидова расстояния), но не обязательно к глобальному оптимуму.

Условия остановки могут быть следующими:

Стабилизация центроидов: Координаты центроидов изменились меньше, чем на заданное пороговое значение (эпсилон). То есть .

Стабилизация состава кластеров: Ни одна точка не поменяла свой кластер на текущей итерации.

Лимит итераций: Достигнуто максимальное количество циклов (например, max_iter=300), чтобы алгоритм не работал вечно на сложных данных.

Вычислительная сложность

Понимание сложности помогает оценить, сколько времени займет обучение модели.

Сложность одной итерации K-Means составляет:

Где: * — количество точек данных (объектов). * — количество кластеров. * — размерность данных (количество признаков).

Если алгоритм работает итераций, то полная сложность — .

Это делает K-Means линейным по количеству объектов , что является огромным преимуществом. Именно поэтому K-Means так популярен для работы с большими данными (Big Data), в отличие от многих других алгоритмов кластеризации, имеющих квадратичную сложность .

Резюме

Мы разобрали механику K-Means:

Инициализация: Лучше использовать K-Means++, чтобы центры были далеко друг от друга.

Назначение: Каждая точка ищет ближайшего «лидера».

Обновление: «Лидер» перемещается в центр своей «команды».

Повторение: Процесс идет до тех пор, пока движение не прекратится.

Теперь вы понимаете, как алгоритм работает изнутри. Однако остается открытым один из самых сложных вопросов: как выбрать число K? Почему 3 кластера, а не 5 или 10? Об этом и о методах оценки качества кластеризации мы поговорим в следующей статье.

3. Методы оценки качества и выбор числа кластеров: метод локтя и силуэтный анализ

Методы оценки качества и выбор числа кластеров: метод локтя и силуэтный анализ

В предыдущих статьях мы разобрали механику работы алгоритма K-Means. Мы знаем, как он инициализирует центроиды, как распределяет точки и как обновляет центры групп. Однако мы постоянно обходили стороной один фундаментальный вопрос: откуда мы знаем, чему равно ?

В задачах обучения с учителем (классификация) мы знаем количество классов заранее (например, «кошка» или «собака»). В кластеризации, которая относится к обучению без учителя, правильных ответов нет. Данные приходят к нам неразмеченными.

Если мы выберем , алгоритм послушно разделит данные на две кучи. Если выберем — он найдет 100 групп. Но какое разбиение является «истинным» или наиболее полезным? В этой статье мы изучим два основных метода, которые помогают аналитикам отвечать на этот вопрос: Метод локтя (Elbow Method) и Силуэтный анализ (Silhouette Analysis).

Проблема оценки качества кластеризации

Главная сложность заключается в том, что понятие «хороший кластер» субъективно. Тем не менее, математически мы стремимся к двум целям:

Компактность (Cohesion): Объекты внутри одного кластера должны быть как можно ближе друг к другу.

Отделимость (Separation): Кластеры должны находиться как можно дальше друг от друга.

Алгоритм K-Means напрямую оптимизирует первую цель (компактность), минимизируя внутрикластерное расстояние. Именно на этом свойстве основан первый метод.

Метод локтя (Elbow Method)

Это самый старый, простой и интуитивно понятный метод выбора числа кластеров. Его идея базируется на анализе изменения инерции (или WCSS — Within-Cluster Sum of Squares) при увеличении числа кластеров.

Что такое инерция?

Вспомним формулу целевой функции K-Means из первой статьи:

Где: * — внутрикластерная сумма квадратов (инерция). * — количество кластеров. * — сумма по всем кластерам. * — сумма по всем точкам внутри кластера . * — квадрат расстояния от точки до центроида .

Логика метода

Давайте проведем мысленный эксперимент. Представьте, что у нас есть 100 точек данных.

Если , инерция будет максимальной (все точки тянутся к одному общему центру).

Если мы увеличим до 2, инерция резко упадет, так как точки смогут выбрать более близкий центроид.

Если мы продолжим увеличивать , инерция будет продолжать падать.

В предельном случае, если (каждая точка — это отдельный кластер), инерция станет равна 0, так как расстояние от точки до самой себя равно нулю.

Значит ли это, что — лучший выбор? Конечно, нет. Это переобучение. Нам нужно найти баланс.

График зависимости WCSS от обычно напоминает форму человеческой руки, согнутой в локте. Сначала инерция падает стремительно, а затем, после определенной точки, падение замедляется и график выходит на «плато».

> Точка перегиба, где резкое падение сменяется плавным, и называется «локтем». Это и есть оптимальное число кластеров.

!График метода локтя, показывающий зависимость инерции от количества кластеров. Явный изгиб указывает на оптимальное число K.

Алгоритм действий

Обучить K-Means для диапазона значений (например, от 1 до 10).

Для каждого записать значение инерции (WCSS).

Построить график зависимости WCSS от .

Найти точку изгиба («локоть»).

Недостатки метода локтя

Главный минус — субъективность. Иногда изгиб на графике очень плавный, и сложно однозначно сказать, где именно находится локоть: на или . В таких случаях нам нужен более точный инструмент.

Силуэтный анализ (Silhouette Analysis)

Если метод локтя смотрит только на то, насколько плотными получились кластеры (компактность), то силуэтный анализ учитывает и то, насколько хорошо кластеры отделены друг от друга (отделимость).

Для каждой точки данных мы вычисляем специальную метрику — силуэтный коэффициент (Silhouette Coefficient). Он показывает, насколько объект похож на свой кластер по сравнению с другими кластерами.

Математика силуэта

Для вычисления коэффициента одной точки нам нужны две величины:

— среднее внутрикластерное расстояние. Это среднее расстояние от точки до всех остальных точек в том же самом кластере. Чем меньше , тем лучше (точка плотно сидит в своей группе).

— среднее расстояние до ближайшего соседнего кластера. Мы берем все остальные кластеры, считаем среднее расстояние от точки до точек каждого из них и выбираем минимальное значение. Это показывает, насколько далеко находится «чужой» кластер. Чем больше , тем лучше.

Формула силуэтного коэффициента для точки выглядит так:

Где: * — силуэтный коэффициент для конкретной точки. * — мера сплоченности (среднее расстояние до своих). * — мера отделимости (среднее расстояние до ближайших чужих). * — нормировочный коэффициент, чтобы значение было в диапазоне от -1 до 1.

Интерпретация значений

Значение всегда находится в диапазоне .

* (близко к 1): Идеальный вариант. Это значит, что . Точка находится очень близко к своим соседям и далеко от чужих кластеров. * (около 0): Точка находится на границе двух кластеров. Ей почти все равно, к какой группе принадлежать. * (отрицательное значение): Ошибка кластеризации. Это значит, что , то есть в среднем точка ближе к чужому кластеру, чем к своему собственному. Скорее всего, она была отнесена не в ту группу.

Средний силуэт

Чтобы оценить качество всей кластеризации для конкретного числа , мы вычисляем среднее значение силуэтного коэффициента по всем точкам датасета.

Где: * — итоговая оценка качества разбиения на кластеров. * — общее количество точек данных. * — сумма коэффициентов всех точек.

Мы перебираем разные и выбираем то, где средний силуэт () максимален.

!Визуализация расчета метрик a и b для одной точки и пример силуэтной диаграммы для оценки качества кластеров.

Сравнение методов

Практический совет

В реальной работе рекомендуется начинать с метода локтя, так как он вычислительно дешев. Если график показывает четкий изгиб — отлично, используйте это число . Если же график плавный и неоднозначный, подключайте силуэтный анализ для уточнения оптимального количества кластеров.

Также не забывайте про здравый смысл и бизнес-логику. Иногда математика советует 5 кластеров, но отдел маркетинга может работать только с 3 сегментами клиентов («VIP», «Средний», «Эконом»). В таком случае бизнес-требования могут быть важнее математического оптимума.

Заключение

Теперь в вашем арсенале есть инструменты не только для проведения кластеризации, но и для оценки её качества. Вы знаете, что:

Метод локтя ищет баланс между сжатием данных и количеством групп.

Силуэтный анализ проверяет, насколько уверенно точки «чувствуют себя» в своих кластерах.

В следующей статье мы перейдем к техническим аспектам: как правильно подготовить данные перед подачей в алгоритм, почему масштабирование признаков критически важно и как работать с категориальными данными.

4. Ограничения алгоритма, проблема локальных минимумов и оптимизация K-Means++

Ограничения алгоритма, проблема локальных минимумов и оптимизация K-Means++

Мы уже прошли большой путь в изучении алгоритма K-Means. Мы разобрали его механику, научились выбирать оптимальное количество кластеров с помощью метода локтя и силуэтного анализа. Казалось бы, у нас есть идеальный инструмент для разбиения данных на группы. Однако, как и любой инструмент, K-Means не является «серебряной пулей».

В этой статье мы обсудим, где алгоритм может споткнуться, почему два запуска на одних и тех же данных могут дать разный результат, и как современная модификация K-Means++ решает эти проблемы.

Проблема локальных минимумов

Вспомним, что цель K-Means — минимизировать суммарное квадратичное отклонение точек от центров их кластеров (инерцию). Математически это задача оптимизации. Однако функция, которую мы оптимизируем, не является выпуклой (non-convex).

Что это значит на практике? Представьте, что вы спускаетесь с горы в тумане. Ваша цель — найти самую низкую точку в долине (глобальный минимум). Алгоритм K-Means действует как человек, который делает шаг только вниз. Если вы начали спуск с неудачной стороны горы, вы можете прийти в небольшую ямку на склоне (локальный минимум) и застрять там, думая, что достигли дна, хотя настоящая долина находится за соседним хребтом.

Чувствительность к инициализации

Результат работы K-Means критически зависит от того, куда мы поставим центроиды в самом начале (на шаге инициализации).

Удачный старт: Центроиды попадают в разные скопления данных. Алгоритм быстро сходится к правильному решению.

Неудачный старт: Два центроида падают в одно скопление, а третье скопление остается без своего центра. Алгоритм попытается «разорвать» один кластер на два и объединить далекие группы, что приведет к неверной интерпретации данных.

!Иллюстрация того, как неудачная начальная расстановка центроидов приводит к застреванию в локальном минимуме.

Геометрические ограничения K-Means

Даже если инициализация прошла успешно, K-Means имеет врожденные ограничения, связанные с тем, как он измеряет расстояния.

1. Проблема формы кластеров

K-Means использует Евклидово расстояние. Это означает, что он неявно предполагает, что кластеры имеют сферическую (круглую) форму. Алгоритм стремится построить кластеры одинакового радиуса вокруг центроида.

Если ваши данные имеют сложную геометрическую структуру, K-Means с ними не справится: * Вытянутые эллипсы: Алгоритм будет «резать» их поперек. * Дуги или «бананы»: Алгоритм не сможет проследить изгиб. * Вложенные кольца: Если один кластер находится внутри другого, K-Means разделит их как пирог, вместо того чтобы выделить внутреннее и внешнее кольцо.

2. Проблема разной плотности и размеров

K-Means плохо работает, когда кластеры имеют сильно различающиеся размеры или плотность. Поскольку алгоритм минимизирует суммарное расстояние, ему «выгоднее» разбить большой разреженный кластер на части и присоединить их к более плотным соседям, чем оставить его как есть.

3. Чувствительность к выбросам

Поскольку мы возводим расстояние в квадрат (в формуле инерции), далекие точки (выбросы) вносят огромный вклад в ошибку.

Где: * — значение функции потерь. * — сумма по всем точкам. * — точка данных. * — центроид. * — квадрат расстояния.

Если у вас есть одна точка, которая находится очень далеко от всех остальных, алгоритм будет вынужден сдвинуть центроид в её сторону, чтобы уменьшить этот гигантский квадрат расстояния. Это может исказить границы всего кластера.

Решение 1: Множественные перезапуски (Multiple Restarts)

Самый простой способ борьбы с локальными минимумами — запустить алгоритм несколько раз с разными случайными начальными центроидами.

Алгоритм действий:

Запускаем K-Means раз (например, 10 или 50).

Каждый раз инициализация происходит случайно.

Вычисляем итоговую инерцию (WCSS) для каждого запуска.

Выбираем тот результат, где инерция минимальна.

В библиотеке Scikit-learn этот параметр называется n_init. По умолчанию он часто равен 10. Это значительно повышает шансы найти глобальный минимум, но не гарантирует успеха на очень сложных данных.

Решение 2: Оптимизация K-Means++

В 2007 году Дэвид Артур и Сергей Васильвицкий предложили элегантный метод инициализации, который стал стандартом индустрии. Он называется K-Means++.

Идея проста: начальные центроиды должны быть как можно дальше друг от друга. Вместо того чтобы бросать все центроиды случайно, мы выбираем их по очереди, используя «умную» вероятность.

Алгоритм K-Means++

Выбрать первый центроид случайным образом из точек данных.

Для каждой точки данных вычислить расстояние до ближайшего из уже выбранных центроидов.

Выбрать следующий новый центроид из оставшихся точек с вероятностью, пропорциональной квадрату расстояния .

Формула вероятности выбора точки в качестве следующего центроида:

Где: * — вероятность того, что точка станет новым центроидом. * — квадрат расстояния от точки до ближайшего уже существующего центроида. * — сумма квадратов расстояний для всех точек в наборе данных (это нужно, чтобы сумма всех вероятностей была равна 1).

Почему это работает?

Если точка находится рядом с уже выбранным центроидом, будет маленьким, и вероятность выбрать её снова будет ничтожной. Если же точка находится далеко (в другом скоплении данных), будет большим, и шанс, что именно она станет центром нового кластера, резко возрастает.

!Визуализация вероятностного подхода K-Means++: далекие точки подсвечены как более вероятные кандидаты.

Преимущества K-Means++

Скорость сходимости: Поскольку начальные центроиды уже стоят «неплохо», алгоритму требуется меньше итераций, чтобы завершить работу.

Качество: Резко снижается вероятность попадания в плохой локальный минимум. Часто итоговая ошибка (инерция) оказывается ниже, чем при обычной случайной инициализации.

Когда K-Means не подходит?

Подытожим. Вам стоит задуматься о выборе другого алгоритма (например, DBSCAN или спектральной кластеризации), если:

* Ваши кластеры имеют сложную невыпуклую форму (полумесяцы, кольца). * В данных много шума и выбросов, которые вы не можете удалить. * Кластеры имеют сильно разный размер и плотность.

Однако для большинства стандартных задач, где данные образуют более-менее компактные «облака», K-Means с инициализацией K-Means++ остается быстрым и надежным выбором.

В следующей статье мы перейдем к практике и разберем, как подготовить данные: почему масштабирование признаков (Feature Scaling) является обязательным этапом перед запуском K-Means.

5. Практические примеры использования и реализация алгоритма в анализе данных

Практические примеры использования и реализация алгоритма в анализе данных

Мы подошли к финальной части нашего курса «Алгоритм кластеризации K-Means: теория и практика». В предыдущих статьях мы разобрали математическую основу алгоритма, научились бороться с локальными минимумами с помощью K-Means++ и освоили методы оценки качества кластеризации, такие как метод локтя и силуэтный анализ.

Теперь настало время собрать все знания воедино и посмотреть, как этот алгоритм применяется в реальных задачах анализа данных. Мы обсудим критически важный этап подготовки данных, без которого K-Means будет бесполезен, и разберем три классических сценария использования: сегментацию клиентов, сжатие изображений и поиск аномалий.

Подготовка данных: фундамент успеха

Многие новички совершают одну и ту же ошибку: они загружают «сырые» данные прямо в алгоритм и получают странные результаты. K-Means — это алгоритм, основанный на расстояниях (обычно Евклидовом). Это делает его чрезвычайно чувствительным к масштабу признаков.

Почему масштабирование обязательно?

Представьте, что мы кластеризуем клиентов интернет-магазина по двум признакам:

Возраст: от 18 до 90 лет.

Годовой доход: от 20 000 до 200 000 рублей.

Если мы будем считать расстояние между двумя клиентами, разница в доходе (например, 1000 рублей) будет вносить гигантский вклад в формулу расстояния по сравнению с разницей в возрасте (например, 10 лет). Для алгоритма доход станет в 100 раз важнее возраста просто из-за порядка чисел.

Чтобы избежать этого, необходимо привести все признаки к единому масштабу. Самый популярный метод для K-Means — Стандартизация (Z-score normalization).

Формула стандартизации выглядит так:

Где: * — новое масштабированное значение признака. * — исходное значение признака. * — среднее значение этого признака по всему набору данных. * — стандартное отклонение признака.

После этого преобразования все признаки будут иметь среднее значение 0 и стандартное отклонение 1. Теперь возраст и доход будут вносить равноправный вклад в расчет расстояний.

!Визуализация влияния масштабирования данных на геометрию пространства признаков.

Работа с категориальными данными

K-Means работает только с числами. Он не понимает, что такое «Москва» или «Санкт-Петербург». Если в ваших данных есть текстовые категории, их нужно закодировать.

Обычно используется метод One-Hot Encoding. Каждая категория превращается в отдельный столбец (признак), где стоит 1, если объект относится к этой категории, и 0 — если нет. Однако будьте осторожны: если категорий слишком много, размерность данных вырастет, и эффективность K-Means может снизиться из-за «проклятия размерности».

Сценарий 1: Сегментация клиентов (RFM-анализ)

Это, пожалуй, самое популярное применение кластеризации в бизнесе. Маркетологи хотят понимать, кто их клиенты, чтобы делать персонализированные предложения.

Часто используется подход RFM: * Recency (Давность): Сколько времени прошло с последней покупки? * Frequency (Частота): Как часто клиент делает покупки? * Monetary (Деньги): Сколько денег клиент потратил за все время?

Реализация

Сбор данных: Мы формируем таблицу, где каждая строка — это уникальный клиент, а столбцы — значения R, F и M.

Обработка: Логарифмируем данные (чтобы сгладить разброс в деньгах) и проводим стандартизацию.

Кластеризация: Применяем K-Means. Допустим, метод локтя показал, что оптимальное .

Интерпретация результатов

После обучения мы смотрим на центроиды полученных кластеров и даем им названия:

* Кластер А (Лояльные): Высокая частота, большие суммы, недавние покупки. Этим клиентам можно предложить программу лояльности или ранний доступ к новинкам. * Кластер B (Уходящие): Покупали много и часто, но очень давно. Им нужно срочно отправить скидку или напоминание («Мы скучаем!»), чтобы вернуть их. * Кластер C (Экономные новички): Недавняя покупка, но на маленькую сумму и всего один раз. Их цель — заинтересовать сопутствующими товарами.

> Кластеризация превращает сухую базу данных в понятные портреты людей, с которыми можно выстраивать отношения.

Сценарий 2: Сжатие изображений (Color Quantization)

Изображение для компьютера — это просто матрица пикселей. Каждый пиксель обычно описывается тремя числами: Красный, Зеленый, Синий (RGB). Каждое число лежит в диапазоне от 0 до 255. Это дает нам более 16 миллионов возможных оттенков.

Иногда нам не нужно такое разнообразие. Мы хотим уменьшить размер файла, оставив только основные цвета. Здесь на помощь приходит K-Means.

Как это работает?

Представление данных: Мы превращаем изображение в таблицу, где каждая строка — это пиксель, а столбцы — это каналы R, G, B. Если картинка имеет размер 1000x1000, у нас будет 1 миллион точек в трехмерном пространстве цветов.

Обучение: Мы запускаем K-Means, например, с . Алгоритм находит 16 центроидов — это будут 16 «средних» цветов, которые лучше всего описывают всю палитру изображения.

Замена: Мы заменяем цвет каждого пикселя на цвет ближайшего к нему центроида.

В результате вместо миллионов оттенков в файле хранится только палитра из 16 цветов и индексы для каждого пикселя. Это значительно уменьшает объем памяти, необходимой для хранения изображения, при этом визуально картинка остается узнаваемой.

[VISUALIZATION: Слева показана красочная фотография природы с миллионами оттенков. Посередине стрелка с надписью