Кластеризация

Материал из Википедии — свободной энциклопедии

Кластеризация (англ. Data clustering) — задача машинного обучения, в которой требуется разбить заданную выборку объектов (ситуаций) на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались.

Задача кластеризации относится к более широкому классу задач обучения без учителя.

Содержание

1 Типология задач кластеризации
2 Формальная постановка задачи кластеризации
3 Литература
4 Категории

[править] Типология задач кластеризации

[править] Типы входных данных

Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.
Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки.

[править] Цели кластеризации

Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»).
Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
Обнаружение новизны (англ. novelty detection). Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

В первом случае число кластеров стараются сделать поменьше. Во втором случае важнее обеспечить высокую степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.

Во всех этих случаях может применяться иерархическая кластеризация, когда крупные кластеры дробятся на более мелкие, те в свою очередь дробятся ещё мельче, и т. д. Такие задачи называются задачами таксономии. Результатом таксономии является древообразная иерархическая структура. При этом каждый объект характеризуется перечислением всех кластеров, которым он принадлежит, обычно от крупного к мелкому. Классическим примером таксономии на основе сходства является биноминальная номенклатура живых существ, предложенная Карлом Линнеем в середине XVIII века. Аналогичные систематизации строятся во многих областях знания, чтобы упорядочить информацию о большом количестве объектов.

[править] Методы кластеризации

Графовые алгоритмы кластеризации
Статистические алгоритмы кластеризации
Алгоритм ФОРЕЛЬ
Иерархическая кластеризация или таксономия
Нейронная сеть Кохонена
Ансамбль кластеризаторов

[править] Формальная постановка задачи кластеризации

Пусть $X~$ — множество объектов, $Y~$ — множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами $\rho(x,x')~$ . Имеется конечная обучающая выборка объектов $X^m = \{ x_1, \dots, x_m \} \subset X$ . Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике $\rho~$ , а объекты разных кластеров существенно отличались. При этом каждому объекту $x_i\in X^m$ приписывается номер кластера $y_i~$ .

Алгоритм кластеризации — это функция $a\colon X\to Y$ , которая любому объекту $x\in X$ ставит в соответствие номер кластера $y\in Y$ . Множество $Y~$ в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.

Кластеризация (обучение без учителя) отличается от классификации (обучения с учителем) тем, что метки исходных объектов $y_i~$ изначально не заданы, и даже может быть неизвестно само множество $Y~$ .

Решение задачи кластеризации принципиально неоднозначно, и тому есть несколько причин. Во-первых, не существует однозначно наилучшего критерия качества кластеризации. Известен целый ряд эвристических критериев, а также ряд алгоритмов, не имеющих чётко выраженного критерия, но осуществляющих достаточно разумную кластеризацию «по построению». Все они могут давать разные результаты. Во-вторых, число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием. В-третьих, результат кластеризации существенно зависит от метрики, выбор которой, как правило, также субъективен и определяется экспертом.

[править] Литература

Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
Мандель И. Д. Кластерный анализ. — М.: Финансы и статистика, 1988. ISBN 5-279-00050-7.
Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-0341-2.
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.

Это незавершённая статья по математике.
Вы можете помочь проекту, исправив и дополнив её.

[править] Категории

Категории: Незавершённые статьи по математике | Машинное обучение | Математическая статистика | Анализ данных

Кластеризация

Материал из Википедии — свободной энциклопедии

Содержание

[править] Типология задач кластеризации

[править] Типы входных данных

[править] Цели кластеризации

[править] Методы кластеризации

[править] Формальная постановка задачи кластеризации

[править] Литература

[править] Категории

Views

Навигация

Участие

Поиск

На других языках