МЕТОДЫ МНОГОМЕРНЫХ КЛАССИФИКАЦИЙ
Классификация без обучения. Кластерный анализ
КЛАСТЕРНЫЙ АНАЛИЗ - это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором признаков. ЦЕЛЬЮ КЛАСТЕРНОГО АНАЛИЗА является образование групп схожих между собой объектов, которые называются кластерами.
Методы кластерного анализа позволяют решать следующие задачи:
проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов;
проверка выдвигаемых предположений о наличии некоторой структурной связи совокупности изучаемых объектов;
построение новых классификаций для слабоизученных объектов.
Методы кластерного анализа делятся на следующие группы: агломеративные (объединяющие), дивизимные (разделяющие) и итеративные.
Агломеративные методы последовательно объединяют отдельные объекты в группы (кластеры).
Дивизимные методы расчленяют группы на отдельные объекты.
Итеративные методы - кластеры формируются исходя из задаваемых условий разбиения, которые могут быть изменены пользователем для достижения желаемого качества. Эти методы могут привести к образованию пересекающихся кластеров, когда один объект может одновременно принадлежать нескольким кластерам.
Существует три различных подхода к проблеме кластерного анализа: эвристический, экстремальный и статистический.
Эвристический подход характеризуется отсутствием формальной модели изучаемой модели и критерия для сравнения различных решений. Его основой является алгоритм, построенный исходя из интуитивных соображений.
При экстремальном подходе также не формулируется исходная модель, а задается критерий, определяющий качество разбиения на кластеры. Такой подход особенно полезен, если цель исследования четко определена. В этом случае качество разбиения может измеряться эффективностью выполнения цели.
Основой статистического подхода является вероятностная модель исследуемого процесса, что дает возможность ставить задачи, связанные с воспроизводимостью результатов.
В задачах кластерного анализа обычной формой представления исходных данных служит прямоугольная таблица, каждая строка которой представляет результат измерения k признаков на одном из n обследованных объектов:
x11 | x12 | ... | x1j | ... | x1k |
x21 | x22 | ... | x1j | ... | x2k |
... | ... | ... | ... | ... | ... |
xi1 | xi2 | ... | xij | ... | xik |
... | ... | ... | ... | ... | .. |
xn1 | xn2 | ... | xnj | ... | xnk |
Таким образом это матрица X. В конкретных случаях может представлять интерес как группировка объектов, так и группировка признаков.
Числовые значения элементов матрицы X могут соответствовать переменным трех типов: количественным, ранговым и качественным. Количественные переменные обладают свойством упорядоченности и над ними можно производить арифметические операции. Значения ранговых переменных тоже упорядочены, и им в соответствие можно поставить натуральные числа. Однако использование этих чисел в арифметических операциях будет некорретным. Качественными называются переменные, принимающие два или более значений. Этим значениям также можно поставить в соответствие некоторые числа, но без свойств упорядоченности. Исключение составляют дихотомные переменные, два значения которых (как правило, они обозначаются числами 0 и 1) можно считать упорядоченными.
Желательно, чтобы таблица исходных данных соответствовала одному типу переменных. В противном случае разные типы переменных стараются свести к какому-то одному типу переменных. Например, все переменные можно свести к дихотомным, используя следующую процедуру. Количественные переменные переводят в ранговые, разбивая области значений количественной переменной на интервалы, которые затем нумеруются числами натурального ряда. Ранговые переменные автоматически становятся качественными, если не учитывать упорядоченности их значений. Что касается качественных переменных, то каждому из возможных ее значений приходится сопоставлять дихотомную переменную, которая будет равна 1, если качественная переменная приняла заданное значение, и 0 - в противном случае.
Проверьте усвоение Предыдущий раздел Следующий раздел Оглавление