МЕТОДЫ МНОГОМЕРНЫХ КЛАССИФИКАЦИЙ 

Иерархический кластерный анализ.

    Из всех методов кластерного анализа, указанных ранее, самыми распространенными являются иерархические агломеративные методы. Сущность этих методов заключается в том, что на первом шаге каждый объект рассматривается как отдельный кластер. Процесс объединения кластеров происходит последовательно: на основании матрицы расстояний или матрицы сходства объединяются наиболее близкие объекты. Если матрица сходства первоначально имеет размерность n×n, то полностью процесс кластеризации завершается за n -1 шагов, в итоге все объекты будут объединены в один кластер.

    Множество методов иерархического кластерного анализа различается не только используемыми мерами близости, но и алгоритмами классификации. Различают алгоритмы включения нового объекта в существующий кластер и алгоритмы объединения кластеров. по сути это различные способы вычисления близости. В общем виде алгоритм иерархического кластерного анализа можно представить в виде последовательности процедур:

  1. Значения исходных переменных нормируются.

  2. Рассчитывается матрица расстояний или матрица мер близости.

  3. Находится пара самых близких кластеров. По выбранному алгоритму объединяются эти два кластера. Новому кластеру присваивается меньший из номеров объединяемых кластеров.

  4. Пункты 2, 3 и 4 повторяются до тех пор, пока все объекты не будут объединены в один кластер или до достижения заданного "порога" близости.

    Для включения нового объекта в существующий кластер применяются следующие алгоритмы:

  • Метод одиночной связи. На основании матрицы расстояний определяются два наиболее близких объекта, они и образуют первый кластер. Далее выбирается объект, который будет включен в этот кластер. Таким объектом будет тот, который имеет наименьшее расстояние хотя бы с одним из объектов, уже включенных в кластер. На следующем шаге аналогично включается в кластер следующий объект и так далее до образования единственного кластера.

  • Метод полных связей. Включение нового объекта в кластер происходит только в том случае, если расстояние между объектами не меньше некоторого заданного уровня.

  • Метод средней связи. Для решения вопроса о включении нового объекта в уже существующий кластер вычисляется среднее значение меры близости, которое затем сравнивается с заданным пороговым уровнем (как в предыдущем методе).

  • Метод Уорда. Данный метод предполагает, что первоначально каждый кластер состоит из одного объекта. Сначала объединяются два ближайших кластера. Для них определяются средние значения каждого признака и рассчитывается сумма квадратов отклонений:

Vl = ij(xij - xjl)2 ,

где:    l - номер кластера,

           i - номер объекта (i = 1,2, ... , nl),

           nl - количество объектов в l - том кластере,

          j - номер признака (j = 1,2, ..., k),

          k - количество признаков, характеризующих каждый объект.

В дальнейшем объединяются те объекты или кластеры, которые дают наименьшее приращение величины Vl .

    Для объединения двух кластеров применяются следующие алгоритмы:

  • Метод ближайшего соседа. Степень близости оценивается между наиболее близкими объектами этих кластеров.

  • Метод дальнего соседа. Степень близости оценивается по степени близости между  наиболее отдаленными объектами кластеров.

  • Метод средней связи. Степень близости оценивается как средняя величина степеней близости между объектами кластеров.

  • Метод медианной связи. Расстояние между любым кластером S и новым кластером, который получился в результате объединения кластеров P и Q, определяется как расстояние от центра кластера S до середины отрезка, соединяющего центры кластеров P и Q.

    Кроме рассмотренных агломеративных методов иерархического кластерного анализа существуют методы, противоположные им по логическому построению процедур классификации - иерархические дивизимные методы. Основной исходной посылкой дивизимных методов является то, что первоначально все объекты принадлежат одному кластеру. В процессе классификации по определенным правилам постепенно от этого кластера отделяются группы схожих между собой объектов. Таким образом, на каждом шаге количество кластеров возрастает, а мера расстояния между кластерами уменьшается.

Проверьте усвоение  Предыдущий раздел  Следующий раздел  Оглавление

Hosted by uCoz