МЕТОДЫ МНОГОМЕРНЫХ КЛАССИФИКАЦИЙ 

Пример иерархического кластерного анализа.

Пусть имеется шесть объектов. Каждый объект описывается двумя показателями. Исходная матрица наблюдений X имеет вид:
1 2
4 3
2 3
4 2
5 1
1 1

Используя в качестве метрики квадрат Евклидова расстояния получаем матрицу расстояний:

0 10 2 9 17 1
10 0 4 1 5 13
2 4 0 5 13 5
9 1 5 0 2 10
17 5 13 2 0 17
1 13 5 10 17 0

Применим для образования кластеров метод одиночной связи и метод ближайшего соседа.

  1. Объединяем объекты первый и шестой (расстояние равно 1) в первый кластер.

  2. Объединяем объекты второй и четвертый (расстояние равно 1) во второй кластер.

  3. Включаем в первый кластер третий объект, так как расстояние между ним и первым объектом минимально (равно 2).

  4. Включаем во второй кластер пятый объект, так как расстояние между ним и четвертым объектом минимально (равно 2).

  5. Объединяем первый и второй кластеры, так как расстояние между вторым и третьим объектом минимально (равно 4).

 Последовательность объединения графически представляется в виде графа-дерева (дендрограммы):

Ниже на рисунке в плоскости x1, x2 показаны первый и второй кластеры

Необходимо отметить, что результат классификации зависит как от метода классификации и применяемой метрики, так и от нормализации (стандартизации ) значений признаков. Например, при решении данной задачи признаки имели естественные значения. Если выполнить нормализацию исходных данных, то матрица Z будет иметь вид:
-1,06 0
0,68 1,12
-0,48 1,12
0,68 0
1,26 -1,12
-1,06 -1,12

Напомним, что

zil =(xil - xl)/Sl ,

 где xil - значение l-го признака i-го объекта;

        xl - среднее арифметическое значение l-го признака;

       Sl =( ∑i( xil - xl)2/(n-1) )1/2 - стандартное отклонение l-го признака.

В нашем случае x1 = 2,83 , S1 = 1,72 , x2 = 2,0 , S2 = 0,89.

Матрица расстояний имеет вид:

0 4,28 1,59 3,03 6,64 1,25
4,28 0 1,35 1,25 5,34 8,03
1,59 1,35 0 2,60 8,03 5,34
3,03 1,25 2,60 0 1,59 4,28
6,64 5,34 8,03 1,59 0 5,39
1,25 8,03 5,34 4,28 5,39 0

Применение тех же методов одиночной связи и ближайшего соседа получаем другое разбиение на кластеры:

Отдельным кластером является пятый объект. В плоскости x1, x2 показаны первый и второй кластеры.

Однако из дендрограммы очевидно, что удачнее разбиение на три кластера:

Кластер 1: объекты 1 и 6; кластер 2: объекты 2, 3 и 4; кластер 3: объект 5.

Проверьте усвоение  Предыдущий раздел  Следующий раздел  Оглавление

Hosted by uCoz