МЕТОДЫ МНОГОМЕРНЫХ КЛАССИФИКАЦИЙ
Пример иерархического кластерного анализа.
Пусть имеется шесть объектов. Каждый объект описывается двумя показателями. Исходная матрица наблюдений X имеет вид:
1 | 2 |
4 | 3 |
2 | 3 |
4 | 2 |
5 | 1 |
1 | 1 |
Используя в качестве метрики квадрат Евклидова расстояния получаем матрицу расстояний:
0 | 10 | 2 | 9 | 17 | 1 |
10 | 0 | 4 | 1 | 5 | 13 |
2 | 4 | 0 | 5 | 13 | 5 |
9 | 1 | 5 | 0 | 2 | 10 |
17 | 5 | 13 | 2 | 0 | 17 |
1 | 13 | 5 | 10 | 17 | 0 |
Применим для образования кластеров метод одиночной связи и метод ближайшего соседа.
Объединяем объекты первый и шестой (расстояние равно 1) в первый кластер.
Объединяем объекты второй и четвертый (расстояние равно 1) во второй кластер.
Включаем в первый кластер третий объект, так как расстояние между ним и первым объектом минимально (равно 2).
Включаем во второй кластер пятый объект, так как расстояние между ним и четвертым объектом минимально (равно 2).
Объединяем первый и второй кластеры, так как расстояние между вторым и третьим объектом минимально (равно 4).
Последовательность объединения графически представляется в виде графа-дерева (дендрограммы):
Ниже на рисунке в плоскости x1, x2 показаны первый и второй кластеры
Необходимо отметить, что результат классификации зависит как от метода классификации и применяемой метрики, так и от нормализации (стандартизации ) значений признаков. Например, при решении данной задачи признаки имели естественные значения. Если выполнить нормализацию исходных данных, то матрица Z будет иметь вид:
-1,06 | 0 |
0,68 | 1,12 |
-0,48 | 1,12 |
0,68 | 0 |
1,26 | -1,12 |
-1,06 | -1,12 |
Напомним, что
zil =(xil
- xl)/Sl , где xil
- значение l-го признака
i-го объекта;
xl -
среднее арифметическое значение l-го признака;
Sl =( ∑i(
xil -
xl)2/(n-1)
)1/2 - стандартное отклонение l-го
признака. В нашем случае
Матрица расстояний имеет вид:
0 | 4,28 | 1,59 | 3,03 | 6,64 | 1,25 |
4,28 | 0 | 1,35 | 1,25 | 5,34 | 8,03 |
1,59 | 1,35 | 0 | 2,60 | 8,03 | 5,34 |
3,03 | 1,25 | 2,60 | 0 | 1,59 | 4,28 |
6,64 | 5,34 | 8,03 | 1,59 | 0 | 5,39 |
1,25 | 8,03 | 5,34 | 4,28 | 5,39 | 0 |
Применение тех же методов одиночной связи и ближайшего соседа получаем другое разбиение на кластеры:
Отдельным кластером является пятый объект. В плоскости x1, x2 показаны первый и второй кластеры.
Однако из дендрограммы очевидно, что удачнее разбиение на три кластера:
Кластер 1: объекты 1 и 6; кластер 2: объекты 2, 3 и 4; кластер 3: объект 5.
Проверьте усвоение Предыдущий раздел Следующий раздел Оглавление