МЕТОДЫ МНОГОМЕРНЫХ КЛАССИФИКАЦИЙ
Критерии качества классификации
При использовании различных методов кластерного анализа для одной и той же совокупности могут быть получены различные варианты разбиения. Существенное влияние на характеристики кластерной структуры оказывают набор признаков, по которым осуществляется классификация и тип выбранного алгоритма. Проиллюстрируем это на следующем примере. Пусть необходимо семь объектов разделить на две группы по двум показателям x1 и x2. Значения показателей приведены в таблице:
x1 | x2 |
51 | 28 |
63 | 39 |
48 | 29 |
39 | 37 |
31 | 17 |
58 | 36 |
61 | 55 |
Результат кластерного анализа методом ближайшего соседа c метрикой квадрата евклидова расстояния представлен графиком:
Другой график представляет результат кластерного анализа методом дальнего соседа при той же метрике.
Очевидно, что результаты кластерного анализа существенно отличаются как по размерам, так и по составу.
Для снятия неопределенности полученного результата используется некоторая мера качества классификации, которая является функционалом. Наилучшим по выбранному функционалу следует считать такое разбиение, при котором достигается его экстремальное (минимальное или максимальное) значение.
Наиболее распространенными являются следующие функционалы качества:
1. Сумма квадратов расстояний до центров классов:
F1 = ∑m ∑iєSm d2(Xi , Xl) ,
где: m - номер кластера (m = 1, 2, ..., k),
Xm - центр m-го кластера,
Sm - m-тый кластер,
Xi - вектор значений переменных для i-го объекта, входящего в m-й кластер,
d(Xi , Xm) - расстояние между i-м объектом и центром m-го кластера.
При использовании этого критерия стремятся получить такое разбиение совокупности объектов на k кластеров, при котором значение F1 минимально.
2. Сумма внутриклассовых расстояний между объектами:
F2 = ∑m∑i,jєSm (di,j)2
В этом случае наилучшим следует считать такое разбиение, при котором достигается минимальное значение F2. Объекты, попавшие в один кластер, близки между собой по значениям тех переменных, которые использовались для классификации.
3. Суммарная внутриклассовая дисперсия:
F3 = ∑m∑j(σmj)2
где (σmj)2 - дисперсия j-й переменной в кластере Sm.
В данном случае разбиение, при котором сумма внутриклассовых (внутри групповых) дисперсий будет минимальной, следует считать оптимальным.
Для первого разбиения имеем два кластера:
x1 | x2 | x1 | x2 | |
31 | 17 | и | 51 | 28 |
63 | 39 | |||
48 | 29 | |||
39 | 37 | |||
58 | 36 | |||
61 | 55 |
Центр первого кластера: x1 = 31 x2 = 17, второго: x1 = 53,33 x2 = 37,33
Для второго разбиения кластеры:
x1 | x2 | x1 | x2 | |
51 | 28 | и | 63 | 39 |
48 | 29 | 58 | 36 | |
39 | 37 | 61 | 55 | |
31 | 17 |
Центр первого кластера: x1 = 42,25 x2 = 27,75, второго: x1 = 60,67 x2 = 43,33
Применим функционалы качества для выбора разбиения. В нашем примере необходимо два разбиения сравнить по значениям F1, F2 и F3 .
1. Используем F1 (Сумма квадратов расстояний до центров классов)
Для первого разбиения имеем:
F11 = [(31-31)2 + (17-17)2] + [(51-53,33)2 + (28-37,33)2 + (63-53,33)2 + (39-37,33)2 +
+ (48-53,33)2 + (29-37,33)2 + (39-53,33)2 + (37-37,33)2 + (58-53,33)2 + (36-37,33)2 +
+ (61-53,33)2 + (55-37,33)2]=886,66
Для второго разбиения имеем:
F12 = [(51-42,25)2 + (28-27,75)2 + (48-42,25)2 + (29-27,75)2 + (39-42,25)2 + (37-27,75)2 +
+ (31-42,25)2 + (17-27,75)2] + [(63-60,67)2 + (39-43,33)2 + (58-60,67)2 + (36-43,33)2 +
+ (61-60,67)2 + (55-43,33)2] = 670,83
2. Используем F2 (сумма внутриклассовых расстояний между объектами)
Для первого разбиения:
F21 = [(31-31)2 + (17-17)2] + [(51-63)2 + (28-39)2 + (51-48)2 + (28-29)2 + (51-39)2 +
+ (28-37)2 + (51-58)2 + (28-36)2 + (51-61)2 + (28-55)2 + (63-48)2 + (39-29)2 + (63-39)2 +
+ (39-37)2 + (63-58)2 + (63-36)2 + (63-61)2 + (39-55)2 + (48-39)2 + (29-37)2 + (48-58)2 +
+ (29-36)2 + (48-61)2 + (29-55)2 + (39-58)2 + (37-36)2 + (39-61)2 + (37-55)2 + (58-61)2 +
+ (36-55)2] = 5675
Для второго разбиения:
F22 = [(51-48)2 + (28-29)2 + (51-39)2 + (28-37)2 + (51-31)2 + (28-17)2 + (48-39)2 + (29-37)2 +
+ (48-31)2 + (29-17)2 + (39-31)2 + (37-17)2] + [(63-58)2 + (39-36)2 + (63-61)2 + (39-55)2 +
+ (58-61)2 + (36-55)2] = 2458
2. Используем F3 (суммарной внутриклассовой оценке дисперсии)
Для первого разбиения:
F31 = [(31-31)2 + (17-17)2]/1 + [(51-53,33)2 + (63-53,33)2 + (48-53,33)2 + (39-53,33)2 +
+ (58-53,33)2 + (61-53,33)2]/5 + [(28-37,33)2 + (39-37,33)2 + (29-37,33)2 + (37-37,33)2 +
+ (36-37,33)2 + (55-37,33)2]/5 = 177,33
Для второго разбиения:
F32 = [(51-42,25)2 + (48-42,25)2 + (39-42,25)2 + (31-42,25)2]/3 + [(28-27,75)2 + (29-27,75)2 +
+ (37-27,75)2 + (17-27,75)2]/3 + [(63-60,67)2 + (58-60,67)2 + (61-60,67)2]/2 +
+ [(39-43,33)2 + (36-43,33)2 + (55-43,33)2]/2 = 260,5
Проверьте усвоение Предыдущий раздел Следующий раздел Оглавление