МЕТОДЫ МНОГОМЕРНЫХ КЛАССИФИКАЦИЙ
Мера близости и расстояние между объектами
Для проведения классификации необходимо ввести понятие сходства или близости объектов по наблюдаемым переменным. В каждый кластер должны попасть объекты, имеющие сходные характеристики.
В кластерном анализе для количественной оценки близости вводится понятие метрики. Сходство и различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Если каждый объект описывается k признаками, то он может быть представлен как точка в k-мерном пространстве. Сходство с другими объектами будет определяться как соответствующее расстояние. В кластерном анализе используют различные меры расстояния между объектами.
Евклидово расстояние - наиболее общий тип расстояния. Является геометрическим расстоянием между точками в многомерном пространстве:
ρе(Xi , Xj) = ( ∑l(xil - xjl)2 )1/2 ,
где: Xi , Xj - координаты i-го и j-го объектов в k-мерном пространстве;
xil - xjl - величина l-той компоненты у i-го (j-го) объекта (l=1,2,...,k; i,j=1,2,...,n).
Квадрат евклидова расстояния - используется, чтобы придать большие веса
более отдаленным друг от друга объектам: где:
Xi , Xj
- координаты
i-го и j-го объектов в
k-мерном пространстве;
xil
- xjl - величина l-той
компоненты у i-го (j-го)
объекта (l=1,2,...,k; i,j=1,2,...,n).
Взвешенное евклидово расстояние - используется при задании произвольных
весов для тех или иных признаков: где:
Xi , Xj
- координаты
i-го и j-го объектов в
k-мерном пространстве;
xil
- xjl - величина l-той
компоненты у i-го (j-го)
объекта (l=1,2,...,k; i,j=1,2,...,n);
wl -
весовой коэффициент l-го признака.
Расстояние city-block (городских кварталов)
или манхэттенское расстояние - по сравнением с евклидовым расстоянием
влияние отдельных больших разностей (выбросов) уменьшается, так как они не
возводятся в квадрат:
где:
Xi , Xj
- координаты
i-го и j-го объектов в
k-мерном пространстве;
xil
- xjl - величина l-той
компоненты у i-го (j-го)
объекта (l=1,2,...,k; i,j=1,2,...,n).
Расстояние Махаланобиса - применяют в случае зависимых компонент
x1, x2, ..., xk
вектора наблюдений и их различной значимости в решении вопроса
классификации: где:
Xi , Xj
- координаты
i-го и j-го объектов в
k-мерном пространстве;
C-1
- ковариационная матрица генеральной совокупности.
Оценка сходства между объектами сильно зависит от абсолютного значения признака и от степени его вариации в совокупности. Чтобы устранить подобное влияние на процедуру классификации, можно значения исходных переменных нормировать:
zil =(xil - xl)/Sl ,
где xil - значение l-го признака i-го объекта;
xl - среднее арифметическое значение l-го признака;
Sl =( ∑i( xil - xl)2/(n-1) )1/2 - стандартное отклонение l-го признака.
Выбор меры расстояния и весов для классифицирующих переменных - очень важный этап кластерного анализа, так как от этих процедур зависят состав и количество формируемых кластеров, а также степень сходства объектов внутри кластеров.
На первом этапе кластерного анализа n объектов в распоряжении исследователя имеется симметричная матрица расстояний (матрица сходства) размерностью n*n. Эта матрица используется в процедурах иерархического агломеративного кластерного анализа.
Проверьте усвоение Предыдущий раздел Следующий раздел Оглавление