МЕТОДЫ МНОГОМЕРНЫХ КЛАССИФИКАЦИЙ  

Мера близости и расстояние между объектами

    Для проведения классификации необходимо ввести понятие сходства или близости объектов по наблюдаемым переменным. В каждый кластер должны попасть объекты, имеющие сходные характеристики.

    В кластерном анализе для количественной оценки близости вводится понятие метрики. Сходство и различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Если каждый объект описывается k признаками, то он может быть представлен как точка в k-мерном пространстве. Сходство с другими объектами будет определяться как соответствующее расстояние. В кластерном анализе используют различные меры расстояния между объектами.

    Евклидово расстояние - наиболее общий тип расстояния. Является геометрическим расстоянием между точками в многомерном пространстве:

ρе(Xi , Xj) = (l(xil - xjl)2 )1/2 ,

где: Xi , Xj - координаты i-го и j-го объектов в k-мерном пространстве;

        xil - xjl - величина l-той компоненты у i-го (j-го) объекта (l=1,2,...,k; i,j=1,2,...,n).

    Квадрат евклидова расстояния - используется, чтобы придать большие веса более отдаленным друг от друга объектам:

ρке(Xi , Xj) = ∑l(xil - xjl)2 ,

где: Xi , Xj - координаты i-го и j-го объектов в k-мерном пространстве;

        xil - xjl - величина l-той компоненты у i-го (j-го) объекта (l=1,2,...,k; i,j=1,2,...,n).

    Взвешенное евклидово расстояние - используется при задании произвольных весов для тех или иных признаков:

ρве(Xi , Xj) = lwl*(xil - xjl)2 ,

где: Xi , Xj - координаты i-го и j-го объектов в k-мерном пространстве;

        xil - xjl - величина l-той компоненты у i-го (j-го) объекта (l=1,2,...,k; i,j=1,2,...,n);

        wl - весовой коэффициент l-го признака.

        Расстояние city-block (городских кварталов) или манхэттенское расстояние - по сравнением с евклидовым расстоянием влияние отдельных больших разностей (выбросов) уменьшается, так как они не возводятся в квадрат:

ρcb(Xi , Xj) = ∑l| xil - xjl | ,

где: Xi , Xj - координаты i-го и j-го объектов в k-мерном пространстве;

        xil - xjl - величина l-той компоненты у i-го (j-го) объекта (l=1,2,...,k; i,j=1,2,...,n).

        Расстояние Махаланобиса - применяют в случае зависимых компонент x1, x2, ..., xk вектора наблюдений и их различной значимости в решении вопроса классификации:

ρm(Xi , Xj) = (Xi - Xj)T *C-1 * (Xi - Xj)  ,

где: Xi , Xj - координаты i-го и j-го объектов в k-мерном пространстве;

        C-1 - ковариационная матрица генеральной совокупности.

        Оценка сходства между объектами сильно зависит от абсолютного значения признака и от степени его вариации в совокупности. Чтобы устранить подобное влияние на процедуру классификации, можно значения исходных переменных нормировать:

zil =(xil - xl)/Sl ,

 где xil - значение l-го признака i-го объекта;

        xl - среднее арифметическое значение l-го признака;

       Sl =( ∑i( xil - xl)2/(n-1) )1/2 - стандартное отклонение l-го признака.

      Выбор меры расстояния и весов для классифицирующих переменных - очень важный этап кластерного анализа, так как от этих процедур зависят состав и количество формируемых кластеров, а также степень сходства объектов внутри кластеров.

На первом этапе кластерного анализа n объектов в распоряжении исследователя имеется симметричная матрица расстояний (матрица сходства) размерностью n*n. Эта матрица используется в процедурах иерархического агломеративного кластерного анализа.

Проверьте усвоение  Предыдущий раздел  Следующий раздел  Оглавление

Hosted by uCoz