КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ
Метод канонических корреляций
Метод канонических корреляций является обобщением парной корреляции и позволяет находить максимальные корреляционные связи между двумя группами случайных величин. Эта зависимость определяется при помощи новых аргументов - канонических величин (канонических переменных), вычисленных как линейные комбинации исходных признаков по каждой из групп. Эти канонические величины должны максимально коррелировать между собой, а их число определяется по числу переменных в меньшем множестве (если число переменных в них не одинаково).
Например, эффективность работы предприятий оценивается такими показателями как производительность труда, фондоотдача основных фондов, прибыль, рентабельность и другими. Факторами, влияющими на показатели являются численность работающих, стоимость основных фондов, оборачиваемость оборотных средств, удельный вес потерь от брака, трудоемкость единицы продукции, коэффициент сменности работы оборудования и тому подобные. Метод канонических корреляций позволяет анализировать взаимосвязь нескольких выходных показателей и большого числа определяющих факторов.
Пусть имеется k-мерный случайный вектор X. Не умаляя общности можем предположить, что математическое ожидание вектора равно нулю, дисперсии компонент равны единице, корреляционная матрица R положительно определена. Вектор X разбивается на два подвектора X1 и X2 размерности m и p соответственно. При этом m + p = k и m ≤ p. Подвекторы образуют две группы показателей. Задача заключается в выявлении максимальных связей между этими группами. Для этого вводят новые переменные (канонические переменные) d11 и d12 :
d11 = a1*x11+a2*x21+ ... ai*xi1+ ... +am*xm1
d12 = b1*x12+b2*x22+ ... bj*xj2+ ... +bp*xp2
где d11 и d12 - первая пара канонических переменных
xi1 - i-я компонента подвектора X1 ;
xj2 - j-я компонента подвектора X2 ;
ai и bj - коэффициенты ;
i = 1, ..., m; j = 1, ..., p.
Корреляция между d11 и d12 должна быть максимальной среди всех других возможных линейных комбинаций (канонических переменных). Далее в каждой группе рассматриваются следующие линейные комбинации d21 и d22 , у которых корреляция больше, чем между любыми другими линейными комбинациями, не коррелированными с первыми линейными комбинациями. Затем по аналогии пары d31 и d32 , d41 и d42 и т.д. В общем случае должно быть m корреляций между каноническими переменными, которые не коррелируют с другими.
Общая корреляционная матрица Xт*X вектора X может быть представлена совокупностью подматриц:
R11 | R12 |
R21 | R22 |
где R11 - корреляционная матрица первой группы показателей размером m*m,
R22 - корреляционная матрица второй группы показателей размером p*p,
R12 и R21 - корреляционные матрицы взаимных корреляций первой и второй групп показателей размером m*p и p*m соответственно. Причем, R12 =Rт21.
Далее определяется матрица B размером m*m :
B = R-111*R12*R-122*R21
Собственные значения этой матрицы, ранжированные по убыванию, равняются квадратам коэффициентов канонических корреляций. Для разрешимости задачи необходимо, чтобы корреляционные матрицы R11 и R22 были положительно определены. Это означает, что в составе X1 и X2 не должны существовать линейно зависимые компоненты. В противном случае следует один или несколько показателей-факторов исключить.
Проверьте усвоение Предыдущий раздел Следующий раздел Оглавление