МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ. МЕТОД ГЛАВНЫХ КОМПОНЕНТ

Метод главных компонент

Метод главных компонент (МГК) применяется для снижения размерности пространства наблюдаемых векторов, не приводя к существенной потере информативности. Предпосылкой МГК является нормальный закон распределения многомерных векторов. В МГК линейные комбинации случайных величин определяются характеристическими векторами ковариационной матрицы. Главные компоненты представляют собой ортогональную систему координат, в которой дисперсии компонент характеризуют их статистические свойства.

Пусть дан исходный набор векторов X линейного пространства L^k. Применение метода главных компонент позволяет перейти к базису пространства L^m (m≤k), такому что: первая компонента (первый вектор базиса) соответствует направлению, вдоль которого дисперсия векторов исходного набора максимальна. Направление второй компоненты (второго вектора базиса) выбрано таким образом, чтобы дисперсия исходных векторов вдоль него была максимальной при условии ортогональности первому вектору базиса. Аналогично определяются остальные векторы базиса. В результате, направления векторов базиса выбраны так, чтобы максимизировать дисперсию исходного набора вдоль первых компонент, называемых главными компонентами (или главными осями). Получается, что основная изменчивость векторов исходного набора векторов представлена несколькими первыми компонентами, и появляется возможность, отбросив оставшиеся (менее существенные) компоненты, перейти к пространству меньшей размерности.

Результатом применения МГК является вычисление матрицы W размера m*k, осуществляющей проекцию векторов пространства L^k на подпространство, натянутое на главные компоненты:

Y = W*(X - μ), Y ∈ L^m, X ∈ L^k.

Где X - вектор из исходного набора, Y - координаты вектора в подпространстве главных компонент, μ - математическое ожидание вектора X начального набора.

Главные компоненты (векторы базиса), выбираемые с помощью МГК, обладают следующим свойством: обратная проекция вектора Y в L^k дает минимальную ошибку реконструкции (минимальное расстояние до образа вектора Y). Нужно отметить, что корректное применение МГК возможно лишь при предположении о нормальном распределении векторов исходного набора.

Пусть имеется реализация (20 наблюдений) двумерного вектора X. На рисунке

представлена совокупность наблюдений. Определение главных компонент Y вектора X

состоит в определении новых осей координат по условию: направление координаты y₁ должно соответствовать максимальному рассеянию наблюдений, направление y₂ должно соответствовать направлению с максимальном рассеянием наблюдений среди всех направлений ортогональных y₁. Если исходные данные нормировать, то начало координат главных компонент будет соответствовать X = (x₁,x₂)^т , дисперсии компонент, будут равны единице.

Решение задачи методом главных компонент сводится к поэтапному преобразованию матрицы исходных данных X.

Пусть X – матрица исходных данных размерностью n*k (n – число объектов наблюдения, k – число элементарных аналитических признаков), тогда Z – матрица центрированных и нормированных значений признаков, элементы матрицы вычисляют по формуле:

z_i,j =( x_i,j - x_j )/S_j_,

где: x_i,j - i-ое значение j-ой компоненты вектора X, i=1,2, ... ,n; j=1,2, ... ,k,

x_j - оценка математического ожидания j-ой компоненты вектора X: x_j =∑_i x_i,j/n ,

S_j- корень квадратный из оценки дисперсии j-ой компоненты вектора X:

S²_j= ∑_i (x_i,j - x_j )²/(n-1).

Матрица оценок парных корреляций R вычисляется по формуле:

R=(Z^т*Z)/(n-1).

Напомним, что оценка ковариационной матрицы C вычисляется по формуле:

C = (X^т*X)/(n-1).

Далее вычисляется диагональная матрица Λ собственных (характеристических) чисел.

Напоминание

Пусть A — квадратная матрица. Вектор V называется собственным вектором матрицы A если A*V = λ*V, где число λ называется собственным значением матрицы A. Таким образом преобразование, которое выполняет матрица A над вектором V, сводится к простому растяжению или сжатию с коэффициентом λ. Собственный вектор определяется с точностью до умножения на константу α ≠ 0, т.е. если V — собственный вектор, то и αV — тоже собственный вектор.

У матрицы A , размерностью (n*n) не может быть больше чем n собственных значений. Они удовлетворяют характеристическому уравнению det(A − λI) = 0, являющемуся алгебраическим уравнением n-го порядка. Набор собственных значений λ₁,..., λ_n матрицы A называется спектром A. Спектр обладает разнообразными свойствами. В частности det(A) = λ₁×...×λ_n, Sp(A) = λ₁+...+λ_n. Собственные значения произвольной матрицы могут быть комплексными числами, однако если матрица симметричная (A^т = A), то ее собственные значения вещественны.

Пусть имеется матрица A:

1	4
2	3

тогда

det(A − λI) = (1 - λ)*(3 - λ) - 2*4 = λ² - 4*λ - 5 = 0

λ₁ = 5, λ₂ = -1; det(A) = λ₁*λ₂ = 5*(-1) = -5; Sp(A) = λ₁+ λ₂ = 5 - 1 = 4

Cобственные вектора: V₁ = (0,7, 0,7)^т и V₂ = (0,89, -0,45)^т

A*V₁ = λ₁*V₁ = (3,5, 3,5)^т= 5*(0,7, 0,7)^т ;

A*V₂ = λ₂*V₂ = (-0,89, 0,45)^т = -1*(0,89, -0,45)^т

Квадратную (в частности симметричную) матрицу A можно привести к диагональному виду преобразованием подобия A = ΛT⁻¹ Здесь Λ = diag(λ₁,..., λ_n) — это диагональная матрица, элементами которой являются собственные значения матрицы A, а T — это матрица, составленная из соответствующих собственных векторов матрицы A, т.е. T = (V₁,...,V_n).

Множество решений λ_j находят решением характеристического уравнения |R - λI| = 0. Характеристики вариации λ_j - показатели оценок дисперсий каждой главной компоненты. Суммарное значение Σλ_j равно сумме оценок дисперсий элементарных признаков x_j. При условии стандартизации исходных данных, эта сумма равна числу элементарных признаков k.

Решив характеристическое уравнение, находят его корни λ_j. После этого вычисляют собственные векторы матрицы R. Реально это означает решение k систем линейных уравнений для каждого при j = 1, ..., k. В общем виде система имеет вид:

(1-λ_j )*v_1j + r₁₂*v_2j +r₁₃*v_3j + ... +r_1k*v_kj = 0,

r₂₁*v_1j + (1-λ_j )*v_2j +r₂₃*v_3j+ ... +r_2k*v_kj = 0,

...............................................................................

r_k1*v_1j + r_k2*v_2j +r_k3*v_3j+ ... +(1-λ_j )*v_kj = 0,

Приведенная система объединяет однородные линейные уравнения, и так как число ее уравнений равно числу неизвестных, она имеет бесконечное множество решений. Конкретные значения собственных векторов при этом можно найти, задавая произвольно по крайней мере величину одной компоненты каждого вектора.

Далее вычисляется матрица A – матрица компонентного отображения, ее элементы a_kj – весовые коэффициенты. Вначале A имеет размерность k*k – по числу элементарных признаков X_j, затем в анализе остается m наиболее значимых компонент, m ≤ k. Вычисляют матрицу A по известным данным матрицы собственных чисел Λ и нормированных собственных векторов V по формуле A = V*Λ^1/2.

G – матрица значений главных компонент размерностью k*n, G = A^-1Z^т . Эта матрица в общем виде записывается:

g₁₁	g₁₂	...	g_1n
g₂₁	g₂₂	...	g_2n
...	...	...	...
g_k1	g_k1	...	g_kn

Эта матрица показывает значения всего набора главных компонент (число главных компонент равно k). При снижении размерности до m главных компонент размер матрицы будет m*n. Величина m либо назначается пользователем, либо определяется по значениям λ_j. Например, в ППП "Statgraphics" по умолчанию остаются только те главные компоненты, собственные числа которых не меньше единицы.

Проверьте усвоение Предыдущий раздел Следующий раздел Оглавление