МЕТОДЫ И ИНСТРУМЕНТАРИЙ МНОГОМЕРНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА
Оценивание параметров многомерной случайной
величины Основным методом
оценивания параметров многомерных случайных величин является метод
выборочного анализа. Согласно этому методу из генеральной совокупности
наблюдаемого случайного вектора извлекается выборка, которая
анализируется и результаты анализа распространяются на всю генеральную
совокупность.
Выборку объема n из
k-мерной генеральной совокупности можно
представить в виде матрицы данных: Точечные оценки математических ожиданий
X
компонент вектора X вычисляются по формулам:
x11
x12
...
x1j
...
x1k
x21
x22
...
x2j
...
x2k
...
...
...
...
...
...
xi1
xi2
...
xij
...
xik
...
...
...
...
...
...
xn1
xn2
...
xnj
...
xnk
xj = (xi1 + xi2 + ... + xij + ... + xik)/n,
где xj - точечная оценка математического ожидания j-той компоненты вектора X, j = 1, ..., k, i = 1, ..., n.
Оценка ковариационной матрицы COV (обозначим матрицу оценок ковариаций C) имеет вид:
c(x1,x1)
c(x1,x2)
...
c(x1,xj)
...
c(x1,xk)
c(x2,x1)
c(x2,x2)
...
c(x2,xj)
...
c(x2,xk)
...
...
...
...
...
...
c(xi,x1)
c(xi,x1)
...
c(xi,xj)
...
c(xi,xk)
...
...
...
...
...
...
c(xk,x1)
c(xk,x2)
...
c(xk,xj)
...
c(xk,xk)
где: c(xi,xj) = ∑i[(xij - xi)*(xij - xj)]/(n - 1), i = 1, ..., n, j = 1, ..., k.
Очевидно, что c(xj,xj) является оценкой дисперсии j-го компонента вектора X.
Оценка корреляционной матрицы R имеет вид:
1 | r(x1,x2) | ... | r(x1,xj) | ... | r(x1,xk) |
r(x2,x1) | 1 | ... | r(x2,xj) | ... | r(x2,xk) |
... | ... | ... | ... | ... | ... |
r(xi,x1) | r(xi,x1) | ... | r(xi,xj) | ... | r(xi,xk) |
... | ... | ... | ... | ... | ... |
r(xk,x1) | r(xk,x2) | ... | r(xk,xj) | ... | 1 |
где r(xi,xj) = c(xi,xj)/[c(xi,xi)*c(xj,xj)]1/2
Точечные оценки параметров случайных величин являются необходимыми, но недостаточными. Так, оценка параметра непрерывной случайной величины совпадает с истинным значением параметра с вероятностью равной нулю (не совпадает никогда). Поэтому, для полного описания оценки параметра необходима интервальная оценка. Для одномерной случайной величины это доверительный интервал, для многомерной (случайного вектора) - доверительная область.
Пусть имеется вектор параметров Θ. Доверительной областью вектора параметров Θ называется область, определяемая результатами наблюдений, которая с доверительной вероятностью P содержит значение вектора . Очевидно, что построение области, ее вид, зависит от распределения вектора статистик-оценок параметров Θ. Рассмотрим построение доверительной области для математического ожидания k-мерного вектора X в предположении, что распределение компонентов X подчинено нормальному закону распределения: X€Nk(μ,COV). Здесь μ = MX - математическое ожидание вектора X, COV - ковариационная матрица вектора X. Пусть найден вектор точечных оценок математического ожидания (вектор средних) X и матрица оценок ковариаций C. При k=1 для построения доверительного интервала для математического ожидания используют статистику t = (x - µ)*(n)1/2/s, которая имеет t-распределение с числом степеней свободы ν= n-1 (s - оценка дисперсии). Данное соотношение эквивалентно представлению
t2 = n*(x - µ)*(s-1)*(x - µ).
Статистика t2 имеет распределение χ2 с числом степеней свободы ν=n-1.
Для k больше единицы при построении доверительной области используется статистика T2 (статистика Хотеллинга):
T2 = n*(X - µ)т*(C-1)*(X - µ)
где µ - вектор математических ожиданий k-мерного случайного вектора X;
X - вектор средних значений (точечных оценок) математических ожиданий k-мерного случайного вектора X;
C-1 - матрица обратная матрице оценок ковариаций.
При заданной доверительной вероятности P, известных значениях k и n статистика T2 связана со статистикой F:
T2 = [k*(n - 1)/(n - k)]*F
Учитывая это соотношение доверительная область математического ожидания k-мерного случайного вектора X с доверительной вероятностью P описывается следующим уравнением поверхности:
(X - µ)т*(C-1)*(X - µ) = [k*(n - 1)/(n*(n - k))]*F1-P
где: F1-P - значение F соответствующее уровню значимости α = 1 - P при числах степеней свободы ν1 = k и ν2 = n - k.
Доверительная область определяет k-мерный эллипсоид (при k=2 эллипс) с центром X, так как (X - µ)т*(C-1)*(X - µ) представляет собой положительно определенную квадратичную форму.
Необходимо понимать, что определение доверительной области без учета ковариаций является более грубым. Это хорошо видно при k = 2. В этом случае без учета ковариаций доверительная область будет представлять собой прямоугольник с координатами вершин:
x1 - t1-P/2*s1/(n)1/2 , x1 + t1-P/2*s1/(n)1/2
x2 - t1-P/2*s2/(n)1/2 , x2 + t1-P/2*s2/(n)1/2 .
Здесь x1, x2 - компоненты оценки вектора математического ожидания X.
Ниже на рисунке представлено различие между доверительными областями определенными с учетом и без учета ковариаций.
Из рисунка видно значительное различие, которое зависит от степени взаимной зависимости компонент вектора X.
Рассмотрим пример для
случая k=2 и n=10.
Пусть вектор X содержит
x1
- доходы предприятия и
x2
- цены на производимую продукцию:
x1 | x2 |
10 | 5,1 |
12 | 5,6 |
10,5 | 5,7 |
10,7 | 5,5 |
11,5 | 5,4 |
11,8 | 5,3 |
12,3 | 5,2 |
12,5 | 5,0 |
12,5 | 5,2 |
13,1 | 5,3 |
Необходимо построить доверительную область математического ожидания вектора X для доверительной вероятности P = 0,95.
Оценки математических ожиданий дохода x1 = 11,72 и цены x2 = 5,33. Ковариационная матрица C имеет вид:
1,07 |
-0,083 |
-0,083 |
0,049 |
Обратная матрица C-1 имеет вид:
1,07 | 1,82 |
1,82 | 23,48 |
Статистика Хотеллинга имеет вид:
T2 = (x - µ)т*(C-1)*(x - µ) = [k*(n - 1)/(n*(n - k))]*F1-P
Значение F1-P = 4,46 при ν1 = k = 2 и ν2 = n - k = 8 (значение Fα выбрано из таблицы)
T2 = [k*(n - 1)/(n*(n - k))]*F0,95 = [2*(9-1)/(10*(10-2)]*4,46 = 16*4,46/80 = 0,89
Тогда доверительная область описывается эллипсом:
(X - µ)т*(C-1)*(X - µ) = 0,89
(11,72 - µ1 , 5,33 - µ2)*(C-1)*(11,72 - µ1 , 5,33 - µ2)т = 0,89
Обратите внимание, что вектор математического ожидания есть вектор-столбец. Поэтому знак транспонирования присутствует у правой составляющей последнего выражения. Тогда
(11,72 - µ1 , 5,33 - µ2)*(C-1)=
=( [1,07*(11,72 - µ1)+1,82*(5,33 - µ2)],[1,82*(11,72 - µ1)+23,48*(5,33 - µ2)] ).
Теперь полученный вектор-строку умножаем на вектор столбец (11,72 - µ1 , 5,33 - µ2)т получим
[1,07*(11,72 - µ1)+1,82*(5,33 - µ2)]*(11,72 - µ1)+
+[1,82*(11,72 - µ1)+23,48*(5,33 - µ2)](5,33 - µ2)=
(1,07*11,72 - 1,07*µ1 + 1,82*5,33 - 1,82*µ2)*(11,72 - µ1)+
(1,82*11,72 - 1,82*µ1 + 23,48*5,33 - 23,48*µ2)*(5,33 - µ2)=
=(22,24 - 1,07*µ1 - 1,82*µ2)*(11,72 - µ1)+(146,48 - 1,82*µ1 - 23,48*µ2)*(5,33 - µ2)=
=22,24*11,72 - 22,24*µ1 - 11,72*1,07*µ1 + 1,07*(µ1)2 - 11,72*1,82*µ2 + 1,82*µ1*µ2 +
+146,48*5,33 - 146,48*µ2 -5,33*1,82*µ1 + 1,82*µ1*µ2 - 23,48*5,33*µ2 +23,48*(µ2)2 =
=1041,39 + 1,07*(µ1)2 + 23,48*(µ2)2 - 44,48*µ1 - 292,96*µ2 + 3,64*µ1*µ2 .
Таким образом, доверительная область при значении доверительной вероятности равном 0,95 описывается уравнением:
1,07*(µ1)2 + 23,48*(µ2)2 - 44,48*µ1 - 292,96*µ2 + 3,64*µ1*µ2 + 1040,5 = 0
Проверьте усвоение Предыдущий раздел Следующий раздел Оглавление