МЕТОДЫ И ИНСТРУМЕНТАРИЙ МНОГОМЕРНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА
Параметрическое описание многомерной случайной величины
При параметрическом описании поведение случайной величины определяется значениями специальных характеристик - параметров или моментов случайной величины. Напомним основные параметры описания одномерной случайной величины.
Основной характеристикой является первый начальный момент, который называется МАТЕМАТИЧЕСКИМ ОЖИДАНИЕМ СЛУЧАЙНОЙ ВЕЛИЧИНЫ (МО):
где: Mx - значение математического
ожидания случайной величины x;
A,B - пределы
интегрирования (A - минус бесконечность, B - плюс бесконечность);
f(x) - функция плотности вероятности случайной
величины x.
Для дискретной случайной величины интеграл
превращается в сумму. Математическое ожидание характеризует центр, относительно
которого группируются значения случайной величины.
Другими параметрами случайной величины являются ЦЕНТРАЛЬНЫЕ МОМЕНТЫ. Центральным моментом порядка k называется математическое ожидание отклонения значений случайной величины от центра в степени k:
Доказано, что если функция плотности
распределения случайной величины имеет одну вершину (функция
унимодальна), то для
полного описания поведения этой случайной величины достаточно указать
МО и
центральные моменты второго, третьего и четвертого порядка. Последние три
характеристики имеют специальные названия.
Второй
центральный момент называется ДИСПЕРСИЕЙ: Dx =
M[(x-Mx)2]. Дисперсия характеризует разброс
значений случайной величины относительно МО. Обратите внимание, дисперсия всегда
больше нуля.
Третий центральный момент называется
АСИММЕТРИЕЙ: Ax = M[(x-Mx)3]. Асимметрия
характеризует "косость" графика функции плотности вероятности
случайной величины.
При Ax = 0 абсцисса вершины графика функции f(x) совпадает с
МО
(график симметричен). Если Ax < 0, то вершина этого графика
расположена левее МО, при Ax > 0 вершина расположена правее
МО.
Четвертый центральный момент называется ЭКСЦЕССОМ: Ex =
M[(x-Mx)4]. Этот момент характеризует
"островершинность" графика f(x) и его значение всегда больше нуля.
Наиболее распространенным в природе, а следовательно и
наиболее часто применяемом для описания вероятностных процессов, является
нормальный закон распределения. Для полного параметрического описания
поведения случайной величины при нормальном законе распределения достаточно
задания только двух параметров: математического ожидания и дисперсии.
Асимметрия и эксцесс при нормальном законе распределения определяются через эти
два параметра.
Пусть имеется случайный вектор X = (x1,x2, ... , xk)т , тогда математическое ожидание вектора MX = (Mx1,Mx2, ... , Mxk)т . Центральным смешанным моментом второго порядка i-той и j-той компонент случайного вектора X называется ковариацией
cov(xi,xj) = M[(xi - Mxi)*(xj - Mxj)]
Многомерным аналогом ковариации является ковариационная матрица случайного вектора COV = M[(X - MX)(X - MX)т], которая имеет вид:
D(x1) | cov(x1,x2) | ... | cov(x1,xj) | ... | cov(x1,xk) |
cov(x2,x1) | D(x2) | ... | cov(x2,xj) | ... | cov(x2,xk) |
... | ... | ... | ... | ... | ... |
cov(xi,x1) | cov(xi,x1) | ... | D(xi) | ... | cov(xi,xk) |
... | ... | ... | ... | ... | ... |
cov(xk,x1) | cov(xk,x2) | ... | cov(xk,xj) | ... | D(xk) |
Матрица симметрическая и неотрицательно определена.
Напоминание. Квадратная матрица A называется положительно определенной, если для любого ненулевого вектора X ≠ 0, XтAX > 0. Аналогично определяются отрицательно (XтAX < 0), неотрицательно (XтAX ≥ 0) и неположительно (XтAX ≤ 0) определенные матрицы.
Если элементы матрицы COV нормировать, то получится корреляционная матрица R:
где
ρ(xi,xj)
= cov(xi,x1)/[D(xi)*D(xj)]1/2
- коэффициент корреляции i-той
и j-той компонент вектора X.
1
ρ(x1,x2)
...
ρ(x1,xj)
...
ρ(x1,xk)
ρ(x2,x1)
1
...
ρ(x2,xj)
...
ρ(x2,xk)
...
...
...
...
...
...
ρ(xi,x1)
ρ(xi,x1)
...
ρ(xi,xj)
...
ρ(xi,xk)
...
...
...
...
...
...
ρ(xk,x1)
cov(xk,x2)
...
ρ(xk,xj)
...
1
Очевидно, что матрица R так же как и матрица COV симметрическая и неотрицательно определена. Однако, эти матрицы при значениях k > 2 не позволяют полностью описать связи между компонентами вектора X. Зависимость между компонентом xi и остальными компонентами x1, x2, ...xi-1, xi+1, ..., xk можно представить в виде:
xi = zi(x1, x2, ...xi-1, xi+1, ..., xk) + ei(x1, x2, ...xi, ..., xk),
где zi(x1, x2, ...xi-1, xi+1, ..., xk) - некоторая функция k-1 компонент вектора X,
ei(x1, x2, ...xi, ..., xk) - остаточные отклонения.
Функция zi(x1, x2, ...xi-1, xi+1, ..., xk) называется регрессией компонента xi на компоненты x1, x2, ...xi-1, xi+1, ..., xk. В большинстве исследований в качестве регрессии выбирают функцию минимизирующую математическое ожидание квадрата отклонений M[(xi - ei)2]. Можно показать, что минимум достигается когда zi(x1, x2, ...xi-1, xi+1, ..., xk) равно условному математическому ожиданию M(xi/x1, x2, ...xi-1, xi+1, ..., xk).
Показателем, характеризующим рассеяние случайной величины xi при фиксированных x1,x2,...,xi-1, xi+1, ..., xk является условная дисперсия
D(xi/x1, x2, ...xi-1, xi+1, ..., xk)=M[xi - M(xi/x1, x2, ...xi-1, xi+1, ..., xk)]2
Эта дисперсия называется остаточной Dост i . Тогда отношение этой дисперсии к дисперсии компоненты i называется корреляционным отношением:
1 - ηi2 = Dост i/D(xi)
или
ηi2 = 1 - Dост i/D(xi)
Корреляционное отношение показывает какая доля общего рассеяния случайных величин x1, ..., xk обусловлена рассеянием случайной величины xi.
Показателем меры линейной зависимости xi от x1, x2, ...xi-1, xi+1, ..., xk служит множественный коэффициент корреляции Ri0 :
Ri0 = (1 - |R|/|Rii|)1/2
где |R| - определитель корреляционной матрицы;
|Rii| - определитель минора матрицы R, получаемого вычеркиванием j-той строки и j-того столбца.
Если зависимость xi от x1, x2, ...xi-1, xi+1, ..., xk линейна, то справедливо равенство:
R2i0 = ηi2
Представленные параметры позволяют описать поведение случайного вектора X, если компоненты вектора распределены по нормальному закону.
Непрерывная k-мерная случайная величина распределена нормально, если плотность распределения имеет вид:
f(X)=[ (2π)k |COV| ]-
1/2 exp[ -(X-MX)т(COV)-1(X-MX)/2 ],где: MX = (Mx1,Mx2, ... , Mxk)т - математическое ожидание вектора X,
(COV)-1 - матрица обратная ковариационной матрице COV,
|COV| - определитель ковариационной матрицы.
Если k=2, то введя обозначения:
D(x1)=σ12, D(x2)=σ22, Mx1=µ1, Mx2=µ2, ρ(x1,x2)=ρ
то функция плотности вероятности двумерного нормального распределения имеет вид:
f(X)=[ (2π)σ1σ2(1 - ρ2)1/2 ]-1 exp[ -Q(x1,x2)/2 ],
где:
Q(x1,x2)=[(x1-µ1)2/σ12 - 2ρ(x1-µ1)2(x2-µ2)2/(σ1σ2) + (x2-µ2)2/σ22]
Таким образом в скалярных параметрах двумерное нормальное распределение требует для своего описания пять параметров: два математических ожидания (µ1, µ2), две дисперсии: (σ12, σ22) и коэффициент корреляции ρ.
Проверьте усвоение Предыдущий раздел Следующий раздел Оглавление