МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ. МЕТОД ГЛАВНЫХ КОМПОНЕНТ
Множественный регрессионный анализ.
В множественном регрессионном анализе исследуется зависимость математического ожидания одной случайной величины от значений множества неслучайных величин.
В этом анализе совокупность наблюдений выходной случайной величины y можно представить в виде:
Y = X*B + E ,
где X - матрица n*k значений входных переменных
x11 | x12 | ... | x1j | ... | x1k |
x21 | x22 | ... | x2j | ... | x2k |
... | ... | ... | ... | ... | ... |
xi1 | xi2 | ... | xij | ... | xik |
... | ... | ... | ... | ... | ... |
xn1 | xn2 | ... | xnj | ... | xnk |
Y - вектор-столбец n значений выходной переменной
y1 |
y2 |
... |
yi |
... |
yn |
B - вектор-столбец k коэффициентов регрессии
b1 |
b2 |
... |
bj |
... |
bk |
E - вектор-столбец n значений приведенных к выходу возмущений
e1 |
e2 |
... |
ei |
... |
en |
НАПОМИНАЕМ ПРЕДПОСЫЛКИ РЕГРЕССИОННОГО АНАЛИЗА:
1.
В каждом наблюдении ei имеет нормальное распределение с нулевым МО и
конечной
дисперсией.
2. Для любого i дисперсия ei является величиной постоянной. 3. Для любого i не равного j COV(ei,ej)=0. Это в соответствии с пунктом 1 означает, что ei и ej должны быть независимыми случайными величинами. |
Решение системы нормальных уравнений доставляющее оценки коэффициентов множественной регрессии имеет вид:
Bоц = ( Xт* X)-1*Xт*Y ,
где Bоц - вектор-столбец МНК-оценок коэффициентов множественной регрессии
Xт - транспонированная матрица X ;
(Xт*X)-1 - матрица обратная матрице Xт* X.
Несмещенной оценкой дисперсии возмущений явлется величина:
S2e = (Y - X*Bоц)т*(Y - X*Bоц)/(n - k),
где k - число оцениваниемых коэффициентов в уравнении регрессии.
ПОЛУЧИВ МНК-ОЦЕНКИ Bоц КОЭФФИЦИЕНТОВ УРАВНЕНИЯ РЕГРЕССИИ НЕОБХОДИМО ПРОВЕРИТЬ ДЛЯ КАЖДОЙ ОЦЕНКИ ГИПОТЕЗУ О РАВЕНСТВЕ НУЛЮ ИСТИННОГО ЗНАЧЕНИЯ: Ho:bj=0.
Проверка гипотезы осуществляется сравнением вычисленной T-статистики с критическим значением при заданном уровне значимости и числе степеней свободы(ЧСС) N-k:
Tj = |bj|*[n*(1 - R2j0)]1/2/Se
где Rj0 - коэффициент множественной корреляции j-той входной переменной с остальными.
Если Tj>Tкр, то данные противоречат гипотезе о равенстве нулю истинного значения коэффициента bj (КОЭФФИЦИЕНТ ЗНАЧИМ), если нет, то bj следует считать нулевым (КОЭФФИЦИЕНТ НЕЗНАЧИМ).
По результатам проверки гипотез о равенстве нулю истинных значений коэффициентов множественной регрессии, составляющие с незначимыми коэффициентами должны быть исключены из модели. При этом, в общем случае оценки коэффициентов, оставшиеся в модели должны быть пересчитаны! Это обусловлено коррелированностью входных переменных (матрица Xт*X - недиагональна). Только в случае отсутствия взаимной корреляции входных переменных (матрица Xт*X - диагональна) нет необходимости вновь вычислять оценки коэффициентов регрессии. Однако этого можно добиться лишь при реализации методов активного съема информации (АКТИВНОГО ЭКСПЕРИМЕНТА) с исследуемого объекта.
Пусть оцениваются коэффициенты модели:
y = b0+b1*x1+b2*x2+b3*x3.
Результаты представлены в таблице.
Переменная | Оценки к-тов | Ст. ошибка | T-статистика | Значимость |
Константа | 38,40 | 8,75 | 4,39 | 0,0011 |
x1 | -3,59 | 1,21 | 2,97 | 0,0128 |
x2 | -1,84 | 1,20 | 1,53 | 0,1534 |
x3 | -0,27 | 0,59 | 0,46 | 0,6577 |
Число наблюдений n=15, следовательно число степеней свободы T-статистики составляет n-k=15-4=11. При α=0,05 Tкр=2.20. Из таблицы видно, что отличными от нуля следует считать b0 и b1, т.к. для них значение T-статистики превышает Tкр. В правом столбце таблицы приведена значимость - вероятность получения такой оценки и больше (по абсолютной величине) при равенстве нулю истинного значения. Иногда, не совсем корректно, говорят, что это вероятность равенства нулю истинного значения коэффициента. Если значимость меньше заданного α, то соответствующий коэффициент значим.
После удаления из модели составляющих с незначимыми коэффициентами (переменных x2 и x3) и перерасчета оценок имеем:
Переменная | Оценки к-тов | Ст. ошибка | T-статистика | Значимость |
Константа | 38,40 | 8,75 | 4,39 | 0,0011 |
x1 | -3,59 | 1,21 | 2,97 | 0,0128 |
При α=0,05 и числе степеней свободы n-k=15-2=13 критическое значение T-статистики Tкр=2,16. Таким образом, при α=0,05 оба коэффициента значимы. Это же подтверждается величинами значимости в правом столбце таблице. Следовательно, на следующем этапе исследования необходимо рассматривать модель: y = b0+b1*x1
Проверьте усвоение Предыдущий раздел Следующий раздел Оглавление