РЕГРЕССИОННЫЙ АНАЛИЗ 

Одномерный регрессионный анализ.

Одномерный регрессионный анализ предполагает, что каждое наблюдение yi случайной величины y можно представить в виде: yi = f(xi)+ei , где yi, xi - значения переменных; ei - возмущающее воздействие вероятностной природы.

Корректное применение метода регрессионного анализа (одномерного, множественного и многомерного) предполагает выполнение ряда предпосылок, нарушение которых может привести к существенному искажению результатов и получению неработоспособной модели. Перечислим эти предпосылки (условия):

1. В каждом наблюдении ei имеет нормальное распределение с нулевым МО и конечной дисперсией σ2.  Это часто записывается кратко так: eiЄN( 0,σ2 ).

2. Для любого i дисперсия ei является величиной постоянной (σ2 = const). Это означает, что σ2 не зависит от значений x.

3. Для любого i не равного j COV(ei,ej)=0. Это в соответствии с пунктом 1  означает, что ei и ej должны быть независимыми случайными величинами. 

В соответствии с перечисленными предпосылками M(yi) = f(xi) или My=f(x). Функциональная зависимость My=f(x) или проще y=f(x) называется уравнением регрессии

Одним из самых простых уравнений является уравнение ЛИНЕЙНОЙ РЕГРЕСИИ: y = a+b*x. В этом уравнении исследователю необходимо по выборочным данным x и y вычислить оценки неизвестных КОЭФФИЦИЦИЕНТОВ РЕГРЕСИИ a и b

Существует несколько методов вычисления оценок коэффициентов регресии. Наибольшее распространение получил МЕТОД НАИМЕНЬШИХ КВАДРАТОВ (МНК). Рассмотрим метод на примере вычисления оценок коэффициентов линейной модели. Согласно методу искомыми оценками являются такие, которые минимизируют сумму квадратов отклонений выборочных значений переменных x и y от модели:

где n - число совместных наблюдений x и y. Минимум L(a,b) достигается при значениях a и b обеспечивающих равенство нулю частных производных dL/da и dL/db. Взяв производные, приравняв их нулю и перенеся составляющие с yi в левую часть получим систему уравнений: 

 Эта система называется СИСТЕМОЙ НОРМАЛЬНЫХ УРАВНЕНИЙ. Решение системы нормальных уравнений дает значения оценок (их называют МНК-оценками) коэффициентов регрессии a и b. Если исследователь предварительно вычислил оценку коэффициента корреляции между y и x, то оценки коэффициентов линейной регрессии bоц и aоц можно получить из следующих зависимостей:

 bоц = r(x,y)*Sy/Sx  

aоц = Y - bоц*X

 Одномерные регрессионные модели могут быть различны по своей структуре. В ППП по статистической обработке данных кроме линейной в качестве стандартных предлагаются экспоненциальная y=a*exp(b*x), показательная y=a*xb, обратная y=1/(a+b*x) и другие модели. Характерной особенностью этих простейших моделей является наличие в их структуре только двух коэффициентов регрессии. Часто необходимо оценить большее число коэффициентов в моделях полиномиального вида: y=a+b*x+c*x2+d*x3+... . Это увеличивает порядок системы нормальных уравнений, решение которой уже не мыслимо без применения средств вычислительной техники. 

При построении регрессионных моделей после оценивания коэффициентов регрессии НЕОБХОДИМО ПРОВЕРИТЬ ДЛЯ КАЖДОГО КОЭФФИЦИЕНТА ГИПОТЕЗУ О РАВЕНСТВЕ ЕГО НУЛЮ. Если данные противоречат гипотезе о равенстве нулю коэффициента, то этот коэффициент называется ЗНАЧИМЫМ КОЭФФИЦИЕНТОМ. В противном случае коэффициент называется НЕЗНАЧИМЫМ КОЭФФИЦИЕНТОМ. Из модели должны быть удалены все составляющие с незначимыми коэффициентами. ПОСЛЕ ЭТОГО, за исключением особых случаев, ОБЯЗАТЕЛЕН ПЕРЕСЧЕТ ОСТАЛЬНЫХ ОЦЕНОК КОЭФФИЦИЕНТОВ. Это связано с тем, оценки коэффициентов как случайные величины (они вычислены по выборочным данным) не являются независимыми.

Проверьте усвоение  Предыдущий раздел  Следующий раздел  Оглавление

Hosted by uCoz