Анализ вариации зависимой переменной

Автор: Пользователь скрыл имя, 08 Июня 2014 в 10:13, реферат

Краткое описание

Доказательства некоторых простых утверждений, связанные с дисперсионным анализом уравнения регрессии.
Выборочные коэффициент детерминации и скорректированный коэффициент детерминации.
Доверительные интервалы для уравнения регрессии.
Определение доверительного интервала для истинного значение уравнения регрессии.

Файлы: 1 файл

Эконометрика.docx

— 39.06 Кб (Скачать)

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ

УО«БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ТРАНПОРТА

 

 

 

 

 

 

КАФЕДРА ЭКОНОМИКИ ТРАНСПОРТА

 

 

 

Дисциплина: Эконометрика (продвинутый уровень)

 

 

РЕФЕРАТ

 

На тему: «Анализ вариации зависимой переменной»

 

 

 

 

 

 

 

 

 

 

 

Выполнила:                                                                       Проверила:

магистрант группы ЗмГЭ-2                                             доцент

Залужная А.В.                                                                   Липатова О. В.

 

 

 

 

 

 

 

 

Гомель, 2013

 

Доказательства некоторых простых утверждений, связанные с дисперсионным анализом уравнения регрессии

 

Многомерная регрессионная модель или модель множественной регрессии является естественным обобщением линейной регрессионной модели с двумя переменными

yt = β1 + β2 xt2 +  . . . + βk xtk + εt   ,  t=1,  . . . , n

yt = β1 xt + β2 xt2 +  . . . + βk xtk + εt   ,  t=1,  . . . , n

где xtp – значения регрессора хр в наблюдении t, а xt1 = 1, t = 1,  . . . , n.

 

Основные простые утверждения, связанные с дисперсионным анализом уравнения регрессии, которые лежат в основе модели множественной регрессии, являются естественным обобщением модели парной регрессии (модель нормальной линейной регрессионной):

  1. yt = β1 xt + β2 xt2 +  . . . + βk xtk + εt   ,  t=1,...,n   - спецификация модели.
  2. Хt1 , . . . , Хtk - детерминированные величины.

Векторы хs = (x1s , . . . , xns) , s=1 , . . . k линейно независимы в Rn .

  1. a. Eεt = 0, E(εt2) = V (εt) = σ2 – не зависит от t.

3. b. E(εt εs) = 0 при t ≠ s  - статистическая независимость (некоррелированность) ошибок для разных наблюдений.

3. c. Ошибки εt , t = 1 , . . . , n имеют совместное нормальное распределение: εt ~N (0, σ2).

 

 

Выборочные коэффициент детерминации и скорректированный коэффициент детерминации

 

Вариацию (yt - ỳ)2 можно разбить на 2 части: объясненную регрессионным уравнением и необъясненную (т. .е. связанную с ошибками ε)

. (yt - ỳ)2 = (yt - ỳ)2 + (yt - ỳ)2 + 2 (yt - ỳ) (yt - ỳ)

или в векторной форме

(yt - ỳг)’ (yt - ỳг) = (yt - ỳ)’ (yt - ỳг) + (yt - ỳг)’ (yt - ỳ) + 2(yt - ỳ)’ (yt - ỳг).

Третье слагаемое в последней форме равно нулю в случае, если константа, т.е. вектор г = (1 , . . . 1)’ , принадлежит линейной оболочке векторов х1 , . . . , хk. В самом деле,

(yt - ỳг)’ (yt - ỳг) = е’ (X β - ỳг) = e’ X β - ỳe’г = 0, т.к. в силу e= ’ X = 0 и e’г/n = 0. Поэтому верно равенство || y - ỳг||2 = || y - ỳг||2 + || y - ỳг||2

Если записать в отклонениях у* = у - ỳг; у* = у - ỳг, то получится Теорема Пифагора: y’* y* = e’e + y’* y*

Определяется коэффициент детерминации R2 как

R2 = 1 – ESS/TSS = 1 – e’e/y’*y* = y’*y*/ y’*y* = ESS/TSS

Отметим, что коэффициент R2 корректно определен только в том случае, если константа, т.е. вектор г = (1, . . . , 1), принадлежит линейной оболочке векторов х1 , . . . хк. В этом случае R2 принимает значения из интервала [0,1].

Коэффициент R2 показывает качество подгонки регрессионной модели к наблюденным значениям уt .

Если R2 = 0, то регрессия у на х1 , . . . , хк не улучшает качество предсказания уt по сравнению с тривиальным предсказанием уt = y.

Другой крайний случай R2 = 1 означает точную подгонку: все еt = 0, т.е. все точки наблюдений удовлетворяют уравнению регрессии.

В какой степени допустимо использовать критерий R2 для выбора между несколькими регрессионными уравнениями? Следующие  два замечания побуждают не полагаться только на значение R2.

1. R2, вообще говоря, возрастает при добавлении еще одного регрессора.

2. R2, изменяется даже при простейшем преобразовании зависимой переменной, поэтому сравнивать по значению R2 можно только регрессии с  одинаковыми зависимыми переменными.

Если взять число регрессоров равным числу наблюдений, всегда можно добиться того, что R2 =1, но это вовсе не будет означать наличие содержательной  (имеющий экономический смысл) зависимости у от регрессоров.

Попыткой устранить эффект, связанный с ростом R2 при возрастании числа регрессоров, является коррекция R2  на число регрессоров.

Скорректированным R2  называется

R2 adj = 1 – e’e/ (n-k)   /   y’*y* / (n-1)

Свойства скорректированного R2:

1. R2 adj = 1 –(1- R2 ) (n-1) / (n-k)

2. R2 ≥ R2 adj k > 1

3. R2 adj ≤ 1 но может принимать значения < 0.

В определенной степени использование скорректированного  коэффициента детерминации R2 adj более корректно для сравнения регрессий при изменении количества регрессоров.

Что «лучше»:  y или y:

В качестве значений зависимой переменной в момент t мы можем использовать yt или, например, прогноз yt . Матрица ковариаций вектора y по условию модели равна V(y)=σ2In . Матрица ковариаций вектора прогноза равна

V(y) = V(Nε) =  σ2NN’ = σ2N

Таким образом,

V(y) - V(y) = σ2(I – N) = σ2M

Матрица М идемпотентная, поэтому, имея собственные значения только 0 или 1, неотрицательно определена, т.е.

Таким образом,

V(y) - V(y) = σ2M ≥ 0

Отсюда следует аналогичное для дисперсий наблюденных и предсказанных значений

V(yt) ≥ V(yt)

Таким образом, как это ни парадоксально, в качестве значений зависимой переменной зачастую лучше брать предсказанное по модели значение, а не фактически наблюденное. При этом, естественно, предполагается, что наблюдаемые значения yt действительно удовлетворяют соотношению  y = Xβ + ε , т.е. порождаются рассматриваемой моделью.

 

 

Доверительные интервалы для уравнения регрессии

 

Для проведения углубленного анализа уравнения регрессии прежде всего необходимо убедиться в том, что вектор ошибок Е распределен по нормальному закону. Для построения доверительных интервалов коэффициентов модели, предсказанных значений уравнения регрессии, среднего значения используются стандартные статистические распределения, требующие нормальности распределений.

 

 

Определение доверительного интервала для истинного значение уравнения регрессии

 

Определение доверительного интервала сводится к отысканию интервала, в котором с вероятностью Р = 1 - α содержится истинное значение уi0, соответствующее некоторому опыту Хi =(xi1, … xin)  из матрицы наблюдений X.

Другими словами, имеется интервал, в котором с заданной вероятностью находится линия регрессии.

Подставляя Xi в эмпирическое уравнение регрессии получим оценки yi для каждого наблюдения i=1,n вида:

yi = bixi1 + b2xi2 + . . . + bpxip

Различие между  yi  и yi0 объясняется действием различных ошибок.

Отметим, что yi имеет случайный характер, оценки bi и yi  распределены нормально с параметрами

M[yi] = M [X,B] = Xi B = yi,

D[yi] = D[Xi B] = Xi D[B] Xi T = Xi (XTX)-1 Xi Tσe2 .

Можно утверждать, что lim D[yi] = 0. Другими словами y является состоятельной оценкой истинного значения yi, соответствующего опыту x, т.е. при неограниченном числе опытов эмпирическая линия регрессии совпадает с действительной зависимостью

y0 = b1x1 + . . . + bpxip

Задавшись уровнем значимости α и найдя табличное значение  можно построить достоверный интервал для P = 1 - α .

Проверка гипотез

А) βi = βi0 Известно, что:

1. Вектор оценок βOLS имеет нормальное распределение со средним β и матрицей ковариаций V(βOLS) = σ2 (X’X)-1. В качестве оценки дисперсии βOLS, i взято s2bi = σ2bi = σ2qii = s2qii.

2. Случайная величина (n-k) s2/ σ2 распределена по закону хи-квадрат с n-k степенями свободы х2(n-k).

3.Оценки βOLS и s2 независимы.

Следовательно мы имеем:

T = (βOLSi – βi) / sβi = ((βOLSi – βi) / σβi ) / sβi/ σβi ~t(n-k)

Интервал [βOLSi –tcs βi ; βOLSi + tcs βi] является 100 (1 – α) доверительным интервалом для истинного значения коэффициента βi где tc = tα/2 (n-k) – 100 (α/2) %-ая точка распределения Стьюдента с n-k степенями свободы.

В)  β2 = β3 = . . . = βk = 0

Предположим, что в число регрессоров включена константа yt = β1 + β2xt2 + . . . + βkxtk + εt . Нулевая гипотеза состоит в том, что коэффициенты при всех регрессорах равны нулю.

Рассмотрим статистику

F = R2 / (1 + R2) * (n-k) / (k-1) = RSS /ESS * (n-k) / (k-1)

Знаменатель имеет распределение 1 / (n-k) * х2 (n-k) .

Покажем, что числитель имеет распределение 1 / (n-k) * х2 (n-k). В самом деле, у = Хβ = Nу , где N = X(X’X)-1X’ - оператор ортогонального проектирования на подпространство π, порожденного векторами х1, . . . хк.

βOLS и е независимы, поэтому статистика F имеет распределение Фишера

F = R2 / (1 + R2) * (n-k) / (k-1) = RSS /ESS * (n-k) / (k-1) = y’*y* / (k-1)   /  e’*e* / (n-k) ~ F (k-1, n-k)

 И ее можно использовать для проверки гипотезы β2 = β3 = . . . = βk = 0. А именно гипотеза Н0 отвергается, например на 5%-ом уровне значимости, если F>Fc , где Fc = F0,05 (k-1, n-k) – 5%-ая точка распределения Фишера F (k-1, n-k).

 

 

Отбор наиболее существенных объясняющих переменных на основе построения нижней границы доверительного интервала для истинного значения скорректированного коэффициента детерминации

 

 

 

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика: начальный курс. М.: ДЕЛО, 2005.

2. Айвазян С.А., Мхитарян В.С.. Прикладная статистика и основы эконометрики, М.: Юнити, 1998.

3. Анатольев С. Эконометрика для продолжающих, М.: РЭШ 2002 (электронное издание).

4. Дубров А.М., Мхитарян В.С., Трошин Л.И.. Многомерные статистиче-ские методы, М.: ФиС. 2000.

5. Носко В.П. Эконометрика: Введение в регрессионный анализ  временных рядов. — М., 2002. (электронное издание).

 


Информация о работе Анализ вариации зависимой переменной