Направления совершенствования линейной регрессионной модели

Автор: Пользователь скрыл имя, 22 Ноября 2012 в 23:39, реферат

Краткое описание

Важным этапом регрессионного анализа является определение типа функции, с помощью которой характеризуется зависимость между признаками. Приблизительное представление о линии связи можно получить на основе эмпирической линии зависимости, которая строится по полученным для исследования данным и имеет вид ломаной. Различают линейные (определяются линейной функцией) и нелинейные (определяются нелинейными функциями) модели.

Файлы: 1 файл

эконометрика.doc

— 437.50 Кб (Скачать)

При этом b называют коэффициентом регрессии; a называют свободным членом уравнения регрессии  и вычисляют по формуле: 

Полученная прямая является оценкой для теоретической линии регрессии. Имеем:

Итак,   является уравнением линейной регрессии.

Регрессия может  быть прямой (b>0) и обратной (b<0). Прямая регрессия означает, что при росте  одного параметра, значения другого  параметра тоже увеличиваются. А  обратная, что при росте одного параметра, значения другого параметра уменьшаются.

Пример 1. Результаты измерения величин X и Y даны в таблице:

xi

-2

0

1

2

4

yi

0.5

1

1.5

2

3


Предполагая, что  между X и Y существует линейная зависимость y=a+bx, способом наименьших квадратов  определить коэффициенты a и b.

Решение. Здесь n=5  
xi=-2+0+1+2+4=5;  
xi2=4+0+1+4+16=25  
xiyi=-2•0.5+0•1+1•1.5+2•2+4•3=16.5  
yi=0.5+1+1.5+2+3=8

и нормальная система (2) имеет вид 

Решая эту систему, получим: b=0.425, a=1.175. Поэтому y=1.175+0.425x.

Пример 2. Имеется  выборка из 10 наблюдений экономических показателей (X) и (Y).

xi

180

172

173

169

175

170

179

170

167

174

yi

186

180

176

171

182

166

182

172

169

177


Требуется найти  выборочное уравнение регрессии Y на X. Построить выборочную линию регрессии Y на X.

Решение. 1. Проведем упорядочивание данных по значениям xи yi. Получаем новую таблицу:

xi

167

169

170

170

172

173

174

175

179

180

yi

169

171

166

172

180

176

177

182

182

186


Для упрощения  вычислений составим расчетную таблицу, в которую занесем необходимые  численные значения.

xi

yi

xi2

xiyi

167

169

27889

28223

169

171

28561

28899

170

166

28900

28220

170

172

28900

29240

172

180

29584

30960

173

176

29929

30448

174

177

30276

30798

175

182

30625

31850

179

182

32041

32578

180

186

32400

33480

∑xi=1729

∑yi=1761

∑xi2299105

∑xiyi=304696

x=172.9

y=176.1

xi2=29910.5

xy=30469.6


Согласно формуле (4), вычисляем коэффициента регрессии

а по формуле (5)

Таким образом, выборочное уравнение регрессии  имеет вид y=-59.34+1.3804x.  
Нанесем на координатной плоскости точки (xi; yi) и отметим прямую регрессии.

  
Рис 4

На рис.4 видно, как располагаются наблюдаемые  значения относительно линии регрессии. Для численной оценки отклонений yот Yi, где yнаблюдаемые, а Yопределяемые регрессией значения, составим таблицу:

 

 

 

 

 

xi

yi

Yi

Yi-yi

167

169

168.055

-0.945

169

171

170.778

-0.222

170

166

172.140

6.140

170

172

172.140

0.140

172

180

174.863

-5.137

173

176

176.225

0.225

174

177

177.587

0.587

175

182

178.949

-3.051

179

182

184.395

2.395

180

186

185.757

-0.243


Значения Yвычислены согласно уравнению регрессии.

Заметное отклонение некоторых наблюдаемых значений от линии регрессии объясняется  малым числом наблюдений. При исследовании степени линейной зависимости Y от X число наблюдений учитывается. Сила зависимости определяется величиной коэффициента корреляции.

 

 

Модель чистого  экспорта

 

     Построение  и развитие экономической модели  – это длительный и сложный процесс. Очень редко оценка исходной спецификации  зависимости дает хорошие по всем параметрам результаты. Предположим, что оцененная множественная линейная регрессия по ряду статистических характеристик (DW, t – статистики, F - статистика) оказалась неприемлемой и требует улучшения. Направления такого уточнения могут быть следующими:

  • Выведение из рассмотрения незначимых объясняющих переменных и добавление новых переменных;
  • Разбиение временного интервала на части и оценка исходной или новой формулы регрессии на каждой из них;
  • Преобразование исходных данных с целью устранить их нежелательные свойства;
  • Построение нелинейных спецификаций управления регрессии с последующей их линеаризацией (или оценкой нелинейной регрессии);
  • Устранение сильно коррелированных между собой объясняющих переменных (борьба с мультиколлинеарностью).

     Мы рассмотрим  эти направления совершенствования регрессионной модели на примере конкретного экономического исследования, делая по мере необходимости пояснения и отступления. В качестве базового примера рассмотрим процесс построения функции чистого экспорта для экономики США. Для этого будем использовать массив макроэкономических данных за 1931-1990гг. В качестве первоначальной спецификации функции чистого экспорта для этого периода в целом рассмотрим выражение

 

    (1)

 

     Здесь переменная RNX обозначает реальный чистый экспорт(Real Net Exports), или чистый экспорт в постоянных ценах 1982г., млрд. долларов; GNP - реальный валовой национальный продукт в тех же единицах; RSR - реальная краткосрочная процентная ставка, в процентах. В различные макромодели открытой экономики, в частности в модель IS-LM, обычно включаются зависимости чистого экспорта такого или подобного вида. Коэффициенты и , называемые чувствительностями величины чистого экспорта к показателю объема ВНП и величине ставки процента, считаются в теории отрицательными. В соответствии с результатами оценивания на каждом очередном шаге мы будем корректировать совокупность объясняющих переменных, период оценивания и другие особенности уравнения (временные лаги, наличие свободного члена и т.д.).

Оценка первоначальной формулы дает результат 

RNX= 21,1 – 0,017*GNP – 0,411*RSR

               (8,43) (0,004)  (0,947)                                         (2)

(в скобках приведены стандартные ошибки)

=0,29; DW=0,43

     Отрицательные  знаки коэффициентов регрессии  соответствует здесь теоретическим  представлениям. Коэффициент при  переменной  значительно меньше  по абсолютной величине, чем коэффициент  при, но это не значит, что  данная величина воздействует на зависимую переменную слабее. Здесь все определяется единицами измерения, и если ВНП измерять не в миллиардах, а в триллионная долларов, то соответствующий коэффициент регрессии будет равен не 0,017, а 17, при стандартной ошибке 4.

     Соотношение  коэффициента и его стандартной ошибки, или t-статистика (в последующем случае 0,017:0,004=4,25), важна для определения статистической значимости функции от соответствующей объясняющей переменной. Вообще говоря, нулевая гипотеза для t-статистики и, соответственно, коэффициента регрессии проверяется с помощью таблиц распределения Стьюдента. В данном случае ясно без таблиц, по общему порядку цифр что, коэффициент при GNP, равный 0,017, статистически значим (так как ), а коэффициент при RSR, равный (-0,411), статистически незначим. Его t-статистика слишком мала по абсолютной величине. Если уточнить по таблицам, уровень значимости здесь составляет примерно 2/3. Следовательно, если в действительности (для генеральной совокупности) этот коэффициент равен нулю, то вполне вероятно (с вероятностью 2/3) для данного размера выборки (60 наблюдении) при двух объясняющих переменных получить такую (-0, 434) или большую по модулю t-статистику данного коэффициента регрессии. Для оценки значимости коэффициента регрессии можно воспользоваться следующим грубым правилом; если абсолютная величина коэффициента меньше, чем его стандартная ошибка, то он статистически незначим (если нет мультиколлинеарности, или коррелированности объясняющих переменных). В данном случае это правило срабатывает, и на следующем шаге мы заменим переменную RSR.

Теперь рассчитаем F- статистику оцененного уравнения:

    (3)

По таблице распределения  Фишера с (2;57) степенями свободы находим, что критическое значение F равно 3,16 при 5%-ном уровне значимости и 5,0 при 1%-ном. Таким образом, гипотеза о равенстве нулю одновременно всех коэффициентов регрессии заведомо отвергается (что, впрочем, ясно и из того, что коэффициент при GNP уже до этого получился значимым). Итак, даже небольшая величина =0,29 при довольно большом числе наблюдений значимую величину F- статистики. В то же время если величина рассматривается как самостоятельный критерий качества регрессии (а не только как средство проверки нулевой гипотезы для всех коэффициентов одновременно), позволяющий оценить его в сравнении с качеством линии , то значение =0,29 вряд ли можно считать хорошим. Это говорит о необходимости дальнейшего поиска объясняющих переменных для показателя RNX.

    Для оценки  качества множественной линейной  регрессии и проверки наличия   предполагающихся свойств отклонений нужна также статистика Дарбина-Уотсона DW. В рассматриваемом примере она равна 0,43. Невооруженным взглядом видна положительная автокорреляция : DW близка к нулю. Проверим статистику DW по таблице n=60; m=2 при уровне значимости 5%. Критические значения ; . Поскольку DW= 0,43<1,44= принимается гипотеза о наличии положительной автокорреляции остатков первого порядка. Таким образом, значение статистики Дарбина-Уотсона говорит о том, что оцениваемая зависимость имеет другой вид: действовали какие-то неучтенные факторы либо сама формула связи была нелинейной. Заметим, что если оцениваются регрессионные связи макроэкономических показателей по временным рядам наблюдений за столь длительный период времени, то статистика DW чаще всего оказывается близкой к нулю. Практически всегда какие-то факторы действуют на протяжении некоторых периодов времени, «уводя» зависимую переменную вверх или вниз от линии (или поверхности) регрессии. Идентификация таких факторов и определение периодов их действия является важной задачей эконометрики.

     Указанные  недостатки оцененного уравнения  регрессии проявляются и на  графике. На рис. 18.1, где показаны  зависимости от времени действительных  и рассчитанных по уравнению  регрессии значений RNX, а также отклонений первых от вторых, можно видеть, что оцененное уравнение не описывает колебаний переменной RNX, а объясняет лишь ее общий тренд. Здесь же видно, что отклонения зависимой переменной от линии регрессии не являются независимыми и, кроме того, дисперсия их для разных периодов не постоянна.

     Воздействие  процентной ставки на величину  чистого экспорта происходит  с определенным временным запаздыванием  (лагом). Заключаемые контракты ориентируются  на текущий валютный курс (который, в свою очередь, с некоторой задержкой реагирует на изменения процентной ставки), а их исполнение обычно происходит лишь через несколько месяцев. Поэтому естественно в качестве первого шага в развитии модели чистого экспорта не исключать объясняющую переменную RSR, а ввести ее с лагом в один год, то есть заменить RSR на RSR(-1). В результате расчетный период сокращается на одну точку, т.е. охватывает 1932-1990 гг. Получается следующее уравнение регрессии:

Здесь обе объясняющие  переменные статистически значимы; их f-статистики превышают по модулю 2. Однако обобщающие показатели качества модели и DW по сравнению с уравнением (2) существенно не улучшились. На графике (рис. 18.2) можно видеть, что некоторые периоды, особенно во второй половине 1940-х – первой половине 1950-х годов, эта модель описывает уже не только общий тренд величины RNX, но и отклонения от этого тренда. В то же время она, безусловно, не подходит для всего периода 1931-1990 гг. 

Информация о работе Направления совершенствования линейной регрессионной модели