Модель множественной линейной регрессии

Автор: Пользователь скрыл имя, 03 Апреля 2014 в 10:48, контрольная работа

Краткое описание

Необходимо провести анализ исходных данных, предоставленных агентством недвижимости «Дом-Юг» и установить влияет ли площадь квартир на их стоимость. Для проведения исследований воспользуемся пакетом прикладных программ Microsoft Office, а именно пакетом Microsoft Excel и Statistica 10.

Файлы: 1 файл

Множественная регрессия.docx

— 182.88 Кб (Скачать)

Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.

Рассчитаем наблюдаемые значения t-статистики для ryx1 по формуле:

tнабл = ryx1  n-m-1;1 - ryx1 2

где m = 1 - количество факторов в уравнении регрессии.

tнабл =7,43

По таблице Стьюдента находим Tтабл

tкрит(n-m-1;α/2) = (34;0.025) = 2.021

Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим

Рассчитаем наблюдаемые значения t-статистики для ryx2 по формуле:

tнабл =6,17

Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим

Рассчитаем наблюдаемые значения t-статистики для ryx3 по формуле:

tнабл =0,82

Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим

Рассчитаем наблюдаемые значения t-статистики для ryx4 по формуле:

tнабл =0,81

 

Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим

Рассчитаем наблюдаемые значения t-статистики для ryx5 по формуле:

tнабл =4,85

Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим

Рассчитаем наблюдаемые значения t-статистики для ryx6 по формуле:

tнабл =0,45

 

Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим

Таким образом, связь между (y и xx1 ), (y и xx2 ), (y и xx5 ) является существенной.

Наибольшее влияние на результативный признак оказывает фактор x1 (r = 0.79), значит, при построении модели он войдет в регрессионное уравнение первым.

 

2.Параметры уравнения с полным  перечнем факторов

 

Regression Summary for Dependent Variable: Y (Spreadsheet1)R= ,81025978

R?= ,65652092 Adjusted R?= ,58545628

F(6,29)=9,2384 p<,00001 Std.Error of estimate: 789,58

N=36

b*

Std.Err. of b*

b

Std.Err. of b

t(29)

p-value

Intercept

   

1289,455

598,9090

2,15301

0,039770

X1

0,889323

0,348471

53,342

20,9016

2,55207

0,016239

X2

-0,161566

0,416054

-13,302

34,2556

-0,38833

0,700609

X3

-0,170834

0,110275

-35,725

23,0608

-1,54916

0,132189

X4

-0,078658

0,125279

-37,315

59,4320

-0,62786

0,535008

X5

0,056299

0,226793

65,405

263,4765

0,24824

0,805698

X6

-0,048603

0,116617

-124,669

299,1319

-0,41677

0,679915


Получаем следующее уравнение множественной регрессии (оценка уравнения регрессии)

 Y = 1289.45 + 53.34X1-13.3X2-35.72X3-37.32X4 + 65.41X5-124.67X6

Из данного уравнения видно, что:

  • при увеличении фактора X1 на одну единицу значение Y изменится на 53,342.
  • при увеличении фактора X2 на одну единицу значение Y изменится на -13,302.
  • при увеличении фактора X3 на одну единицу значение Y изменится на -35,725.
  • при увеличении фактора X4 на одну единицу значение Y изменится на -37,315.
  • при увеличении фактора X5 на одну единицу значение Y изменится на 65,405.
  • при увеличении фактора X5 на одну единицу значение Y изменится на -124,699.

 

Стандартизированная форма уравнения регрессии имеет вид:

y0 = 0.889 X1 -0.162 X2 -0.171 X3 -0.0787 X4 + 0.0563 X5 -0.0486 X6 

Из данного уравнения следует, что:

  • при изменении фактора X1 на одно его среднее квадратическое отклонение от средней величины и при постоянстве других факторов результативный признак Y (стоимость квартиры) отклонится от своего среднего уровня на 0,889 его среднего квадратического отклонения
  • при изменении фактора X2 на одно его среднее квадратическое отклонение от средней величины и при постоянстве других факторов результативный признак Y (стоимость квартиры) отклонится от своего среднего уровня на -0,162 его среднего квадратического отклонения
  • при изменении фактора X3 на одно его среднее квадратическое отклонение от средней величины и при постоянстве других факторов результативный признак Y (стоимость квартиры) отклонится от своего среднего уровня на -0,171 его среднего квадратического отклонения
  • при изменении фактора X4 на одно его среднее квадратическое отклонение от средней величины и при постоянстве других факторов результативный признак Y (стоимость квартиры) отклонится от своего среднего уровня на -0,0787 его среднего квадратического отклонения
  • при изменении фактора X5 на одно его среднее квадратическое отклонение от средней величины и при постоянстве других факторов результативный признак Y (стоимость квартиры) отклонится от своего среднего уровня на 0,0563 его среднего квадратического отклонения
  • при изменении фактора X6 на одно его среднее квадратическое отклонение от средней величины и при постоянстве других факторов результативный признак Y (стоимость квартиры) отклонится от своего среднего уровня на -0,0486 его среднего квадратического отклонения.

 

3.Множественный коэффициент корреляции (Индекс множественной корреляции)

Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции.

В отличии от парного коэффициента корреляции, который может принимать отрицательные значения, он принимает значения от 0 до 1.

Поэтому R не может быть использован для интерпретации направления связи. Чем плотнее фактические значения yi располагаются относительно линии регрессии, тем меньше остаточная дисперсия и, следовательно, больше величина Ry(x1,...,xm).

Таким образом, при значении R близком к 1, уравнение регрессии лучше описывает фактические данные и факторы сильнее влияют на результат. При значении R близком к 0 уравнение регрессии плохо описывает фактические данные и факторы оказывают слабое воздействие на результат.

R = 1 - s2e; ∑yi - y2 = 1 - 18079708.46;52637000 = 0.81

Связь между признаком Y факторами X сильная

Средняя ошибка аппроксимации

A = ∑|ε : Y| * 100%;n = 12.321 * 100% : 36 = 34.224

Полученный результат говорит о том что модель статистически ненадежна так, как превышает допустимый порог в 10% на 24,224%.

 

Коэффициент детерминации.

R2= 0.812 = 0.66

4.Проверка общего качества  уравнения множественной регрессии.

Оценка значимости уравнения множественной регрессии осуществляется путем проверки гипотезы о равенстве нулю коэффициент детерминации рассчитанного по данным генеральной совокупности: R2 или b1 = b2 =... = bm = 0 (гипотеза о незначимости уравнения регрессии, рассчитанного по данным генеральной совокупности).

Для ее проверки используют F-критерий Фишера.

При этом вычисляют фактическое (наблюдаемое) значение F-критерия, через коэффициент детерминации R2, рассчитанный по данным конкретного наблюдения.

По таблицам распределения Фишера-Снедоккора находят критическое значение F-критерия (Fкр). Для этого задаются уровнем значимости α (обычно его берут равным 0,05) и двумя числами степеней свободы k1=m и k2=n-m-1.

2) F-статистика. Критерий Фишера 

R2= 0.812 = 0.66

Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y.

Более объективной оценкой является скорректированный коэффициент детерминации:

R2 = 1 - 1 - R2n-1;n-m-1

Добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.

Проверим гипотезу об общей значимости - гипотезу об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:

H0: β1 = β2 = ... = βm = 0.

Проверка этой гипотезы осуществляется с помощью F-статистики распределения Фишера.

Если F < Fkp  = Fα ; n-m-1, то нет оснований для отклонения гипотезы H0.

F=9.24

Табличное значение при степенях свободы k1 = 6 и k2 = n-m-1 = 36 - 6 - 1 = 29, Fkp(6;29) = 2.45

Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим и уравнение регрессии статистически надежно

 

5Сравнительная оценка влияния анализируемых факторов на результативный признак

Сравнительная оценка влияния анализируемых факторов на результативный признак производится:

- средним коэффициентом эластичности, показывающим на сколько процентов среднем по совокупности изменится результат y от своей средней величины при изменении фактора xi на 1% от своего среднего значения;

- β–коэффициенты, показывающие, что, если  величина фактора изменится на  одно среднеквадратическое отклонение  Sxi, то значение результативного признака изменится в среднем на β своего среднеквадратического отклонения;

- долю каждого фактора в общей  вариации результативного признака  определяют коэффициенты раздельной  детерминации (отдельного определения): d2i = ryxiβi.

d21 = 0.79 • 0.889 = 0.7

d22 = 0.73 • (-0.162) = -0.12

d23 = -0.14 • (-0.171) = 0.0238

d24 = -0.14 • (-0.0787) = 0.0109

d25 = 0.64 • 0.0563 = 0.036

d26 = -0.0775 • (-0.0486) = 0.00377

При этом должно выполняться равенство:

∑d2i = R2 = 0.66

 

6.Частные коэффициенты эластичности.

С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности, которые определяются по формуле:

Ei = bi xi; y

Частный коэффициент эластичности показывает, насколько процентов в среднем изменяется признак-результат у с увеличением признака-фактора хj на 1% от своего среднего уровня при фиксированном положении других факторов модели.

E1= 0.89

Частный коэффициент эластичности |E1| < 1. Следовательно, его влияние на результативный признак Y незначительно.

E2= -0.14

Частный коэффициент эластичности |E2| < 1. Следовательно, его влияние на результативный признак Y незначительно.

E3= -0.12

Частный коэффициент эластичности |E3| < 1. Следовательно, его влияние на результативный признак Y незначительно.

E4= - 0.0466

Частный коэффициент эластичности |E4| < 1. Следовательно, его влияние на результативный признак Y незначительно.

E5= - 0.0436

Частный коэффициент эластичности |E5| < 1. Следовательно, его влияние на результативный признак Y незначительно.

E6= - 0.0255

Частный коэффициент эластичности |E6| < 1. Следовательно, его влияние на результативный признак Y незначительно.

 

7.Пошаговая регрессия

 

 

Regression Summary for Dependent Variable: Y (Spreadsheet1)R= ,81025978

R?= ,65652092 Adjusted R?= ,58545628

F(6,29)=9,2384 p<,00001 Std.Error of estimate: 789,58

N=36

b*

Std.Err. of b*

b

Std.Err. of b

t(29)

p-value

Intercept

   

1289,455

598,9090

2,15301

0,039770

X1

0,889323

0,348471

53,342

20,9016

2,55207

0,016239

X2

-0,161566

0,416054

-13,302

34,2556

-0,38833

0,700609

X3

-0,170834

0,110275

-35,725

23,0608

-1,54916

0,132189

X4

-0,078658

0,125279

-37,315

59,4320

-0,62786

0,535008

X5

0,056299

0,226793

65,405

263,4765

0,24824

0,805698

X6

-0,048603

0,116617

-124,669

299,1319

-0,41677

0,679915


 

 

 

 

 

 

 

 

 

Шаг 1.

Исключим из нашего выборки фактор X5 так как он имеет наибольшее p-value.

 

Regression Summary for Dependent Variable: Y (Spreadsheet1) R= ,80980927 R?= ,65579105 Adjusted R?= ,59842289 F(5,30)=11,431 p<,00000 Std.Error of estimate: 777,13

N=36

b*

Std.Err. of b*

b

Std.Err. of b

t(29)

p-value

Intercept

   

1302,420

587,2221

2,21794

0,034276

X1

0,884597

0,342466

53,059

20,5414

2,58302

0,014914

X2

-0,108314

0,350868

-8,918

28,8885

-0,30870

0,759681

X3

-0,171668

0,108486

-35,899

22,6868

-1,58239

0,124047

X4

-0,080741

0,123028

-38,303

58,3637

-0,65628

0,516644

X6

-0,047436

0,114685

-121,677

294,1772

-0,41362

0,682097

Информация о работе Модель множественной линейной регрессии