Автор: Пользователь скрыл имя, 03 Апреля 2014 в 10:48, контрольная работа
Необходимо провести анализ исходных данных, предоставленных агентством недвижимости «Дом-Юг» и установить влияет ли площадь квартир на их стоимость. Для проведения исследований воспользуемся пакетом прикладных программ Microsoft Office, а именно пакетом Microsoft Excel и Statistica 10.
Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
Рассчитаем наблюдаемые значения t-статистики для ryx1 по формуле:
tнабл = ryx1 n-m-1;1 - ryx1 2
где m = 1 - количество факторов в уравнении регрессии.
tнабл =7,43
По таблице Стьюдента находим Tтабл
tкрит(n-m-1;α/2) = (34;0.025) = 2.021
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Рассчитаем наблюдаемые значения t-статистики для ryx2 по формуле:
tнабл =6,17
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Рассчитаем наблюдаемые значения t-статистики для ryx3 по формуле:
tнабл =0,82
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
Рассчитаем наблюдаемые значения t-статистики для ryx4 по формуле:
tнабл =0,81
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
Рассчитаем наблюдаемые значения t-статистики для ryx5 по формуле:
tнабл =4,85
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Рассчитаем наблюдаемые значения t-статистики для ryx6 по формуле:
tнабл =0,45
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
Таким образом, связь между (y и xx1 ), (y и xx2 ), (y и xx5 ) является существенной.
Наибольшее влияние на результативный признак оказывает фактор x1 (r = 0.79), значит, при построении модели он войдет в регрессионное уравнение первым.
2.Параметры уравнения с 
Regression Summary for Dependent Variable: Y (Spreadsheet1)R= ,81025978 R?= ,65652092 Adjusted R?= ,58545628 F(6,29)=9,2384 p<,00001 Std.Error of estimate: 789,58  | ||||||
N=36  | 
  b*  | 
  Std.Err. of b*  | 
  b  | 
  Std.Err. of b  | 
  t(29)  | 
  p-value  | 
Intercept  | 
  1289,455  | 
  598,9090  | 
  2,15301  | 
  0,039770  | ||
X1  | 
  0,889323  | 
  0,348471  | 
  53,342  | 
  20,9016  | 
  2,55207  | 
  0,016239  | 
X2  | 
  -0,161566  | 
  0,416054  | 
  -13,302  | 
  34,2556  | 
  -0,38833  | 
  0,700609  | 
X3  | 
  -0,170834  | 
  0,110275  | 
  -35,725  | 
  23,0608  | 
  -1,54916  | 
  0,132189  | 
X4  | 
  -0,078658  | 
  0,125279  | 
  -37,315  | 
  59,4320  | 
  -0,62786  | 
  0,535008  | 
X5  | 
  0,056299  | 
  0,226793  | 
  65,405  | 
  263,4765  | 
  0,24824  | 
  0,805698  | 
X6  | 
  -0,048603  | 
  0,116617  | 
  -124,669  | 
  299,1319  | 
  -0,41677  | 
  0,679915  | 
Получаем следующее уравнение множественной регрессии (оценка уравнения регрессии)
Y = 1289.45 + 53.34X1-13.3X2-35.72X3-37.32X4 + 65.41X5-124.67X6
Из данного уравнения видно, что:
Стандартизированная форма уравнения регрессии имеет вид:
y0 = 0.889 X1 -0.162 X2 -0.171 X3 -0.0787 X4 + 0.0563 X5 -0.0486 X6
Из данного уравнения следует, что:
3.Множественный коэффициент корреляции (Индекс множественной корреляции)
Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции.
В отличии от парного коэффициента корреляции, который может принимать отрицательные значения, он принимает значения от 0 до 1.
Поэтому R не может быть использован для интерпретации направления связи. Чем плотнее фактические значения yi располагаются относительно линии регрессии, тем меньше остаточная дисперсия и, следовательно, больше величина Ry(x1,...,xm).
Таким образом, при значении R близком к 1, уравнение регрессии лучше описывает фактические данные и факторы сильнее влияют на результат. При значении R близком к 0 уравнение регрессии плохо описывает фактические данные и факторы оказывают слабое воздействие на результат.
R = 1 - s2e; ∑yi - y2 = 1 - 18079708.46;52637000 = 0.81
Связь между признаком Y факторами X сильная
Средняя ошибка аппроксимации
A = ∑|ε : Y| * 100%;n = 12.321 * 100% : 36 = 34.224
Полученный результат говорит о том что модель статистически ненадежна так, как превышает допустимый порог в 10% на 24,224%.
Коэффициент детерминации.
R2= 0.812 = 0.66
4.Проверка общего качества 
уравнения множественной 
Оценка значимости уравнения множественной регрессии осуществляется путем проверки гипотезы о равенстве нулю коэффициент детерминации рассчитанного по данным генеральной совокупности: R2 или b1 = b2 =... = bm = 0 (гипотеза о незначимости уравнения регрессии, рассчитанного по данным генеральной совокупности).
Для ее проверки используют F-критерий Фишера.
При этом вычисляют фактическое (наблюдаемое) значение F-критерия, через коэффициент детерминации R2, рассчитанный по данным конкретного наблюдения.
По таблицам распределения Фишера-Снедоккора находят критическое значение F-критерия (Fкр). Для этого задаются уровнем значимости α (обычно его берут равным 0,05) и двумя числами степеней свободы k1=m и k2=n-m-1.
2) F-статистика. Критерий Фишера
R2= 0.812 = 0.66
Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y.
Более объективной оценкой является скорректированный коэффициент детерминации:
R2 = 1 - 1 - R2n-1;n-m-1
Добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.
Проверим гипотезу об общей значимости - гипотезу об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:
H0: β1 = β2 = ... = βm = 0.
Проверка этой гипотезы осуществляется с помощью F-статистики распределения Фишера.
Если F < Fkp = Fα ; n-m-1, то нет оснований для отклонения гипотезы H0.
F=9.24
Табличное значение при степенях свободы k1 = 6 и k2 = n-m-1 = 36 - 6 - 1 = 29, Fkp(6;29) = 2.45
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим и уравнение регрессии статистически надежно
5Сравнительная оценка влияния анализируемых факторов на результативный признак
Сравнительная оценка влияния анализируемых факторов на результативный признак производится:
- 
средним коэффициентом 
- 
β–коэффициенты, показывающие, что, если 
величина фактора изменится на 
одно среднеквадратическое 
- 
долю каждого фактора в общей 
вариации результативного 
d21 = 0.79 • 0.889 = 0.7
d22 = 0.73 • (-0.162) = -0.12
d23 = -0.14 • (-0.171) = 0.0238
d24 = -0.14 • (-0.0787) = 0.0109
d25 = 0.64 • 0.0563 = 0.036
d26 = -0.0775 • (-0.0486) = 0.00377
При этом должно выполняться равенство:
∑d2i = R2 = 0.66
6.Частные коэффициенты эластичности.
С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности, которые определяются по формуле:
Ei = bi xi; y
Частный коэффициент эластичности показывает, насколько процентов в среднем изменяется признак-результат у с увеличением признака-фактора хj на 1% от своего среднего уровня при фиксированном положении других факторов модели.
E1= 0.89
Частный коэффициент эластичности |E1| < 1. Следовательно, его влияние на результативный признак Y незначительно.
E2= -0.14
Частный коэффициент эластичности |E2| < 1. Следовательно, его влияние на результативный признак Y незначительно.
E3= -0.12
Частный коэффициент эластичности |E3| < 1. Следовательно, его влияние на результативный признак Y незначительно.
E4= - 0.0466
Частный коэффициент эластичности |E4| < 1. Следовательно, его влияние на результативный признак Y незначительно.
E5= - 0.0436
Частный коэффициент эластичности |E5| < 1. Следовательно, его влияние на результативный признак Y незначительно.
E6= - 0.0255
Частный коэффициент эластичности |E6| < 1. Следовательно, его влияние на результативный признак Y незначительно.
7.Пошаговая регрессия
Regression Summary for Dependent Variable: Y (Spreadsheet1)R= ,81025978 R?= ,65652092 Adjusted R?= ,58545628 F(6,29)=9,2384 p<,00001 Std.Error of estimate: 789,58  | ||||||
N=36  | 
  b*  | 
  Std.Err. of b*  | 
  b  | 
  Std.Err. of b  | 
  t(29)  | 
  p-value  | 
Intercept  | 
  1289,455  | 
  598,9090  | 
  2,15301  | 
  0,039770  | ||
X1  | 
  0,889323  | 
  0,348471  | 
  53,342  | 
  20,9016  | 
  2,55207  | 
  0,016239  | 
X2  | 
  -0,161566  | 
  0,416054  | 
  -13,302  | 
  34,2556  | 
  -0,38833  | 
  0,700609  | 
X3  | 
  -0,170834  | 
  0,110275  | 
  -35,725  | 
  23,0608  | 
  -1,54916  | 
  0,132189  | 
X4  | 
  -0,078658  | 
  0,125279  | 
  -37,315  | 
  59,4320  | 
  -0,62786  | 
  0,535008  | 
X5  | 
  0,056299  | 
  0,226793  | 
  65,405  | 
  263,4765  | 
  0,24824  | 
  0,805698  | 
X6  | 
  -0,048603  | 
  0,116617  | 
  -124,669  | 
  299,1319  | 
  -0,41677  | 
  0,679915  | 
Шаг 1.
Исключим из нашего выборки фактор X5 так как он имеет наибольшее p-value.
Regression Summary for Dependent Variable: Y (Spreadsheet1) R= ,80980927 R?= ,65579105 Adjusted R?= ,59842289 F(5,30)=11,431 p<,00000 Std.Error of estimate: 777,13  | ||||||
N=36  | 
  b*  | 
  Std.Err. of b*  | 
  b  | 
  Std.Err. of b  | 
  t(29)  | 
  p-value  | 
Intercept  | 
  1302,420  | 
  587,2221  | 
  2,21794  | 
  0,034276  | ||
X1  | 
  0,884597  | 
  0,342466  | 
  53,059  | 
  20,5414  | 
  2,58302  | 
  0,014914  | 
X2  | 
  -0,108314  | 
  0,350868  | 
  -8,918  | 
  28,8885  | 
  -0,30870  | 
  0,759681  | 
X3  | 
  -0,171668  | 
  0,108486  | 
  -35,899  | 
  22,6868  | 
  -1,58239  | 
  0,124047  | 
X4  | 
  -0,080741  | 
  0,123028  | 
  -38,303  | 
  58,3637  | 
  -0,65628  | 
  0,516644  | 
X6  | 
  -0,047436  | 
  0,114685  | 
  -121,677  | 
  294,1772  | 
  -0,41362  | 
  0,682097  |