Автор: Пользователь скрыл имя, 03 Апреля 2014 в 10:48, контрольная работа
Необходимо провести анализ исходных данных, предоставленных агентством недвижимости «Дом-Юг» и установить влияет ли площадь квартир на их стоимость. Для проведения исследований воспользуемся пакетом прикладных программ Microsoft Office, а именно пакетом Microsoft Excel и Statistica 10.
Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
Рассчитаем наблюдаемые значения t-статистики для ryx1 по формуле:
tнабл = ryx1 n-m-1;1 - ryx1 2
где m = 1 - количество факторов в уравнении регрессии.
tнабл =7,43
По таблице Стьюдента находим Tтабл
tкрит(n-m-1;α/2) = (34;0.025) = 2.021
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Рассчитаем наблюдаемые значения t-статистики для ryx2 по формуле:
tнабл =6,17
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Рассчитаем наблюдаемые значения t-статистики для ryx3 по формуле:
tнабл =0,82
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
Рассчитаем наблюдаемые значения t-статистики для ryx4 по формуле:
tнабл =0,81
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
Рассчитаем наблюдаемые значения t-статистики для ryx5 по формуле:
tнабл =4,85
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Рассчитаем наблюдаемые значения t-статистики для ryx6 по формуле:
tнабл =0,45
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
Таким образом, связь между (y и xx1 ), (y и xx2 ), (y и xx5 ) является существенной.
Наибольшее влияние на результативный признак оказывает фактор x1 (r = 0.79), значит, при построении модели он войдет в регрессионное уравнение первым.
2.Параметры уравнения с
Regression Summary for Dependent Variable: Y (Spreadsheet1)R= ,81025978 R?= ,65652092 Adjusted R?= ,58545628 F(6,29)=9,2384 p<,00001 Std.Error of estimate: 789,58 | ||||||
N=36 |
b* |
Std.Err. of b* |
b |
Std.Err. of b |
t(29) |
p-value |
Intercept |
1289,455 |
598,9090 |
2,15301 |
0,039770 | ||
X1 |
0,889323 |
0,348471 |
53,342 |
20,9016 |
2,55207 |
0,016239 |
X2 |
-0,161566 |
0,416054 |
-13,302 |
34,2556 |
-0,38833 |
0,700609 |
X3 |
-0,170834 |
0,110275 |
-35,725 |
23,0608 |
-1,54916 |
0,132189 |
X4 |
-0,078658 |
0,125279 |
-37,315 |
59,4320 |
-0,62786 |
0,535008 |
X5 |
0,056299 |
0,226793 |
65,405 |
263,4765 |
0,24824 |
0,805698 |
X6 |
-0,048603 |
0,116617 |
-124,669 |
299,1319 |
-0,41677 |
0,679915 |
Получаем следующее уравнение множественной регрессии (оценка уравнения регрессии)
Y = 1289.45 + 53.34X1-13.3X2-35.72X3-37.32X4 + 65.41X5-124.67X6
Из данного уравнения видно, что:
Стандартизированная форма уравнения регрессии имеет вид:
y0 = 0.889 X1 -0.162 X2 -0.171 X3 -0.0787 X4 + 0.0563 X5 -0.0486 X6
Из данного уравнения следует, что:
3.Множественный коэффициент корреляции (Индекс множественной корреляции)
Тесноту совместного влияния факторов на результат оценивает индекс множественной корреляции.
В отличии от парного коэффициента корреляции, который может принимать отрицательные значения, он принимает значения от 0 до 1.
Поэтому R не может быть использован для интерпретации направления связи. Чем плотнее фактические значения yi располагаются относительно линии регрессии, тем меньше остаточная дисперсия и, следовательно, больше величина Ry(x1,...,xm).
Таким образом, при значении R близком к 1, уравнение регрессии лучше описывает фактические данные и факторы сильнее влияют на результат. При значении R близком к 0 уравнение регрессии плохо описывает фактические данные и факторы оказывают слабое воздействие на результат.
R = 1 - s2e; ∑yi - y2 = 1 - 18079708.46;52637000 = 0.81
Связь между признаком Y факторами X сильная
Средняя ошибка аппроксимации
A = ∑|ε : Y| * 100%;n = 12.321 * 100% : 36 = 34.224
Полученный результат говорит о том что модель статистически ненадежна так, как превышает допустимый порог в 10% на 24,224%.
Коэффициент детерминации.
R2= 0.812 = 0.66
4.Проверка общего качества
уравнения множественной
Оценка значимости уравнения множественной регрессии осуществляется путем проверки гипотезы о равенстве нулю коэффициент детерминации рассчитанного по данным генеральной совокупности: R2 или b1 = b2 =... = bm = 0 (гипотеза о незначимости уравнения регрессии, рассчитанного по данным генеральной совокупности).
Для ее проверки используют F-критерий Фишера.
При этом вычисляют фактическое (наблюдаемое) значение F-критерия, через коэффициент детерминации R2, рассчитанный по данным конкретного наблюдения.
По таблицам распределения Фишера-Снедоккора находят критическое значение F-критерия (Fкр). Для этого задаются уровнем значимости α (обычно его берут равным 0,05) и двумя числами степеней свободы k1=m и k2=n-m-1.
2) F-статистика. Критерий Фишера
R2= 0.812 = 0.66
Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y.
Более объективной оценкой является скорректированный коэффициент детерминации:
R2 = 1 - 1 - R2n-1;n-m-1
Добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.
Проверим гипотезу об общей значимости - гипотезу об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:
H0: β1 = β2 = ... = βm = 0.
Проверка этой гипотезы осуществляется с помощью F-статистики распределения Фишера.
Если F < Fkp = Fα ; n-m-1, то нет оснований для отклонения гипотезы H0.
F=9.24
Табличное значение при степенях свободы k1 = 6 и k2 = n-m-1 = 36 - 6 - 1 = 29, Fkp(6;29) = 2.45
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим и уравнение регрессии статистически надежно
5Сравнительная оценка влияния анализируемых факторов на результативный признак
Сравнительная оценка влияния анализируемых факторов на результативный признак производится:
-
средним коэффициентом
-
β–коэффициенты, показывающие, что, если
величина фактора изменится на
одно среднеквадратическое
-
долю каждого фактора в общей
вариации результативного
d21 = 0.79 • 0.889 = 0.7
d22 = 0.73 • (-0.162) = -0.12
d23 = -0.14 • (-0.171) = 0.0238
d24 = -0.14 • (-0.0787) = 0.0109
d25 = 0.64 • 0.0563 = 0.036
d26 = -0.0775 • (-0.0486) = 0.00377
При этом должно выполняться равенство:
∑d2i = R2 = 0.66
6.Частные коэффициенты эластичности.
С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности, которые определяются по формуле:
Ei = bi xi; y
Частный коэффициент эластичности показывает, насколько процентов в среднем изменяется признак-результат у с увеличением признака-фактора хj на 1% от своего среднего уровня при фиксированном положении других факторов модели.
E1= 0.89
Частный коэффициент эластичности |E1| < 1. Следовательно, его влияние на результативный признак Y незначительно.
E2= -0.14
Частный коэффициент эластичности |E2| < 1. Следовательно, его влияние на результативный признак Y незначительно.
E3= -0.12
Частный коэффициент эластичности |E3| < 1. Следовательно, его влияние на результативный признак Y незначительно.
E4= - 0.0466
Частный коэффициент эластичности |E4| < 1. Следовательно, его влияние на результативный признак Y незначительно.
E5= - 0.0436
Частный коэффициент эластичности |E5| < 1. Следовательно, его влияние на результативный признак Y незначительно.
E6= - 0.0255
Частный коэффициент эластичности |E6| < 1. Следовательно, его влияние на результативный признак Y незначительно.
7.Пошаговая регрессия
Regression Summary for Dependent Variable: Y (Spreadsheet1)R= ,81025978 R?= ,65652092 Adjusted R?= ,58545628 F(6,29)=9,2384 p<,00001 Std.Error of estimate: 789,58 | ||||||
N=36 |
b* |
Std.Err. of b* |
b |
Std.Err. of b |
t(29) |
p-value |
Intercept |
1289,455 |
598,9090 |
2,15301 |
0,039770 | ||
X1 |
0,889323 |
0,348471 |
53,342 |
20,9016 |
2,55207 |
0,016239 |
X2 |
-0,161566 |
0,416054 |
-13,302 |
34,2556 |
-0,38833 |
0,700609 |
X3 |
-0,170834 |
0,110275 |
-35,725 |
23,0608 |
-1,54916 |
0,132189 |
X4 |
-0,078658 |
0,125279 |
-37,315 |
59,4320 |
-0,62786 |
0,535008 |
X5 |
0,056299 |
0,226793 |
65,405 |
263,4765 |
0,24824 |
0,805698 |
X6 |
-0,048603 |
0,116617 |
-124,669 |
299,1319 |
-0,41677 |
0,679915 |
Шаг 1.
Исключим из нашего выборки фактор X5 так как он имеет наибольшее p-value.
Regression Summary for Dependent Variable: Y (Spreadsheet1) R= ,80980927 R?= ,65579105 Adjusted R?= ,59842289 F(5,30)=11,431 p<,00000 Std.Error of estimate: 777,13 | ||||||
N=36 |
b* |
Std.Err. of b* |
b |
Std.Err. of b |
t(29) |
p-value |
Intercept |
1302,420 |
587,2221 |
2,21794 |
0,034276 | ||
X1 |
0,884597 |
0,342466 |
53,059 |
20,5414 |
2,58302 |
0,014914 |
X2 |
-0,108314 |
0,350868 |
-8,918 |
28,8885 |
-0,30870 |
0,759681 |
X3 |
-0,171668 |
0,108486 |
-35,899 |
22,6868 |
-1,58239 |
0,124047 |
X4 |
-0,080741 |
0,123028 |
-38,303 |
58,3637 |
-0,65628 |
0,516644 |
X6 |
-0,047436 |
0,114685 |
-121,677 |
294,1772 |
-0,41362 |
0,682097 |