Автор: Пользователь скрыл имя, 17 Апреля 2014 в 04:41, задача
Задача 1. Поле корреляции. На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Задача 2. Оценка уравнения регрессии.
Задача 1.
Поле корреляции
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
a•n + b∑x = ∑y
a∑x + b∑x2 = ∑y•x
Для наших данных система уравнений имеет вид
10a + 935 b = 34.8
935 a + 93475 b = 3405
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем эмпирические коэффициенты регрессии: b = 0.02498, a = 1.1442
Уравнение регрессии (эмпирическое уравнение регрессии):
y = 0.02498 x + 1.1442
Для расчета параметров регрессии построим расчетную таблицу (табл. 1)
x |
y |
x2 |
y2 |
x • y |
120 |
4 |
14400 |
16 |
480 |
85 |
3.6 |
7225 |
12.96 |
306 |
110 |
4 |
12100 |
16 |
440 |
70 |
2.6 |
4900 |
6.76 |
182 |
115 |
4.3 |
13225 |
18.49 |
494.5 |
90 |
3.4 |
8100 |
11.56 |
306 |
60 |
2.9 |
3600 |
8.41 |
174 |
55 |
2.5 |
3025 |
6.25 |
137.5 |
100 |
3 |
10000 |
9 |
300 |
130 |
4.5 |
16900 |
20.25 |
585 |
935 |
34.8 |
93475 |
125.68 |
3405 |
Параметры уравнения регрессии.
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
Коэффициент корреляции
Ковариация.
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
В нашем примере связь между признаком Y фактором X весьма высокая и прямая.
Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:
Уравнение регрессии (оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = 0.025 x + 1.14
При объеме товарооборота = 80
у = 0,025*80+1,14 = 3,14
Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.
Бета – коэффициент
Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к увеличению среднего значения Y на 0.91 среднеквадратичного отклонения Sy.
Ошибка аппроксимации.
Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.
Эмпирическое корреляционное отношение.
где
Индекс корреляции.
Для линейной регрессии индекс корреляции равен коэффициенту корреляции rxy = 0.91.
Полученная величина свидетельствует о том, что фактор x существенно влияет на y
Коэффициент детерминации.
R2= 0.912 = 0.8254
т.е. в 82.54 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 17.46 % изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).
Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)
x |
y |
y(x) |
(yi-ycp)2 |
(y-y(x))2 |
(xi-xcp)2 |
|y - yx|:y |
120 |
4 |
4.14 |
0.27 |
0.0202 |
702.25 |
0.0355 |
85 |
3.6 |
3.27 |
0.0144 |
0.11 |
72.25 |
0.0923 |
110 |
4 |
3.89 |
0.27 |
0.0116 |
272.25 |
0.027 |
70 |
2.6 |
2.89 |
0.77 |
0.0858 |
552.25 |
0.11 |
115 |
4.3 |
4.02 |
0.67 |
0.08 |
462.25 |
0.0658 |
90 |
3.4 |
3.39 |
0.0064 |
5.5E-5 |
12.25 |
0.00219 |
60 |
2.9 |
2.64 |
0.34 |
0.066 |
1122.25 |
0.0886 |
55 |
2.5 |
2.52 |
0.96 |
0.000332 |
1482.25 |
0.00729 |
100 |
3 |
3.64 |
0.23 |
0.41 |
42.25 |
0.21 |
130 |
4.5 |
4.39 |
1.04 |
0.0117 |
1332.25 |
0.024 |
935 |
34.8 |
34.8 |
4.58 |
0.8 |
6052.5 |
0.67 |
Значимость коэффициента корреляции.
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия
и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит — нулевую гипотезу отвергают.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=8 находим tкрит:
tкрит (n-m-1;α/2) = (8;0.025) = 2.306
где m = 1 - количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.
Интервальная оценка для коэффициента корреляции (доверительный интервал).
Доверительный интервал для коэффициента корреляции
r(0.78;1.04)
Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
S2y = 0.0999 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
Sy = 0.32 - стандартная ошибка оценки (стандартная ошибка регрессии).
Sa - стандартное отклонение случайной величины a.
Sb - стандартное отклонение случайной величины b.
Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
tкрит (n-m-1;α/2) = (8;0.025) = 2.306
Поскольку 6.15 > 2.306, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку 2.91 > 2.306, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - tкрит Sb; b + tкрит Sb)
(0.025 - 2.306 • 0.00406; 0.025 + 2.306 • 0.00406)
(0.0156;0.0343)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a - tкрит Sa; a + tкрит Sa)
(1.14 - 2.306 • 0.39; 1.14 + 2.306 • 0.39)
(0.24;2.05)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистика. Критерий Фишера.
Табличное значение критерия со степенями свободы k1=1 и k2=8, Fтабл = 5.32
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:
Дисперсионный анализ.
Источник вариации |
Сумма квадратов |
Число степеней свободы |
Дисперсия на 1 степень свободы |
F-критерий |
Модель |
3.78 |
1 |
3.78 |
37.83 |
Остаточная |
0.8 |
8 |
0.1 |
1 |
Общая |
4.58 |
10-1 |
|
|
Показатели качества уравнения регрессии.
Показатель |
Значение |
Коэффициент детерминации |
0.83 |
Средний коэффициент эластичности |
не был рассчитан |
Средняя ошибка аппроксимации |
6.69 |
Задача 2.
Оценка уравнения регрессии.
Определим вектор оценок коэффициентов регрессии. Согласно методу наименьших квадратов, вектор s получается из выражения:
s = (XTX)-1XTY
Матрица X
87 |
91 |
26 |
56 |
96 |
44 |
115 |
88 |
149 |
99 |
115 |
35 |
117 |
38 |
108 |
51 |
100 |
50 |
46 |
27 |
49 |
58 |
18 |
56 |
Матрица Y
181 |
58 |
76 |
161 |
230 |
80 |
53 |
110 |
86 |
110 |
110 |
45 |
Матрица XT
87 |
26 |
96 |
115 |
149 |
115 |
117 |
108 |
100 |
46 |
49 |
18 |
91 |
56 |
44 |
88 |
99 |
35 |
38 |
51 |
50 |
27 |
58 |
56 |