Автор: Пользователь скрыл имя, 18 Декабря 2012 в 21:25, курсовая работа
Цель самостоятельной работы: практическое изучение и применение основных методов корреляционного и регрессионного анализа.
Объект исследования: товарооборот 12 магазинов.
1. ОБЩИЕ ПОЛОЖЕНИЯ 3
2.Ход выполнения работы. 3
СПИСОК ЛИТЕРАТУРЫ 17
МИНИСТЕРСТВО НАУКИ И ОБРАЗОВАНИЯ
РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное
государственное бюджетное
«Рязанский
государственный
Кафедры
«Эконометрики и
Самостоятельная работа
по дисциплине
«Эконометрика»
на тему:
«Проведение
корреляционного и
Выполнил:
Студент группы 076ИЭФ
Некаев Роман Петрович
Проверил:
профессор Чураков Е.П.
Рязань 2012
Вариант 15.
Тема самостоятельной работы: проведение корреляционного и регрессионного анализа зависимости товарооборота от торговой площади и среднего в день числа посетителей.
Цель самостоятельной работы: практическое изучение и применение основных методов корреляционного и регрессионного анализа.
Объект исследования: товарооборот 12 магазинов.
Сформируем матрицы экзогенной и эндогенной переменных:
Экзогенные переменные: |
Эндогенные переменные: | |
Годовой товарный оборот магазинов (млн.р) |
Торговая площадь (тыс.кв. м.) |
Среднее число посетителей (тыс.чел.) |
|
|
|
Регрессионная модель:
y= 0+ 1x1+ 2x2+ 3 +e
i, i=0, 1, 2, 3, – параметры регрессии, e – стохастическая составляющая.
Цель исследования: выявить, аналитически описать и обосновать зависимость товарооборота магазинов от величины торговой площади и среднего числа покупателей.
2.Построим диаграмму рассеяния показателей годового товарооборота (Y) в зависимости от торговой площади (X1). |
Построим диаграмму рассеяния показателей годового товарооборота (Y) в зависимости от среднего числа посетителей (X2). |
|
|
3) Проверка наличия зависимости переменной Y от аргументов X1, X2.
- среднее значение торговой площади (выборочное мат.ожидание)
- среднее
значение числа посетителей (
- среднее
значение товарооборота
где n=12, объем выбоки- количество магазинов
Далее, находим выборочные коэффициенты корреляции и
= где k=1,2
=0,985 =0,635
Находим значения случайной величины распределенной по закону Стьюдента с n-2 степенями свободы, для выявления значимости каждого из парных коэффициентов корреляции. Для анализа значимости задаётся доверительная вероятность 1-a, где a=0,05, и находим 100a/2-процентную точку w100a/2 распределения Стьюдента с n-2 степенями свободы.
gk= ~t(n-2), k=1,2,
, a=0,05
w100a/2= 2.228
Т.к условие >w100a/2 выполняется, то это дает нам право, с вероятностью ошибиться a=0,05, отвергнуть гипотезу НО об отсутствии корреляционной связи между величинами Y и X1, Y и X2 как не соответствующую экспериментальным данным, а выборочные коэффициенты и признать значимыми.
4. Построим доверительные интервалы для истинных коэффициентов корреляции ryk с доверительной вероятностью 1-a
thck<ryk£thdk, k=1,2
ck,dk=0.5ln ±ua/2 - ,
Находим a/2квантиль стандартного гауссова распределения N(0, 1).
ua/2 = -1.96
c1=1.738 |
d1=3.045 |
c2=0.067 |
d2=1.374 |
thck<ryk£thdk
thc1= 0.94 |
thd1= 0.995 |
thc2= 0.067 |
thd2= 0.88 |
5. Проверим наличие зависимости переменной y от аргументов x1, x2 , при условии устранения из парных выборочных коэффициентов корреляции влияния мешающего параметра, соответствующего этому коэффициенту парной корреляции. С этой целью, рассчитываем эмпирический коэффициент корреляции между экзогенными переменными x1 и x2 по формуле
= 0.543
Далее находим очищенные от влияния мешающей экзогенной переменной частные эмпирические коэффициенты корреляции и эндогенной и экзогенных переменных.
|
|
=0,987 |
=0,987 |
Выполним проверку гипотезы H0 о некоррелированности эндогенной и экзогенных переменных (истинный коэффициент частной корреляции равняется нулю). При вычислении критических точек объем n выборки следует заменить на n-(m-1) , где m=2 – количество экзогенных переменных.
Находим соответствующие значения случайной величины распределенной по закону Стьюдента с n-3 степенями свободы и используемой для выявления значимости каждого из парных коэффициентов корреляции.
~t(n-3), k=1,2,
18,118 2.835
, a=0,05
w100a/2= 2.306
Т.к условие >w100a/2 выполняется, то это дает нам право, с вероятностью ошибиться a=0,05, отвергнуть гипотезу НО об отсутствии корреляционной связи между величинами Y и X1, Y и X2 как не соответствующую экспериментальным данным, а эмпирические коэффициенты и признать значимыми.
Построим доверительные интервалы для истинных коэффициентов корреляции и , с доверительной вероятностью 1-a.
Доверительный интервал – это вычисленный на данных интервал, который с заданной вероятностью покрывает интересующий нас неизвестный параметр генеральной совокупности. В его основе используется стандартная ошибка оцениваемого параметра.
thck<
£thdk, k=1,2,
ck,dk=0.5ln ±ua/2 - ,
ua/2 = -1.96
c1= 1.756 |
d1= 3.142 |
c2= 0.115 |
d2= 1.501 |
thck< £thdk
thc1= 0.942 |
thd1= 0.996 |
thc2= 0.114 |
thd2= 0.905 |
Сопоставив данные полученные до и после замены выборки на n-1, можно сказать что данные полученные после замены на n-1 стали меньше, а значит более точными.
6. Используя МНК, мы должны найти МНК–оценку вектора регрессионных параметров в соответствии с 1 вариантом задания.
Использую регрессионную модель
y= 0+ 1x1+ 2x2+ 3 +e
|
|
|
Где =
Находим МНК–оценку вектора регрессионных параметров a
Оценка находится из условия
, которая определяется соотношением.
=(XTX)-1XTy,
= |
-136.039 |
67.453 | |
11.288 | |
-70.465 |
7. Определим величину (дисперсия), являющуюся мерой разброса экспериментальных данных Yi относительно значений, “предсказанных” регрессионной моделью (оценка дисперсии стохастической составляющей в составе экспериментальных данных).
, , m=3
Где m+1 – размерность вектора , - i-й компонент вектора
Оценка дисперсии стохастической составляющей в составе экспериментальных данных равна 17,712.
8. Найдем коэффициент детерминации Kd2
Kd2= ,
где - простая средняя ее наблюдаемых значений, = [1 1 ... 1]TÎRn.
Kd2= 0.985
Вычислим коэффициент детерминации К. Долю дисперсии, которая обусловлена регрессией, в общей дисперсии показателя Y характеризует коэффициент детерминации К. Коэффициент детерминации изменяется в диапазоне от 0 до 1. Если он равен 0, это означает, что связь между переменными регрессионной модели отсутствует, и вместо нее для оценки значения выходной переменной можно с таким же успехом использовать простое среднее ее наблюдаемых значений. Напротив, если коэффициент детерминации равен 1, это соответствует идеальной модели, когда все точки наблюдений лежат точно на линии регрессии, т.е. сумма квадратов их отклонений равна 0. На практике, если коэффициент детерминации близок к 1, это указывает на то, что модель работает очень хорошо (имеет высокую значимость), а если к 0, то это означает низкую значимость модели, когда входная переменная плохо "объясняет" поведение выходной, т.е. линейная зависимость между ними отсутствует. Очевидно, что такая модель будет иметь низкую эффективность
Так как коэффициент детерминации близок к 1, то это указывает на то, что модель работает очень эффективно (имеет высокую значимость около 99%)
9. Подтвердим более тщательным образом наличие зависимости товарооборота от величины торговой площади и числа посетителей, вычислив величину распределенную по закону Фишера с m степенями свободы числителя и n-m-1 степенями свободы знаменателя.
z = ~ F(m, n-m-1) z= 169,417
Далее найдем w100a – 100a% -я точка F-распределения с числом степеней свободы числителя m и знаменателя n-m-1
10. Найдите ковариационную матрицу K ошибок оценок . Ковариационная матрица ошибок – это матрица, по главной диагонали которой располагается дисперсия ошибок, а остальные элементы представляют собой ковариации между этими ошибками.
K =
K= |
8.317*10^4 |
-401.962 |
5.66*10^3 |
-4.299*10^4 |
-401.962 |
16.917 |
-25.552 |
182.03 | |
5.66*10^3 |
-25.552 |
387.029 |
-2.935*10^3 | |
-4.299*10^4 |
182.03 |
-2.935*10^3 |
2.229*10^4 |
11. Делаем проверку справедливости гипотезы 3=0 против альтернативы 3 0. Эта гипотеза принимается с доверительной вероятностью 1-a, если выполняется условие
Условие выполняется, так как 3.582<4.066, значит, гипотезы 3=0 принимается.
12.6 Поскольку гипотеза принимается, то необходимо откорректировать нашу регрессионную модель и произвести соответствующие расчеты.
Используя МНК, находим МНК–оценку вектора регрессионных параметров в соответствии с 1 вариантом задания.
Использую регрессионную модель
y= 0+ 1x1+ 2x2+ 3 +e
|
|
|
Где =
Находим МНК–оценку вектора регрессионных параметров a
Оценка находится из условия
,которая определяется соотношением.
=(XTX)-1XTy,
= |
-286.941 |
63.091 | |
2.38 |
12.7. Определим величину (дисперсия), являющуюся мерой разброса экспериментальных данных Yi относительно значений, “предсказанных” регрессионной моделью (оценка дисперсии стохастической составляющей в составе экспериментальных данных).