Контрольная работа по "Статистике"

Автор: Пользователь скрыл имя, 17 Февраля 2013 в 18:44, контрольная работа

Краткое описание

Изучается линейная зависимость результативного признака Y – ожидаемой продолжительности жизни мужчины (в годах) от пяти факторных признаков – регрессоров x1 - численности населения (в тыс. чел.), x2 - рождаемости (на 1000 чел.), x3 - смертности (на 1000 чел.), x4 - среднего числа детей в семье, x5 - процента городского населения.

Файлы: 1 файл

работа1.docx

— 41.76 Кб (Скачать)

Изучается линейная зависимость  результативного признака Y – ожидаемой продолжительности жизни мужчины (в годах) от пяти факторных признаков – регрессоров x1 - численности населения (в тыс. чел.), x2 - рождаемости (на 1000 чел.), x3 - смертности (на 1000 чел.), x4 - среднего числа детей в семье, x5 - процента городского населения.

  1. Модель множественного линейного регрессионного анализа признака Y:

;

где случайные величины (случайные эффекты влияния на результативный признак неконтролируемых факторов) независимы и имеют одинаковое нормальное распределение , или, иначе, наблюдения независимы и имеют нормальное распределение

.

. Данная функция называется линейной множественной регрессии.

  1. Введем исходные данные в рабочий лист MS Excel. Для расчета матрицы оценок коэффициентов парной корреляции воспользуемся программой «Корреляция».

В результате работы программы  «Корреляция» рассчитана матрица оценок коэффициентов парной корреляции (табл.1). Жирным шрифтом выделены коэффициенты корреляции, оценки которых по модулю превосходят 0,7.

Таблица 1

 

Y

x(1)

x(2)

x(3)

x(4)

x(5)

Y

1

         

x(1)

-0,12513

1

       

x(2)

-0,81727

0,042289

1

     

x(3)

-0,59694

-0,03566

0,236172

1

   

x(4)

-0,80838

-0,00289

0,966282

0,334691

1

 

x(5)

0,687435

-0,30208

-0,6335

-0,29824

-0,5719

1


Выводы: cудя по наблюдениям, наиболее сильна линейная связь результативного признака Y (ожидаемой продолжительности жизни мужчины) с факторным признаком x(2) (рождаемостью на 1000 чел.), x(4) (средним числом детей в семье), так как модули оценок соответствующих коэффициентов парной корреляции достаточно велики: .

Достаточно сильна линейная связь между парой регрессоров  x(2)(рождаемостью) и x(4)(средним числом детей в семье): – это свидетельствует о коллинеарности регрессоров x2 и x4.

  1. Рассчитаем оценки параметров модели линейной регрессии с помощью программы «Регрессия» группы «Анализ данных».

 

 

 

 

 

 

Оценка линейной функции  регрессии:

.

Стандартная ошибка .

Средняя относительная ошибка аппроксимации (в процентах) равна 3,4%.

.

  1. a) В таблице «Дисперсионный анализ» в столбце «df» приводятся количество степеней свободы m=5, n-m=46, n-1=51 соответственно случайных величин

, значения которых, равные соответственно 2958,092, 444,889, 3402,981, приводятся в столбце «SS»; а в столбце «MS» приведены значения величин , равные соответственно 591,618, 9,671 (табл.2).

Таблица 2. Дисперсионный  анализ

 

df

SS

MS

F

Значимость F

Регрессия

5

2958,092

591,618

61,171

0,000

Остаток

46

444,889

9,671

   

Итого

51

3402,981

     

 

Проверка гипотезы Н0: . Так как значимость F меньше , то гипотеза Н0 не принимается (уравнение значимо).

б) Проверим гипотезы : при альтернативных гипотезах : .

Таблица 3

 

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

3,535

24,435

0,000

79,265

93,497

79,265

93,497

x(1)

0,000

-1,104

0,275

0,000

0,000

0,000

0,000

x(2)

0,202

-3,758

0,000

-1,165

-0,352

-1,165

-0,352

x(3)

0,159

-6,976

0,000

-1,432

-0,791

-1,432

-0,791

x(4)

1,259

1,333

0,189

-0,857

4,213

-0,857

4,213

x(5)

0,028

1,534

0,132

-0,013

0,098

-0,013

0,098


 

В табл.3 в столбце «t-статистика» приводятся значения статистики , которая при выполнении гипотезы Н0 имеет распределение Стьюдента с степенью свободы.

Так как критическая точка , то только гипотезы отвергаются (оценки параметров значимы), а гипотезы принимаются (оценки незначимы).

В табл.3 в столбце «P-значение» приводятся рассчитанные уровни значимости гипотез – вероятности . Отсюда видно, что гипотезы   отвергаются, а гипотезы принимаются.

  1. а) Исключим из уравнения регрессор , при котором коэффициент незначим, а соответствующая этому коэффициенту абсолютная величина значения t-статистики является наименьшей, уровень значимости является наибольшим. Оценка линейной функции регрессии:

.

Стандартная ошибка .

Средняя относительная ошибка аппроксимации (в процентах) равна 3,4%.

Оценка коэффициента множественной линейной корреляции равна 0,93, оценка коэффициента множественной линейной детерминации равна 0,87, оценка нормированного коэффициента множественной линейной детерминации равна 0,85.

Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F меньше принятого уровня значимости α = 0,05.

Так как , только гипотеза принимается, а гипотезы не принимаются.

б) Исключим из уравнения  регрессор , при котором коэффициент незначим. Оценка линейной функции регрессии:

.

Стандартная ошибка .

Средняя относительная ошибка аппроксимации (в процентах) равна 3,5%. Оценка коэффициента множественной линейной корреляции равна 0,93, оценка коэффициента множественной линейной детерминации равна 0,86, оценка нормированного коэффициента множественной линейной детерминации равна 0,85.

 

Таблица 4

 

Уравнение, интервальные оценки коэффициентов, наблюдаемые значения статистики Т, Р-значения

       

F

 

1

 

(79.27;93.5)         (0;0)                            (-1.17;-0.35)             (-1.43;-0.79)              (-0.86;4.21)             (-0.01;0.098)

             (-1.104)                           (-3.76)                         (-6.98)                        (1.33)                        (1.53)

(0.28)                               (0)                                 (0)                             (0.19)                        (0.13)

0.87

0.86

3.11

3.4%

61.17

2.417

2

 

(78.39;91.94)     (-1.17;-0.35)            (-1.42;-0.78)            (-0.79;4.29)              (0;0.11)

                  (-3.75)                     (-6.89)                      (1.39)                        (2.03)

(0)                               (0)                         (0.17)                        (0.05)

0.87

0.86

3.12

3.4%

75.8

2.57

3

 

(76.89;88.49)      (-0.6;-0.37)              (-1.27;-0.71)            (0.01; 0.11)

                       (-8.68)                      (-7.04)                       (2.59)

(0)                             (0)                             (0.013)

0.86

0.85

3.15

3.5%

98.53

2.798




 

Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F меньше принятого уровня значимости α = 0,05.

Так как , то гипотезы не принимаются.

Результаты отображены в  табл.4.

 

 

  1. Наилучшим уравнением является полученное на третьем шаге, так как и уравнение, и все коэффициенты значимы.

 

а) более 80% дисперсии продолжительности  жизни мужчины связано с линейным влиянием рождаемости, смертности и  процента городского населения.

б) точечная оценка генерального среднего значения продолжительности жизни мужчины при значениях регрессоров на первом объекте равна

, а реальная  продолжительность жизни мужчины  в Австралии  равна 74, остаток  равен 1,1 – продолжительность  жизни мужчины выше среднего  уровня.

в) увеличение смертности на единицу (при неизменных остальных  регрессорах) сопровождается наибольшим изменением средней продолжительности  жизни мужчины (уменьшением на 0,989).

г) коэффициент эластичности:

 

 

 

Отсюда, увеличение рождаемости  на 1% при неизменных остальных регрессорах  сопровождается наибольшим процентным изменением средней продолжительности  жизни мужчины – ее уменьшением  на 0,15%.


Информация о работе Контрольная работа по "Статистике"