Непараметрические методы

Автор: Пользователь скрыл имя, 19 Февраля 2013 в 12:19, реферат

Краткое описание

В учебных курсах по теории вероятностей и математической статистике рассматривают различные параметрические семейства распределений числовых случайных величин. А именно, изучают семейства нормальных распределений, логарифмически нормальных, экспоненциальных, гамма-распределений, распределений Вейбулла-Гнеденко и др. все они зависят от одного, двух или трех параметров. Поэтому для полного описания распределения достаточно знать или оценить одно, два или три числа. Очень удобно. Поэтому широко развита параметрическая теория математической статистики, в которой предполагается, что распределения результатов наблюдений принадлежат тем или иным параметрическим семействам.

Файлы: 1 файл

Документ Microsoft Office Word1.docx

— 81.57 Кб (Скачать)

Введение:

В учебных курсах по теории вероятностей и математической статистике рассматривают различные параметрические  семейства распределений числовых случайных величин. А именно, изучают  семейства нормальных распределений, логарифмически нормальных, экспоненциальных, гамма-распределений, распределений Вейбулла-Гнеденко и др.  все они зависят от одного, двух или трех параметров. Поэтому для полного описания распределения достаточно знать или оценить одно, два или три числа. Очень удобно. Поэтому широко развита параметрическая теория математической статистики, в которой предполагается, что распределения результатов наблюдений принадлежат тем или иным параметрическим семействам.

К сожалению, параметрические  семейства существуют лишь в головах  авторов учебников по теории вероятностей и математической статистике. В реальной жизни их нет. Поэтому статистика (эконометрика) использует в основном непараметрические методы, в которых распределения результатов наблюдений могут иметь произвольный вид.

Следовательно, актуальностью  данной темы  я считаю, что с  помощью непараметрических методов устанавливается связь между качественными (атрибутивными) признаками. Сфера их применения шире, чем параметрических, поскольку не требуется соблюдения условия нормальности распределения зависимой переменной, однако при этом снижается глубина исследования связей. При изучении зависимости между качественными признаками не ставится задача представления ее уравнением. Здесь речь идет только об установлении наличия связи и измерении ее тесноты.

Цель работы – изучить  и проанализировать непараметрические  методы связи, проследить возможности  непараметрических критериев для  проверки гипотез и обоснования  достоверности различий.

 

1. Выявление  различий в уровне исследуемого признака. Критерий Манна-Уитни, критерий (угловое преобразование Фишера)

Простой непараметрический критерий. Этот метод определяет, достаточно ли мала зона перекрещивающихся значений между двумя рядами (ранжированным рядом значений параметра в первой выборке и таким же во второй выборке). Чем меньше значение критерия, тем вероятнее, что различия между значениями параметра в выборках достоверны.

В каждой из выборок должно быть не менее 3 значений признака. Допускается, чтобы в одной выборке было два значения, но во второй тогда  не менее пяти.

В выборочных данных не должно быть совпадающих значений (все числа  — разные) или таких совпадений должно быть очень мало.

Для применения U-критерия Манна—Уитни  нужно произвести следующие операции.

Составить единый ранжированный  ряд из обеих сопоставляемых выборок, расставив их элементы по степени  нарастания признака и приписав меньшему значению меньший ранг. Общее количество рангов получится равным:

N = n1 + n2,

где n1 — количество единиц в первой выборке, а n2 — количество единиц во второй выборке.

Разделить единый ранжированный  ряд на два, состоящие соответственно из единиц первой и второй выборок. Подсчитать отдельно сумму рангов, пришедшихся на долю элементов первой выборки, и отдельно — на долю элементов  второй выборки. Определить большую из двух ранговых сумм (Tx), соответствующую выборке с nx единиц.

Определить значение U-критерия Манна—Уитни по формуле:

 

 

  1. По таблице для избранного уровня статистической значимости определить критическое значение критерия для данных n1 и n2. Если полученное значение U меньше табличного или равно ему, то признается наличие существенного различия между уровнем признака в рассматриваемых выборках (принимается альтернативная гипотеза). Если же полученное значение U больше табличного, принимается нулевая гипотеза. Достоверность различий тем выше, чем меньше значение U.

2.  При справедливости нулевой гипотезы критерий имеет математическое ожидание и дисперсию и при достаточно большом объёме выборочных данных распределён практически нормально.

         Критерий (угловое преобразование Фишера)

Критерий оценивает достоверность  различий между процентными долями двух выборок, в которых зарегистрирован  интересующий нас эффект. Т.е. мы сравниваем процент испытуемых в одной выборке, характеризующихся каким-либо качеством, с процентом испытуемых в другой выборке, характеризующихся тем  же качеством. Например, пусть  две  группы студентов решали сложную  задачу. В первой группе из 20 человек  с ней справились 10 человек,  а  во второй из 25 человек –10. Нас интересует, различаются ли группы по степени  подготовленности к решению задачи. Для того чтобы воспользоваться  критерием, необходимо найти долю студентов, решивших задачу для каждой группы.

1 группа -   Р1=10/20*100%=50%

2 группа -   Р2=10/25*100%=40%

Далее переводят процентную долю в угол, который измеряется в радианах, по формуле

                                    j=2*arcsin(ÖP),

 где Р-процентная доля, выраженная в виде десятичной  доли.

Для наших групп мы получим:

j1=2*acrsin(Ö0,5)=1,571

j2=2*acrsin(Ö0,4)=1,369

Для перевода процентной доли в угол можно воспользоваться  таблицей XII, где Р процентная доля представлена в виде процентов.

Эмпирическое значение критерия j* вычисляется по формуле:


Где j1 – угол, соответствующий большей процентной доле;

       j2 – угол, соответствующий меньшей процентной доле;

       n1 – количество наблюдений в выборке 1;

       n2 – количество наблюдений в выборке 2;

Для нашего примера:  j1=1,571,   j2 =1,369, n1 =20,  n2 =25;

                                       j*эмп=(1,571-1,369)* Ö20*25/(20+25)=0,202*3,3=0,673

Полученные данные можно  занести в следующую таблицу:

 

Группа 1

Группа 2

 

Число испытуемых

Доля %

Угол  j радиан

Число испытуемых

Доля %

Угол j радиан

Количество испытуемых,  которые  решили задачу

10

50

1,571

10

40

1,369

Количество испытуемых, которые  не решили задачу

10

50

 

15

60

 

Всего человек

20

100%

 

25

100%

 

Эмпирическое значение критерия j*

0,673

         

Критерий j* позволяет определить, действительно ли один из углов статистически достоверно превосходит другой при данных объемах выборок.

ОГРАНИЧЕНИЯ КРИТЕРИЯ j*.

  1. Ни одна из сопоставляемых долей не должна быть равной нулю.
  2. Верхний предел в критерии j* отсутствует (выборки могут быть сколь угодно большими).

Нижний предел – 2 наблюдения в одной выборке. Однако должны соблюдаться  следующие соотношения в численности  двух выборок:

  • если в одной выборке всего 2 наблюдения, то во второй должно быть не менее 30;
  • если в одной из выборок всего 3 наблюдения, то во второй должно быть не менее 7;
  • если в одной из выборок всего 4 наблюдения, то во второй должно быть не менее 5;
  • если в каждой выборке не менее 5 человек, то возможны любые сочетания.

 

2. Оценка сдвига значений исследуемого признака.  Критерий Вилкоксона

Критерий применяется для сопоставления показателей, измеренных в двух разных условиях на одной и той же выборке испытуемых.

Он позволяет  установить не только направленность изменений, но и их выраженность. С его помощью определяется, является ли сдвиг показателей в каком-то одном направлении более интенсивным, чем в другом.

Этот критерий применяется в тех случаях, когда  признаки  измерены по крайней мере по шкале порядка, и сдвиги между  вторым и первым замерами тоже могут быть упорядочены. Для этого они должны варьировать в достаточно широком диапазоне. В принципе, можно применить критерий Т и в тех случаях, когда сдвиги принимают только три значения: -1, 0 и +1, но тогда критерий Т вряд ли добавит что-нибудь новое к тем выводам, которые можно было бы получить с помощью критерия знаков. Вот если сдвиги изменяются, например от -30 до +45, тогда имеет смысл их ранжировать и потом суммировать ранги.

Суть метода состоит в том, что сопоставляются выраженность сдвигов в том и ином направлениях по абсолютной величине. Для этого сначала ранжируются все абсолютные величины сдвигов, а потом  суммируют ранги. Если сдвиги в положительную и в отрицательную сторону происходят случайно, то суммы рангов абсолютных значений их будут примерно равны. Если же интенсивность сдвига в одном из направлений  перевешивает, то сумма рангов абсолютных значений сдвигов в противоположную сторону будет значительно ниже, чем это могло бы быть при случайных изменениях.

Первоначально исходят из предложения о том, что  типичным сдвигом будет сдвиг в более часто встречающемся направлении, а нетипичным, или редким, сдвигом – сдвиг в более редко встречающемся направлении. 

Пример 1. Пусть даны две выборки. Первая содержит m= 12 элементов 17; 22; 3; 5; 15; 2; 0; 7; 13; 97; 66; 14. Вторая содержит n=14 элементов 47; 30; 2; 15; 1; 21; 25; 7; 44; 29; 33; 11; 6; 15. Проведем проверку однородности функций распределения двух выборок с помощью только что сформулированного правила принятия решений на основе критерия Вилкоксона.

Первым шагом является построение общего вариационного ряда для элементов двух выборок.

Табл. Общий вариационный ряд для элементов двух выборок

 

Ранги

1

2

3,5

3,5

5

6

7

8,5

8,5

10

11

12

14

Элементы выборок

0

1

2

2

3

5

6

7

7

11

13

14

15

Номера выборок

1

2

1

2

1

1

2

1

2

2

1

1

1

Ранги

14

14

16

17

18

19

20

21

22

23

24

25

26

Элементы выборок

15

15

17

21

22

25

29

30

33

44

47

66

97

Номера выборок

2

2

1

2

1

2

2

2

2

2

2

1

1


 

Хотя с точки зрения теории математической статистики вероятность  совпадения двух элементов выборок  равна 0, в реальных выборках экономических  данных совпадения встречаются. Так, в  рассматриваемых выборках, как видно из табл., два раза повторяется величина 2, два раза - величина 7 и три раза - величина 15. В таких случаях говорят о наличии "связанных рангов", а соответствующим совпадающим величинам приписывают среднее арифметическое тех рангов которые они занимают. Так, величины 2 и 2 занимают в объединенной выборке места 3 и 4, поэтому им приписывается ранг (3+4)/2=3,5. Величины 7 и 7 занимают в объединенной выборке места 8 и 9, поэтому им приписывается ранг (8+9)/2=8,5. Величины 15, 15 и 15 занимают в объединенной выборке места 13, 14 и 15, поэтому им приписывается ранг (13+14+15)/3=14.

Следующий шаг - подсчет значения статистики Вилкоксона, т.е. суммы рангов элементов первой выборки

S = R1 + R2 + ... + Rm = 1+3,5+5+6+8,5+11+12+14+16+18+25+26=146.

Подсчитаем также сумму  рангов элементов второй выборки

S1 = 2+3,5+7+8,5+10+14+14+17+19+20+21+22+23+24= 205.

Величина S1 может быть использована для контроля вычислений. Дело в том, что суммы рангов элементов первой выборки S и второй выборки S1 вместе составляют сумму рангов объединенной выборки, т.е. сумму всех натуральных чисел от 1 до m+n. Следовательно,

S+ S1 = (m+n)(m+n+1)/2= (12+14)(12+14+1)/2= 351.

В соответствии с ранее  проведенными расчетами S+S1 = 146+205=351. Необходимое условие правильности расчетов выполнено. Ясно, что справедливость этого условия не гарантирует правильности расчетов.

Перейдем к расчету  статистики

 ТМ(S) = 12(12+14+1)/ 2 = 162, D(S) = 12.14(12+14+1)/ 12= 378 .

Следовательно,

T = ( S - 162) (378 ) - 1/2 = (146-162) / 19,44 = - 0.82.

Поскольку |T|<1,96, то гипотеза однородности принимается на уровне значимости 0,05.

Что будет, если поменять выборки  местами, вторую назвать первой? Тогда  вместо S надо рассматривать S1 . Имеем

М(S1 ) = 14(12+14+1)/ 2 = 189, D(S) = D(S1 ) = 378 ,

T1 = ( S1 - 189) (378 ) - 1/2 = (205-162) / 19,44 = 0.82.

Таким образом, значения статистики критерия отличаются только знаком (можно  показать, что это утверждение  верно всегда). Поскольку в правиле  принятия решения используется только абсолютная величина статистики, то принимаемое  решение не зависит от того, какую  выборку считаем первой, а какую  второй. Для уменьшения объема таблиц принято считать первой выборку  меньшего объема.

Продолжим обсуждение критерия Вилкоксона. Правила принятия решений  и таблица критических значений для критерия Вилкоксона строятся в  предположении справедливости гипотезы полной однородности, описываемой формулой (2). А что будет, если эта гипотеза неверна? Другими словами, какова мощность критерия Вилкоксона?

Информация о работе Непараметрические методы