Критерий Вилкоксона и проверка гипотезы об однородности двух выборок

Автор: Пользователь скрыл имя, 23 Октября 2011 в 21:07, курсовая работа

Краткое описание

Выборка (sample, set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), некоторым способом выбранных из множества всех возможных прецедентов, называемого генеральной совокупностью.
Если исследователь не имеет возможности управлять выбором прецедентов, то обычно предполагается, что выбор прецедентов случаен.

Файлы: 1 файл

Критерий Вилкоксона и проверка гипотезы об однородности двух выборок.docx

— 188.08 Кб (Скачать)

Таким образом, значения статистики критерия отличаются только знаком (можно показать, что  это утверждение верно всегда). Поскольку в правиле принятия решения используется только абсолютная величина статистики, то принимаемое  решение не зависит от того, какую  выборку считаем первой, а какую  второй. Для уменьшения объема таблиц принято считать первой выборку  меньшего объема.          

Правила принятия решений и таблица критических  значений для критерия Вилкоксона строятся в предположении справедливости гипотезы полной однородности, описываемой  формулой (2). А что будет, если эта  гипотеза неверна? Другими словами, какова мощность критерия Вилкоксона?          

 Пусть объемы  выборок достаточно велики, так  что можно пользоваться асимптотической  нормальностью статистики Вилкоксона. Тогда в соответствии с формулами  (1) статистика T будет асимптотически нормальна с параметрами

М(T) =  ( 12mn ) 1/2 (1/2 - a) (m+n+1) - 1/2  ,

D(T) = 12 [(n - 1) b2  + (m - 1) g + a(1 -a) ] (m+n+1) - 1    .  (5)          

 Из формул (5) видно большое значение гипотезы

H01 a =  P(X < Y) = 1/2 .   (6)

Если эта гипотеза неверна, то, поскольку m < n, справедлива оценка  

|M(T)| > (12m n (2n+1) - 1) 1/2 |1/2 - a| ,

а потому |M(T)| безгранично растет при росте объемов выборок. В то же время, поскольку

то 

D(T) < 12 [(n - 1) + (m - 1) + 1/4] (m+n+1) - 1 <12.  (7)

Следовательно, вероятность отклонения гипотезы H01, когда она неверна, т.е. мощность критерия Вилкоксона как критерия проверки гипотезы (6), стремится к 1 при возрастании объемов выборок, т.е. критерий Вилкоксона является состоятельным для этой гипотезы при альтернативе

АH01:  a =  P(X < Y)

 1/2 .   (8) .         

 Если же  гипотеза (6) верна, то статистика T асимптотически нормальна с  математическим ожиданием 0 и  дисперсией, определяемой формулой 

D(T) = 12 [(n - 1) b2  + (m - 1) g + 1/4 ] (m+n+1) -1 (9)

Гипотеза (6) является сложной, дисперсия (9) в зависимости от значений b2 и g2 может быть как больше 1, так и меньше 1, но согласно неравенству (7) никогда не превосходит 12.          

 Приведем  пример двух функций распределения  F(x) и G(x) таких, что гипотеза (6) выполнена, а гипотеза (2) - нет. Поскольку

a =  P(X < Y) =

 ,  1 - a =  P(Y < X) =
   
(10)

и  a = 1/2 в случае справедливости гипотезы (2), то для выполнения условия (6) необходимо и достаточно, чтобы

  (11) ,

а потому естественно  в качестве F(x) рассмотреть функцию равномерного распределения на интервале (-1; 1). Тогда формула (11) переходит в условие

    (11) .

Это условие  выполняется, если функция (G(x) - (x + 1)/2) является нечетной.

Гипотеза  сдвига

  В теоретических  работах по математической статистике часто рассматривают гипотезу сдвига, в которой альтернативой гипотезе (2) является гипотеза

H1:    F(x) = G(x + r)    (5)

при всех x и некотором сдвиге r, отличным от 0. Если верна альтернативная гипотеза H1, то вероятность P(X < Y) отлична от 1/2, а потому при альтернативе (5) критерий Вилкоксона является состоятельным.

  В некоторых  прикладных постановках гипотеза (5) представляется естественной. Например, если одним и тем же прибором проводятся две серии измерений двух значений некоторой величины (физической, химической и т.п.). При этом функция распределения  G(x) описывает погрешности измерения одного значения, а G(x+r) - другого. Вопреки распространенному заблуждению, хорошо известно, что распределение погрешностей измерений, как правило, не является нормальным . Однако при анализе конкретных статистических данных, как правило, нет никаких оснований считать, что отсутствие однородности всегда выражается столь однозначным образом, как следует из формулы (5). Поэтому эконометрику для проверки однородности необходимо использовать статистические критерии, состоятельные против любого отклонения от гипотезы однородности (2). [3]

    
 
 
 
 
 
 
 
 

  1. Критерий  Ван дер Вардена

   Критерий  был предложен Ван дер Варденом в 1953 году.

   Непараметрический статистический критерий, используемый для оценки различий между двумя  выборками по признаку, измеренному  в количественной или порядковой шкале. Критерий является ранговым, поэтому  он инвариантен по отношению к  любому монотонному преобразованию шкалы измерения. Существует обобщение  критерия Ван дер Вардена для  выявления различий между несколькими  выборками.

   Примеры задач 

   Пример 1. Первая выборка — это пациенты, которых лечили препаратом А. Вторая выборка — пациенты, которых лечили препаратом Б. Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.) Требуется выяснить, имеется ли значимое различие эффективности препаратов А и Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики.

   Пример 2. Первая выборка — это поля, обработанные агротехническим методом А. Вторая выборка — поля, обработанные агротехническим методом Б. Значения в выборках — это урожайность. Требуется выяснить, является ли один из методов эффективнее другого, или различия урожайности обусловлены случайными факторами.

   Пример 3.(использование  многовыборочного критерия Ван дер Вардена) Нужно проверить, как лекарство помогает в снятии соответствующего симптома. Взяты несколько групп пациентов, и каждой из них назначается определенная доза препарата. Гипотеза состоит в том, что по мере увеличения уровня дозы больные чувствуют себя лучше.

   Описание  критерия

   Заданы  две выборки  xm=(x1,...,xm), xi ЄR; yn=(y1,...,yn), yiЄR

   Дополнительные  предположения:

  • обе выборки простые, объединённая выборка независима;
  • выборки взяты из неизвестных непрерывных распределений F(x) и G(y) соответственно.

   Нулевая гипотеза H0:F(x)=G(y).

   Статистика  критерия:

  1. Построить общий вариационный ряд объединённой выборки

z(1) ≤...≤ z (m+n) и найти ранги r(xi ) элементов первой выборки в общем вариационном ряду.

  1. Статистика критерия Ван дер Вардена вычисляется по формуле:

    , где  — квантиль уровня стандартного нормального распределения

   Критерий (при уровне значимости ):

  • двусторонний критерий — против альтернативы H1: P{x<y}≠1/2

       если , то нулевая гипотеза отвергается;

  • односторонний критерий - против альтернативы

       если X>X1-α , то нулевая гипотеза отвергается;

   Здесь Xα -- это α - квантиль табличного распределения статистики Ван дер Вардена с параметрами m,n.

   Асимптотический критерий

   Распределение статистики Ван дер Вардена асимптотически нормально с нулевым матожиданием E X=0 и дисперсией

       

   Нормальную  аппроксимацию статистики Ван дер  Вардена можно использовать при m,n ≥20.

   В этом случае критерии (при уровне значимости ) будет выглядеть следующим образом:

  • двусторонний критерий , то нулевая гипотеза отвергается;
  • односторонний критерий - против альтернативы

       если  , то нулевая гипотеза отвергается;

   Свойства  критерия Ван дер  Вардена 

   Если  выборки подчиняются нормальному  распределению, то критерий Ван дер  Вардена асимптотически имеет ту же мощность, что и критерий Стьюдента.

   При n+m→∞ критерий Ван дер Вардена не уступает в эффективности критерию Стьюдента

   Многовыборочное обобщение критерия Ван дер Вардена 

   Заданы  k выборок: . Объединённая выборка: .

   Дополнительные  предположения:

  • все выборки простые, объединённая выборка независима;
  • выборки взяты из неизвестных непрерывных распределений F1(x),…,Fk(x).

   Статистика  критерия: Все элементов выборок упорядочиваются по возрастанию, через Rij обозначается ранг j-го элемента i-й выборки в полученном вариационном ряду.

   Статистика  Ван дер Вардена имеет вид 

       

   Проверяется нулевая гипотеза H0:F1(x) =…=Fk(x) против альтернативы .

   Если  нулевая гипотеза выполнена, то поведение  статистики хорошо описывается распределением хи-квадарат с k-1 степенью свободы.

   Нулевая гипотеза отвергается при уровне значимости α, если , где — квантиль уровня 1-α распределения хи-квадрат с k-1 степенью свободы. [7] 
 
 
 
 
 
 

  Список  литературы:

  1. Гаек  Я., Шидак З. Теория ранговых  критериев. - М.: Наука, 1971. - 376 с.                       

  2. Большев  Л.Н., Смирнов Н.В. Таблицы математической  статистики. - М.: ВЦ АН СССР, 1968. - 474 с.    

  3. Орлов  А.И. Прикладная статистика. - М.:Издательство "Экзамен",2004.

  4. Никитин  Я.Ю. Асимптотическая эффективность  непараметрических критериев. - М.: Наука, 1995. - 240 с.

  5. Ван  дер Варден Б.Л. Математическая  статистика/Пер.с нем. — М.:  Иностранная литература,1960 — 450 c.

  6.Кобзарь  А. И. Прикладная математическая  статистика. — М.: Физматлит, 2006. —  816 с. 

  7.http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%92%D0%B0%D0%BD_%D0%B4%D0%B5%D1%80_%D0%92%D0%B0%D1%80%D0%B4%D0%B5%D0%BD%D0%B0 
 
 
 

Информация о работе Критерий Вилкоксона и проверка гипотезы об однородности двух выборок