Автор: Пользователь скрыл имя, 23 Октября 2011 в 21:07, курсовая работа
Выборка (sample, set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), некоторым способом выбранных из множества всех возможных прецедентов, называемого генеральной совокупностью.
Если исследователь не имеет возможности управлять выбором прецедентов, то обычно предполагается, что выбор прецедентов случаен.
Введение
Выборка (sample, set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), некоторым способом выбранных из множества всех возможных прецедентов, называемого генеральной совокупностью.
Если исследователь не имеет возможности управлять выбором прецедентов, то обычно предполагается, что выбор прецедентов случаен. Если же выбором прецедентов можно управлять, то возникают задачи оптимального формирования выборки
Выборка называется однородной, если все её прецеденты xi, i=1,…,m одинаково распределёны, то есть выбраны из одного и того же распределения <X1,Σ1,P1> .
Статистическая гипотеза (statistical hypothesys) — это определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных.
Проверка статистической гипотезы (testing statistical hypotheses) — это процесс принятия решения о том, противоречит ли рассматриваемая статистическая гипотеза наблюдаемой выборке данных.
Статистический тест или статистический критерий — строгое математическое правило, по которому принимается или отвергается статистическая гипотеза.
Ранговые критерии — это статистические тесты, в которых вместо выборочных значений используются их ранги(номера элементов в упорядоченной по возрастанию выборке). Например, в упорядоченной выборке x1≤ x2≤…≤xn выборочное значение xi заменяется рангом R=i
Большинство
ранговых критериев являются
непараметрическими, хотя среди
ранговых критериев
Непараметрические
критерии не опираются на дополнительные
предположения о распределении.
Критерий Вилкоксона (В 1945г. Вилкоксон опубликовал критерий сравнения двух выборок одинакового объема. В 1947 г. Манн и Уитни обобщили критерий из выборки различного объема) служит для проверки однородности двух независимых выборок: х1,х2,...,хn1 и у1,у2,...,уn2. Достоинство этого критерия состоит в том, что он применим к случайным величинам, распределения которых неизвестны; требуется лишь, чтобы величины были непрерывными.(2)
Двухвыборочный критерий Вилкоксона предназначен для проверки гипотезы
H0 : P(X < Y) = 1/2,
где X - случайная величина, распределенная как элементы первой выборки, а Y - второй.
В описанной
выше вероятностной модели двух независимых
выборок без ограничения
Статистика S двухвыборочного критерия Вилкоксона определяется следующим образом. Все элементы объединенной выборки X1, X2, ..., Xm, Y1, Y2, ..., Yn упорядочиваются в порядке возрастания. Элементы первой выборки X1, X2, ..., Xm занимают в общем вариационном ряду места с номерами R1, R2, ..., Rm, другими словами, имеют ранги R1, R2, ..., Rm . Тогда статистика Вилкоксона - это сумма рангов элементов первой выборки
S = R1 + R2 + ... + Rm .
Статистика U Манна-Уитни определяется как число пар (Xi, Yj) таких, что Xi < Yj , среди всех mn пар, в которых первый элемент - из первой выборки, а второй - из второй. Как известно [7, с.160],
U = mn + m(m+1)/2 - S .
Поскольку S и U линейно связаны, то часто говорят не о двух критериях - Вилкоксона и Манна-Уитни, а об одном - критерии Вилкоксона (Манна-Уитни).
Критерий Вилкоксона - один из самых известных инструментов непараметрической статистики (наряду со статистиками типа Колмогорова-Смирнова и коэффициентами ранговой корреляции). Свойствам этого критерия и таблицам его критических значений уделяется место во многих монографиях по математической и прикладной статистике (см., например, [1, 2]).
Введем некоторые обозначения. Пусть F-1(t) - функция, обратная к функции распределения F(x). Она определена на отрезке [0;1]. Положим L(t) = G(F-1(t)). Поскольку F(x) непрерывна и строго возрастает, то F-1(t) и L(t) обладают теми же свойствами. Важную роль в дальнейшем изложении будет играть величина a = P(X< Y) . Как нетрудно показать,
Введем также параметры
Тогда математические ожидания и дисперсии статистик Вилкоксона и Манна-Уитни согласно [4, с.160] выражаются через введенные величины:
М(U) = mna , М(S) = mn + m(m+1)/2 - М(U) = mn(1- a) + m(m+1)/2,
D(S) = D(U) = mn [ (n - 1) b2 + (m - 1) g2 + a(1 -a) ] . (1)
Когда объемы
обеих выборок безгранично
Если выборки полностью однородны, т.е. их функции распределения совпадают, справедлива гипотеза
H0: F(x) = G(x) при всех x, (2)
то L(t) = t для t из отрезка [0, 1], L(t)= 0 для всех отрицательных t и L(t)= 1 для t > 1, соответственно a= 1/2. Подставляя в формулы (1), получаем, что
М(S) = m(m+n+1)/2, D(S) = mn(m+n+1)/ 12 (3) .
Следовательно, распределение нормированной и центрированной статистики Вилкоксона
T = ( S - m(m+n+1)/2) (mn(m+n+1)/ 12 ) - 1/2 (4)
при росте объемов выборок приближается к стандартному нормальному распределению (с математическим ожиданием 0 и дисперсией 1).
Критерий (при уровне значимости ):
Рис.1 Критическая область асимптотического критерия Манна-Уитни.
Из асимптотической нормальности статистики Т следует, что правило принятия решения для критерия Вилкоксона выглядит так:
- если |T| < Ф(1-α/2) то гипотеза (2) однородности (тождества) функций распределений принимается на уровне значимости α;
- если же |T| > Ф(1-α/2) то гипотеза (2) однородности (тождества) функций распределений отклоняется на уровне значимости α.
В прикладной
статистике наиболее часто
Пример 1. Пусть даны две выборки. Первая содержит m = 12 элементов 17; 22; 3; 5; 15; 2; 0; 7; 13; 97; 66; 14. Вторая содержит n=14 элементов 47; 30; 2; 15; 1; 21; 25; 7; 44; 29; 33; 11; 6; 15. Проведем проверку однородности функций распределения двух выборок с помощью критерия Вилкоксона.
Первым шагом
является построение общего
Табл.1. Общий вариационный ряд для элементов двух выборок
|
Хотя с
точки зрения теории
Следующий шаг - подсчет значения статистики Вилкоксона, т.е. суммы рангов элементов первой выборки
S = R1
+ R2 + ... + Rm =
1+3,5+5+6+8,5+11+12+14+16+18+
Подсчитаем также сумму рангов элементов второй выборки
S1
= 2+3,5+7+8,5+10+14+14+17+19+20+
Величина S1 может быть использована для контроля вычислений. Суммы рангов элементов первой выборки S и второй выборки S1 вместе составляют сумму рангов объединенной выборки, т.е. сумму всех натуральных чисел от 1 до m+n. Следовательно,
S+ S1 = (m+n)(m+n+1)/2= (12+14)(12+14+1)/2= 351.
В соответствии с ранее проведенными расчетами S+S1 = 146+205=351. Необходимое условие правильности расчетов выполнено. Ясно, что справедливость этого условия не гарантирует правильности расчетов.
Перейдем к расчету статистики Т. Согласно формуле (3)
М(S) = 12(12+14+1)/ 2 = 162, D(S) = 12.14(12+14+1)/ 12= 378 .
Следовательно,
T = (S - 162) (378) - 1/2 = (146-162) / 19,44 = - 0.82.
Поскольку |T|<1,96, то гипотеза однородности принимается на уровне значимости 0,05.
Что будет,
если поменять выборки местами,
М(S1 ) = 14(12+14+1)/ 2 = 189, D(S) = D(S1 ) = 378 ,
T1 = ( S1 - 189) (378 ) - 1/2 = (205-162) / 19,44 = 0.82.
Информация о работе Критерий Вилкоксона и проверка гипотезы об однородности двух выборок