Автор: Пользователь скрыл имя, 19 Февраля 2013 в 12:19, реферат
В учебных курсах по теории вероятностей и математической статистике рассматривают различные параметрические семейства распределений числовых случайных величин. А именно, изучают семейства нормальных распределений, логарифмически нормальных, экспоненциальных, гамма-распределений, распределений Вейбулла-Гнеденко и др. все они зависят от одного, двух или трех параметров. Поэтому для полного описания распределения достаточно знать или оценить одно, два или три числа. Очень удобно. Поэтому широко развита параметрическая теория математической статистики, в которой предполагается, что распределения результатов наблюдений принадлежат тем или иным параметрическим семействам.
Пусть объемы выборок достаточно велики, так что можно пользоваться асимптотической нормальностью статистики Вилкоксона. Тогда в соответствии с формулами (1) статистика T будет асимптотически нормальна с параметрами
М(T) = (12mn) 1/2 (1/2 - a) (m+n+1) - 1/2 ,
D (T) = 12 [(n - 1) b2 + (m - 1) g2 + a (1 -a)] (m+n+1) - 1. (5)
Из формул (5) видно большое значение гипотезы
H01: a = P(X < Y) = 1/2 . (6)
Если эта гипотеза неверна, то, поскольку m < n, справедлива оценка
|M(T)| > (12m n (2n+1) - 1) 1/2 |1/2 - a| ,
а потому |E(T)| безгранично растет при росте объемов выборок. В то же время, поскольку
то
D(T) < 12 [(n - 1) + (m - 1) + 1/4] (m+n+1) - 1 <12. (7)
Следовательно, вероятность отклонения гипотезы H01 , когда она неверна, т.е. мощность критерия Вилкоксона как критерия проверки гипотезы (6), стремится к 1 при возрастании объемов выборок, т.е. критерий Вилкоксона является состоятельным для этой гипотезы при альтернативе
АH01: a = P(X < Y) 1/2 . (8) .
Если же гипотеза (6) верна, то статистика T асимптотически нормальна с математическим ожиданием 0 и дисперсией, определяемой формулой
D(T) = 12 [(n - 1) b2 + (m - 1) g2 + 1/4] (m+n+1) -1 . (9)
Гипотеза (6) является сложной, дисперсия (9), как показывают приводимые ниже примеры, в зависимости от значений b2 и g2 может быть как больше 1, так и меньше 1, но согласно неравенству (7) никогда не превосходит 12.
Приведем пример двух функций распределения F(x) и G(x) таких, что гипотеза (6) выполнена, а гипотеза (2) - нет. Поскольку
a = P(X < Y) = , 1 - a = P(Y < X) = (10)
и a = 1/2 в случае справедливости гипотезы (2), то для выполнения условия (6) необходимо и достаточно, чтобы
(11) ,
а потому естественно в качестве F(x) рассмотреть функцию равномерного распределения на интервале (-1; 1). Тогда формула (11) переходит в условие
(11) .
Это условие выполняется, если функция (G(x) - (x + 1)/2) является нечетной.
3. Выявление различий в распределении признака. Критерий c2 Пирсона
Области применения этого
критерия многообразны; мы ограничимся
двумя, наиболее часто встречающимися
на практике применениями. Первая –
это сопоставление эмпирическог
Критерий c2 Пирсона отвечает на вопрос, с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределении или в двух и более эмпирических распределениях.
Большим преимуществом этого
метода является то, что он применим
для сопоставления
Если признак измеряется количественно и данных очень много, приходится объединять данные в несколько разрядов, как это принято в математической статистике. После этого сопоставляются частоты разрядов признака.
При сопоставлении эмпирического
и теоретического распределений
признака находится степень расхождения
между эмпирическими и
Пример. В группе 32 студента. В результате контрольной работы по математике 6 студентов получили 5 баллов, 6 студентов получили 4 балла, 16 студентов получили 3 балла и 4 студента получили 2 балла. Можно ли считать, что мы имеем дело с группой «троечников»?
Решение. Отнесем к первому разряду тех студентов, которые получили 5 баллов (6 человек), ко второму разряду – 4 балла (6 человек), к третьему – 3 балла (16 человек) и к четвертому – тех, кто получил 2 балла (4 человека). Третий разряд получился самым многочисленным. Если бы в каждом разряде было примерно одинаковое количество человек, то распределение оценок, полученных студентами, было бы равномерным. Сформулируем гипотезы:
Н0: Распределение оценок, полученных студентами по контрольной работе, не отличается от равномерного распределения.
Н1: Распределение оценок, полученных студентами по контрольной работе, статистически достоверно отличается от равномерного распределения.
Вычислим теоретическую частоту по формуле: fтеор = n/k, где n – количество наблюдений, k – количество разрядов признака.
В нашем случае: fтеор = 32/4 = 8. Теперь будем сравнивать с этой частотой все эмпирические частоты. Согласно алгоритму составим таблицу и все вычисления выполним в ней.
Разряды (количество баллов) |
Эмпирические частоты fj |
Теоретическая частота fт |
fj – fт |
(fj – fт)2 |
(fj – fт)2/fт |
1 (5 баллов) 2 (4 балла) 3 (3 балла) 4 (2 балла) |
6 6 16 4 |
8 8 8 8 |
-2 -2 8 -4 |
4 4 64 16 |
0.5 0.5 8 2 |
Суммы |
32 |
32 |
0 |
11 |
Следует обратить внимание на то, что сумма разностей частот в третьем столбце таблицы должна быть равна нулю.
Вычислим число степеней свободы n = к-1 = 4-1 = 3 (к – количество разрядов признака). Найдем по таблице критические значения: c2кр = 7.815 для a = 0.05, c2кр = 11.345 для a = 0.01. В соответствии с правилом принятия решения гипотезу Н0 следует отвергнуть, то есть распределение полученных оценок отличается от равномерного, но так как c2эмп < 11.345, статистически достоверно утверждать, что перед нами – группа «троечников» мы не можем. Следует заметить, что для 4 разряда не выполнено ограничение 2. Студентам предоставим возможность решить эту задачу самостоятельно, рассмотрев два варианта: либо объединить 4 разряд с «троечниками», изменив соответствующим образом гипотезы, либо исключить этот разряд из рассмотрения
4. Выявление степени согласованности изменений. rs — коэффициент ранговой корреляции Спирмена
Для подсчета ранговой корреляции необходимо располагать двумя рядами значений, которые могут быть проранжированы. Такими рядами значений могут быть:
1) два признака, измеренные в одной и той же группе испытуемых;
2) две индивидуальные иерархии признаков, выявленные у двух испытуемых по одному и тому же набору признаков (например, личностные профили по 16-факторному опроснику Р. Б. Кеттелла, иерархии ценностей по методике Р. Рокича, последовательности предпочтений в выборе из нескольких альтернатив и др.);
3) две групповые иерархии признаков;
4) индивидуальная и групповая иерархии признаков.
Вначале показатели ранжируются отдельно по каждому из признаков. Как правило, меньшему значению признака начисляется меньший ранг.
Рассмотрим случай 1 (два признака). Здесь ранжируются индивидуальные значения по первому признаку, полученные разными испытуемыми, а затем индивидуальные значения по второму признаку.
Если два признака связаны положительно, то испытуемые, имеющие низкие ранги по одному из них, будут иметь низкие ранги и по другому, а испытуемые, имеющие высокие ранги по одному из признаков, будут иметь по другому признаку также высокие ранги. Для подсчета rs необходимо определить разности (d) между рангами, полученными данным испытуемым по обоим признакам. Затем эти показатели d определенным образом преобразуются и вычитаются из 1. Чем меньше разности между рангами, тем больше будет rs, тем ближе он будет к +1.
Если корреляция отсутствует, то все ранги будут перемешаны и между ними не будет никакого соответствия. Формула составлена так, что в этом случае rs, окажется близким к 0.
В случае отрицательной корреляции низким рангам испытуемых по одному признаку будут соответствовать высокие ранги по другому признаку, и наоборот.
Чем больше несовпадение между рангами испытуемых по двумя переменным, тем ближе rs к -1.
Рассмотрим случай 2 (два индивидуальных профиля). Здесь ранжируются индивидуальные значения, полученные каждым из 2-х испытуемым по определенному (одинаковому для них обоих) набору признаков. Первый ранг получит признак с самым низким значением; второй ранг - признак с более высоким значением и т.д. Очевидно, что все признаки должны быть измерены в одних и тех же единицах, иначе ранжирование невозможно. Например, невозможно проранжировать показатели по личностному опроснику Кеттелла (16PF), если они выражены в "сырых" баллах, поскольку по разным факторам диапазоны значений различны: от 0 до 13, от 0 до 20 и от 0 до 26. Мы не можем сказать, какой из факторов будет занимать первое место по выраженности, пока не приведем все значения к единой шкале (чаще всего это шкала стенов).
Если индивидуальные иерархии двух испытуемых связаны положительно, то признаки, имеющие низкие ранги у одного из них, будут иметь низкие ранги и у другого, и наоборот. Например, если у одного испытуемого фактор Е (доминантность) имеет самый низкий ранг, то и у другого испытуемого он должен иметь низкий ранг, если у одного испытуемого фактор С (эмоциональная устойчивость) имеет высший ранг, то и другой испытуемый должен иметь по этому фактору высокий ранг и т.д.
Рассмотрим случай 3 (два групповых профиля). Здесь ранжируются среднегрупповые значения, полученные в 2-х группах испытуемых по определенному, одинаковому для двух групп, набору признаков. В дальнейшем линия рассуждений такая же, как и в предыдущих двух случаях.
Рассмотрим случай 4 (индивидуальный и групповой профили). Здесь ранжируются отдельно индивидуальные значения испытуемого и среднегрупповые значения по тому же набору признаков, которые получены, как правило, при исключении этого отдельного испытуемого - он не участвует в среднегрупповом профиле, с которым будет сопоставляться его индивидуальный профиль. Ранговая корреляция позволит проверить, насколько согласованы индивидуальный и групповой профили.
Во всех четырех случаях значимость полученного коэффициента корреляции определяется по количеству ранжированных значений N. В первом случае это количество будет совпадать с объемом выборки п. Во втором случае количеством наблюдений будет количество признаков, составляющих иерархию. В третьем и четвертом случае N - это также количество сопоставляемых признаков, а не количество испытуемых в группах. Подробные пояснения даны в примерах.
Если абсолютная величина rs достигает критического значения или превышает его, корреляция достоверна.
Пример 1 - корреляция между двумя признаками
В исследовании, моделирующем деятельность авиадиспетчера1, группа испытуемых, студентов физического факультета ЛГУ проходила подготовку перед началом работы на тренажере. Испытуемые должны были решать задачи по выбору оптимального типа взлетно-посадочной полосы для заданного типа самолета. Связано ли количество ошибок, допущенных испытуемыми в тренировочной сессии, с показателями вербального и невербального интеллекта, измеренными по методике Д. Векслера?
Показатели количества ошибок в тренировочной сессии и показатели уровня вербального и невербального интеллекта у студентов-физиков (N=10)
Испытуемый |
Количество ошибок |
Показатель вербального интеллекта |
Показатель невербального интеллекта | |
1 |
Т.А. |
29 |
131 |
106 |
2 |
П.А. |
54 |
132 |
90 |
3 |
Ч.И. |
13 |
121 |
95 |
4 |
Ц.А. |
8 |
127 |
116 |
5 |
См.А. |
14 |
136 |
. 127 |
6 |
К.Е. |
26 |
124 |
107 |
7 |
К.А. |
9 |
134 |
104 |
8 |
Б.Л. |
20 |
136 |
102 |
9 |
И.А. |
2 |
132 |
111 |
10 |
Ф.В. |
17 |
136 |
99 |
Суммы |
192 |
1309 |
1057 | |
Средние |
19,2 |
130,9 |
105,7 |