Автор: Пользователь скрыл имя, 25 Октября 2012 в 17:39, реферат
Гипотеза в статистике — есть некое научное предположение, которое необходимо проверить и далее принять или отвергнуть.
Статистической гипотезой называют предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на данные выборки. Её обозначают буквой Н (от латинского слова hypothesis).
1.Введение.
А) Гипотеза в статистике
Б) Простая и нулевая гипотеза
В) Альтернативная гипотеза в статистике
Г) Статистический критерий
Д) Критическая область и область допустимых значений
2. Понятие нулевой и альтернативной гипотезы.
3. Проверка статистических гипотез
А) Этапы проверки статистических гипотез
Б) Сущность задачи проверки статистических гипотез
В) Типовые распределения
Г) Проверка гипотез о законе распределения
4. Ошибки 1 и 2 рода
5.Вывод
6.Литература
Рис. 3.3. Односторонняя критическая область
Для двусторонней критической области,
с уровнем значимости a , размер левой области a 2, правой a 1 (a 1+a 2=a ), рис. 3.4. Значения z(a 2) и z(a 1) связаны с квантилями распределения
соотношениями z(a 1)=z1–a 1, z
Рис. 3.4. Двусторонняя критическая область
Нормальное распределение
Этот вид распределения
(3.1)
– унимодальная, симметричная, аргумент х может принимать любые действительные значения, рис. 3.5.
Рис. 3.5. Плотность нормального
Функция плотности нормального
распределения
Вычисление значений функции распределения Ф(u) для стандартизованного неотрицательного аргумента u (u ³ 0) можно произвести с помощью полинома наилучшего приближения [9, стр. 694]
Ф(u)= 1– 0,5(1 + 0,196854u + 0,115194u2 +
+ 0,000344u3 + 0,019527u4)– 4.
(3.2)
Такая аппроксимация обеспечивает абсолютную ошибку не более 0,00025. Для вычисления Ф(u) в области отрицательных значений стандартизованного аргумента u (u<0) следует воспользоваться свойством симметрии нормального распределения Ф(u) = 1 – Ф(–u).
Иногда в справочниках вместо значений функции Ф(u) приводят значения интеграла вероятностей
(3.3)
Интеграл вероятностей связан с функцией нормального распределения соотношением Ф(u) = 0,5 + F(u).
Распределение хи-квадрат
Распределению хи-квадрат (c 2-распределению) с k степенями свободы соответствует распределение суммы квадратов n стандартизованных случайных величин ui, каждая из которых распределена по нормальному закону, причем k из них независимы, n ³ k. Функция плотности распределения хи-квадрат с k степенями свободы
(3.4)
где х = c 2, Г(k/2) – гамма-функция.
Число степеней свободы k определяет количество независимых слагаемых в выражении для c 2. Функция плотности при k, равном одному или двум, – монотонная, а при k >2 – унимодальная, несимметричная, рис. 3.6.
Рис. 3.6. Плотность распределения хи-квадрат
Математическое ожидание и дисперсия величины c 2 равны соответственно k и 2k. Распределение хи-квадрат является частным случаем более общего гамма-распределения, а величина, равная корню квадратному из хи-квадрат с двумя степенями свободы, подчиняется распределению Рэлея.
С увеличением числа степеней свободы
(k >30) распределение хи-квадрат приближается
к нормальному распределению с математическим
ожиданием k и дисперсией 2k. В таких случаях критическое
значение c 2(k; a ) » u1– a (k
Распределение Стьюдента
Распределение Стьюдента (t-распределение, предложено в 1908 г. английским статистиком В. Госсетом, публиковавшим научные труды под псевдонимом Student) характеризует распределение случайной величины , где u0,u1, …, uk взаимно независимые нормально распределенные случайные величины с нулевым средним и конечной дисперсией. Аргумент t не зависит от дисперсии слагаемых. Функция плотности распределения Стьюдента
(3.5)
Величина k характеризует количество степеней свободы. Плотность распределения – унимодальная и симметричная функция, похожая на нормальное распределение, рис. 3.7.
Область изменения аргумента t от –Ґ до Ґ . Математическое ожидание и дисперсия равны 0 и k/(k–2) соответственно, приk>2. По сравнению с нормальным распределение Стьюдента более пологое, оно имеет меньшую дисперсию. Это отличие заметно при небольших значениях k, что следует учитывать при проверке статистических гипотез (критические значения аргумента распределения Стьюдента превышают аналогичные показатели нормального распределения). Таблицы распределения содержат значения для односторонней или двусторонней критической области.
Распределение Стьюдента применяется для описания ошибок выборки при k Ј 30. При k >100 данное распределение практически соответствует нормальному, для 30 < k < 100 различия между распределением Стьюдента и нормальным распределением составляют несколько процентов. Поэтому относительно оценки ошибок малыми считаются выборки объемом не более 30 единиц, большими – объемом более 100 единиц. При аппроксимации распределения Стьюдента нормальным распределением для односторонней критической области вероятность Р{t > t(k; a )} = u1– a (0, k/(k–2)), где u1– a(0, k/(k–2)) – квантиль нормального распределения. Аналогичное соотношение можно составить и для двусторонней критической области.
Распределение Фишера
Распределению Р.А. Фишера (F-распределению Фишера
– Снедекора) подчиняется случайная величина х =[(y1/k1)/(y2/k2)],
(3.6)
В этом выражении k1 обозначает число степеней свободы величины y1 с большей дисперсией, k2 – число степеней свободы величины y2 с меньшей дисперсией. Плотность распределения – унимодальная, несимметричная, рис. 3.8.
Рис. 3.8. Плотность распределения Фищера
Математическое ожидание случайной
величины х равно k2/(k2–2) при k2>2, дисперсия т2 = [2 k22 (k1+k2–2)]/[k1(k2–2)2(k
Проверка гипотез о законе распределения
Обычно сущность проверки гипотезы о законе распределения ЭД заключается в следующем. Имеется выборка ЭД фиксированного объема, выбран или известен вид закона распределения генеральной совокупности. Необходимо оценить по этой выборке параметры закона, определить степень согласованности ЭД и выбранного закона распределения, в котором параметры заменены их оценками. Пока не будем касаться способов нахождения оценок параметров распределения, а рассмотрим только вопрос проверки согласованности распределений с использованием наиболее употребительных критериев.
Критерий хи-квадрат К. Пирсона
Использование этого критерия основано
на применении такой меры (статистики)
расхождения между
Итак, пусть выборка представлена статистическим рядом с количеством разрядов y . Наблюдаемая частота попаданий в i-й разряд ni. В соответствии с теоретическим законом распределения ожидаемая частота попаданий в i-й разряд составляет Fi. Разность между наблюдаемой и ожидаемой частотой составит величину (n i – Fi). Для нахождения общей степени расхождения между F(x) и Fп(x) необходимо подсчитать взвешенную сумму квадратов разностей по всем разрядам статистического ряда
(3.7)
Величина c 2 при неограниченном увеличении n имеет распределение хи-квадрат (асимптотически распределена как хи-квадрат). Это распределение зависит от числа степеней свободы k, т.е. количества независимых значений слагаемых в выражении (3.7). Число степеней свободы равно числу y минус число линейных связей, наложенных на выборку. Одна связь существует в силу того, что любая частота может быть вычислена по совокупности частот в оставшихся y – 1 разрядах. Кроме того, если параметры распределения неизвестны заранее, то имеется еще одно ограничение, обусловленное подгонкой распределения к выборке. Если по выборке определяются f параметров распределения, то число степеней свободы составитk=y – f –1.
Область принятия гипотезы Н0 определяется условием c 2£ c 2(k;a ), где c 2(k;a ) – критическая точка распределения хи-квадрат с уровнем значимости a . Вероятность ошибки первого рода равна a , вероятность ошибки второго рода четко определить нельзя, потому что существует бесконечно большое множество различных способов несовпадения распределений. Мощность критерия зависит от количества разрядов и объема выборки. Критерий рекомендуется применять при n>200, допускается применение при n>40, именно при таких условиях критерий состоятелен (как правило, отвергает неверную нулевую гипотезу).
Пример 3.1. Проверить с помощью критерия хи-квадрат гипотезу о нормальности распределения случайной величины, представленной статистическим рядом в табл. 2.4 при уровне значимости a = 0,05.
Решение. В примере 2.3 были вычислены значения оценок моментов: m 1 =27,51, m 2 = 0,91, s = 0,96. На основе табл. 2.4 построим табл. 3.2, иллюстрирующую расчеты.
Таблица 3.2
Номер интервала, i |
1 |
2 |
3 |
4 |
5 |
6 |
n i |
5 |
9 |
10 |
9 |
5 |
6 |
xi |
26,37 |
26,95 |
27,53 |
28,12 |
28,70 |
¥ |
F (xi) |
0,117 |
0,280 |
0,508 |
0,737 |
0,892 |
1 |
D Fi |
0,117 |
0,166 |
0,228 |
0,228 |
0,155 |
0,108 |
Fi |
5,148 |
7,304 |
10,032 |
10,032 |
6,820 |
4,752 |
(ni -Fi)2/Fi |
0,004 |
0,394 |
0,0001 |
0,1062 |
0,486 |
0,328 |
В этой таблице:
ni – частота попаданий элементов выборки в i-й интервал;
xi – верхняя граница i-го интервала;
F(xi) – значение функции нормального распределения;
D Fi – теоретическое значение вероятности попадания случайной величины в i-й интервал
Fi = D Fi*n – теоретическая частота попадания случайной величины в i-й интервал;
(n i – Fi)2/Fi – взвешенный квадрат отклонения.
Для нормального закона возможные значения случайной величины лежат в диапазоне от – ¥ до ¥ , поэтому при расчетах оценок вероятностей крайний левый и крайний правый интервалы расширяются до – ¥ и ¥ соответственно. Вычислить значения функции нормального распределения можно, воспользовавшись стандартными функциями табличного процессора или полиномом наилучшего приближения.
Сумма взвешенных квадратов отклонения c 2 =1,
Критерий А.Н. Колмогорова
Для применения критерия А.Н. Колмогорова
ЭД требуется представить в виде
вариационного ряда (ЭД недопустимо
объединять в разряды). В качестве
меры расхождения между
dn = max|F(x) - Fn(x)|.
(3.8)
А.Н. Колмогоров доказал, что какова
бы ни была функция распределения F(x) вел
Во-первых, в точном соответствии с условиями его применения необходимо пользоваться следующим соотношением
Информация о работе Нулевая и альтернативная гипотеза. Ошибки 1 и 2 рода