Автор: Пользователь скрыл имя, 20 Января 2012 в 13:53, реферат
Статистическая гипотеза представляет собой некоторое предположение о законе распределения случайной величины или о параметрах этого закона, формулируемое на основе выборки . Примерами статистических гипотез являются предположения: генеральная совокупность распределена по экспоненциальному закону; математические ожидания двух экспоненциально распределенных выборок равны друг другу. В первой из них высказано предположение о виде закона распределения, а во второй – о параметрах двух распределений.
Введение...................................................................................................................3
1. Сущность задачи проверки статистических гипотез.......................................5
2. Проверка гипотез о законе распределения.......................................................9
2.1 Критерий К. Пирсона........................................................................................9
2.2 Критерий А.Н. Колмогорова..........................................................................10
2.3 Критерий Мизеса.............................................................................................12
3. Заключение.........................................................................................................14
Список использованной литературы
ГОУ ВПО
«Саратовский государственный технический
университет»
Контрольная
работа
по дисциплине
«СТАТИСТИКА»
на тему:
«Статистическая
проверка гипотез»
Выполнил:
студент ЛУЦ – 21 з/о
Лунев С.А.
Факультет
ЭМ
Шифр: 0908188
Проверил:
__________________
Саратов
2011
СОДЕРЖАНИЕ
Введение......................
1. Сущность
задачи проверки статистических гипотез.......................
2. Проверка
гипотез о законе распределения.................
2.1 Критерий
К. Пирсона.......................
2.2 Критерий
А.Н. Колмогорова...................
2.3 Критерий
Мизеса........................
3. Заключение....................
Список
использованной литературы....................
Введение
Статистическая гипотеза представляет собой некоторое предположение о законе распределения случайной величины или о параметрах этого закона, формулируемое на основе выборки [3, 5, 11]. Примерами статистических гипотез являются предположения: генеральная совокупность распределена по экспоненциальному закону; математические ожидания двух экспоненциально распределенных выборок равны друг другу. В первой из них высказано предположение о виде закона распределения, а во второй – о параметрах двух распределений. Гипотезы, в основе которых нет никаких допущений о конкретном виде закона распределения, называют непараметрическими, в противном случае – параметрическими.
Гипотезу, утверждающую, что различие между сравниваемыми характеристиками отсутствует, а наблюдаемые отклонения объясняются лишь случайными колебаниями в выборках, на основании которых производится сравнение, называют нулевой (основной) гипотезой и обозначают Н0. Наряду с основной гипотезой рассматривают и альтернативную (конкурирующую, противоречащую) ей гипотезу Н1. И если нулевая гипотеза будет отвергнута, то будет иметь место альтернативная гипотеза.
Проверка
гипотезы основывается на вычислении
некоторой случайной величины – критерия,
точное или приближенное распределение
которого известно. Обозначим эту величину
через z, ее значение является функцией
от элементов выборки
z=z(x1,
x2, …, xn).
Процедура проверки гипотезы предписывает каждому значению критерия одно из двух решений – принять или отвергнуть гипотезу. Тем самым все выборочное пространство и соответственно множество значений критерия делятся на два непересекающихся подмножества S0 и S1. Если значение критерия z попадает в область S0, то гипотеза принимается, а если в область S1, – гипотеза отклоняется. Множество S0 называется областью принятия гипотезы или областью допустимых значений, а множество S1 – областью отклонения гипотезы или критической областью. Выбор одной области однозначно определяет и другую область.
В
зависимости от сущности проверяемой
гипотезы и используемых мер расхождения
оценки характеристики от ее теоретического
значения применяют различные критерии.
К числу наиболее часто применяемых критериев
для проверки гипотез о законах распределения
относят критерии хи-квадрат Пирсона,
Колмогорова, Мизеса, Вилкоксона, о значениях
параметров – критерии Фишера, Стьюдента.
1. Сущность задачи проверки статистических гипотез
Различают простые и сложные гипотезы. Гипотезу называют простой, если она однозначно характеризует параметр распределения случайной величины. Например, если l является параметром экспоненциального распределения, то гипотеза Н0 о равенстве l =10 – простая гипотеза. Сложной называют гипотезу, которая состоит из конечного или бесконечного множества простых гипотез. Сложная гипотеза Н0 о неравенстве l >10 состоит из бесконечного множества простых гипотез Н0 о равенстве l =bi , где bi – любое число, большее 10. Гипотеза Н0 о том, что математическое ожидание нормального распределения равно двум при неизвестной дисперсии, тоже является сложной. Сложной гипотезой будет предположение о распределении случайной величины Х по нормальному закону, если не фиксируются конкретные значения математического ожидания и дисперсии.
Принятие
или отклонение гипотезы Н0 по случайной
выборке соответствует истине с некоторой
вероятностью и, соответственно, возможны
два рода ошибок. Ошибка первого рода возникает
с вероятностью a тогда, когда отвергается
верная гипотеза Н0 и принимается конкурирующая
гипотеза Н1. Ошибка второго рода возникает
с вероятностью b в том случае, когда принимается
неверная гипотеза Н0, в то время как справедлива
конкурирующая гипотеза Н1. Доверительная
вероятность – это вероятность не совершить
ошибку первого рода и принять верную
гипотезу Н0. Вероятность отвергнуть ложную
гипотезу Н0 называется мощностью критерия.
Следовательно, при проверке гипотезы
возможны четыре варианта исходов, табл.
1.1
Таблица 1.1
Гипотеза Н0 | Решение | Вероятность | Примечание |
Верна | Принимается | 1–a | Доверительная вероятность |
Отвергается | a | Вероятность ошибки первого рода | |
Неверна | Принимается | b | Вероятность ошибки второго рода |
Отвергается | 1–b | Мощность критерия |
Например,
рассмотрим случай, когда некоторая несмещенная
оценка параметра q вычислена по выборке
объема n, и эта оценка имеет плотность
распределения f(q ), рис. 1.1
Рис.
1.1 Области и отклонения гипотезы
Предположим, что истинное значение оцениваемого параметра равно Т. Если рассматривать гипотезу Н0 о равенстве q =Т, то насколько велико должно быть различие между q и Т, чтобы эту гипотезу отвергнуть. Ответить на данный вопрос можно в статистическом смысле, рассматривая вероятность достижения некоторой заданной разности между q и Т на основе выборочного распределения параметра q.
Целесообразно полагать одинаковыми значения вероятности выхода параметра q за нижний и верхний пределы интервала. Такое допущение во многих случаях позволяет минимизировать доверительный интервал, т.е. повысить мощность критерия проверки. Суммарная вероятность того, что параметр q выйдет за пределы интервала с границами q 1–a /2 и q a /2, составляет величину a . Эту величину следует выбрать настолько малой, чтобы выход за пределы интервала был маловероятен. Если оценка параметра попала в заданный интервал, то в таком случае нет оснований подвергать сомнению проверяемую гипотезу, следовательно, гипотезу равенства q =Т можно принять. Но если после получения выборки окажется, что оценка выходит за установленные пределы, то в этом случае есть серьезные основания отвергнуть гипотезу Н0. Отсюда следует, что вероятность допустить ошибку первого рода равна a (равна уровню значимости критерия).
Если
предположить, например, что истинное
значение параметра в действительности
равно Т+d, то согласно гипотезе Н0 о равенстве
q =Т – вероятность того, что оценка параметра
q попадет в область принятия гипотезы,
составит b , рис. 1.2
При заданном объеме выборки вероятность совершения ошибки первого рода можно уменьшить, снижая уровень значимости a . Однако при этом увеличивается вероятность ошибки второго рода b (снижается мощность критерия). Аналогичные рассуждения можно провести для случая, когда истинное значение параметра равно Т – d.
Единственный способ уменьшить обе вероятности состоит в увеличении объема выборки (плотность распределения оценки параметра при этом становится более "узкой"). При выборе критической области руководствуются правилом Неймана – Пирсона: следует так выбирать критическую область, чтобы вероятность a была мала, если гипотеза верна, и велика в противном случае. Однако выбор конкретного значения a относительно произволен. Употребительные значения лежат в пределах от 0,001 до 0,2. В целях упрощения ручных расчетов составлены таблицы интервалов с границами q 1–a /2 и q a /2 для типовых значений a и различных способов построения критерия.
При
выборе уровня значимости необходимо
учитывать мощность критерия при альтернативной
гипотезе. Иногда большая мощность критерия
оказывается существеннее малого уровня
значимости, и его значение выбирают относительно
большим, например 0,2. Такой выбор оправдан,
если последствия ошибок второго рода
более существенны, чем ошибок первого
рода. Например, если отвергнуто правильное
решение "продолжить работу пользователей
с текущими паролями", то ошибка первого
рода приведет к некоторой задержке в
нормальном функционировании системы,
связанной со сменой паролей. Если же принято
решения не менять пароли, несмотря на
опасность несанкционированного доступа
посторонних лиц к информации, то эта ошибка
повлечет более серьезные последствия.
2. Проверка
гипотез о законе распределения
2.1 Критерий К. Пирсона
Использование этого критерия основано на применении такой меры (статистики) расхождения между теоретическим F(x) и эмпирическим распределением Fп(x), которая приближенно подчиняется закону распределения c 2. Гипотеза Н0 о согласованности распределений проверяется путем анализа распределения этой статистики. Применение критерия требует построения статистического ряда.
Итак,
пусть выборка представлена статистическим
рядом с количеством разрядов y . Наблюдаемая
частота попаданий в i-й разряд ni. В соответствии
с теоретическим законом распределения
ожидаемая частота попаданий в i-й разряд
составляет Fi. Разность между наблюдаемой
и ожидаемой частотой составит величину
(n i – Fi). Для нахождения общей степени
расхождения между F(x) и Fп(x) необходимо
подсчитать взвешенную сумму квадратов
разностей по всем разрядам статистического
ряда
Величина
c 2 при неограниченном увеличении n имеет
распределение хи-квадрат (асимптотически
распределена как хи-квадрат). Это распределение
зависит от числа степеней свободы k, т.е.
количества независимых значений слагаемых
в выражении. Число степеней свободы равно
числу y минус число линейных связей, наложенных
на выборку. Одна связь существует в силу
того, что любая частота может быть вычислена
по совокупности частот в оставшихся y
– 1 разрядах. Кроме того, если параметры
распределения неизвестны заранее, то
имеется еще одно ограничение, обусловленное
подгонкой распределения к выборке. Если
по выборке определяются f параметров
распределения, то число степеней свободы
составит
k=y
– f –1.
Область принятия гипотезы Н0 определяется условием c 2£ c 2(k;a ), где c 2(k;a ) – критическая точка распределения хи-квадрат с уровнем значимости a. Вероятность ошибки первого рода равна a , вероятность ошибки второго рода четко определить нельзя, потому что существует бесконечно большое множество различных способов несовпадения распределений. Мощность критерия зависит от количества разрядов и объема выборки. Критерий рекомендуется применять при n>200, допускается применение при n>40, именно при таких условиях критерий состоятелен (как правило, отвергает неверную нулевую гипотезу).
Для
нормального закона возможные значения
случайной величины лежат в диапазоне
от – ¥ до ¥ , поэтому при расчетах оценок
вероятностей крайний левый и крайний
правый интервалы расширяются до – ¥ и
¥ соответственно. Вычислить значения
функции нормального распределения можно,
воспользовавшись стандартными функциями
табличного процессора или полиномом
наилучшего приближения.
2.2
Критерий А.Н. Колмогорова
Для
применения критерия А.Н. Колмогорова
ЭД требуется представить в виде вариационного
ряда (ЭД недопустимо объединять в разряды).
В качестве меры расхождения между теоретической
F(x) и эмпирической Fn(x) функциями распределения
непрерывной случайной величины Х используется
модуль максимальной разности