Автор: Пользователь скрыл имя, 17 Марта 2012 в 13:14, реферат
Непараметрические методы математической статистики - методы непосредственной оценки и проверки гипотез о теоретическом распределении вероятностей и тех или иных его общих свойствах (симметрии, независимости и т. п.) по результатам наблюдений.
Непараметрические методы математической статистики - методы непосредственной оценки и проверки гипотез о теоретическом распределении вероятностей и тех или иных его общих свойствах (симметрии, независимости и т. п.) по результатам наблюдений. Название "Непараметрические методы" подчёркивает их отличие от классических (параметрических) методов, в которых предполагается, что неизвестное теоретическое распределение принадлежит какому-либо семейству, зависящему от конечного числа параметров (например, семейству нормальных распределений), и которые позволяют по результатам наблюдений оценивать неизвестные значения этих параметров и проверять те или иные гипотезы относительно их значений. Особенность непараметрических методов в отличие от классических методов состоит в независимости от неизвестного теоретического распределения. В качестве примера непараметрических можно привести критерий проверки согласованности теоретического и эмпирического распределений (критерий Колмогорова). Пусть результаты n независимых наблюдений имеют функцию распределения F(x) и пусть Fn(x) обозначает эмпирическую функцию распределения, построенную по n независимым наблюдениям (Fn - несмещённая и состоятельная оценка для F). Пусть Dn - наибольшее по абсолютной величине значение разности Fn(x) - F(x). Случайная величина √n•Dn имеет, в случае непрерывности F(x), функцию распределения Kn(λ), не зависящую от F(x) и стремящуюся при безграничном возрастании n к пределу
Отсюда при достаточно больших n для вероятности pn,λ неравенства √n•Dn ≥ λ получается приближённое выражение pn,λ ≈ 1 - K(λ). (*)
Функция K(λ) табулирована. Её значения для некоторых λ приведены в таблице.
Таблица значений функции K(λ) | ||||||
λ | 0.57 | 0.71 | 0.83 | 1.02 | 1.36 | 1.63 |
K(λ) | 0.10 | 0.30 | 0.50 | 0.75 | 0.95 | 0.99 |
Равенство (*) используется для проверки гипотезы о том, что теоретическим распределением является распределение с заданной непрерывной функцией распределения F(x): сначала по результатам наблюдений находят значение величины Dn, а затем по формуле (*) вычисляют вероятность получить отклонение Fn от F, большее или равное наблюдённому. Если указанная вероятность достаточно мала, точнее равна наперёд заданному малому числу α, 0 < α < 1 (см. Уровень значимости), то в соответствии с общими принципами проверки статистических гипотез проверяемую гипотезу отвергают. В противном случае считают, что результаты опыта не противоречат проверяемой гипотезе. Аналогично проверяется гипотеза о том, что две независимые выборки объёма n1 и n2 соответственно получены из одной и той же генеральной совокупности с непрерывным законом распределения, то есть что соответствующие функции распределения одинаковы (гипотеза однородности двух выборок). При этом вместо формулы (*) пользуются тем, что вероятность неравенства
имеет пределом K(λ), где Dn1,n2 есть наибольшее по абсолютной величине значение разности Fn1(x) - Fn2(x). Приведённые примеры относятся к непараметрическим методам, основанным на разностях теоретической и эмпирической или двух эмпирических распределений.
Дополнительным примером непараметрических методов могут служить методы проверки гипотезы о том, что теоретическое распределение принадлежит семейству нормальных распределений. Один из этих методов - так называемый метод выпрямленной диаграммы. Этот метод основывается на следующем замечании. Если случайная величина имеет нормальное распределение с параметрами a и σ, то
Φ-1[F(x)] = (x-a)/σ, где Φ-1 - функция, обратная нормальной:
Таким образом, график функции y = Φ-1[F(x)] будет прямой линией, а график функции y = Φ-1[Fn(x)] - ломаной линией, близкой к этой прямой (рис.). Степень близости и служит простейшим критерием для проверки гипотезы нормальности распределения F(x) (см. Вероятностная бумага).
Метод выпрямленной диаграммы |
Значительное место в современной математической статистике занимают непараметрические методы, в которых используются не сами эмпирические функции распределения, а некоторые функции от порядковых статистик - членоввариационного ряда. Если используются порядковые номера результатов наблюдений или ранги, то такие непараметрические критерии называют ранговыми, они, как правило, являются критериями однородности. Например, пусть X1, ..., Xn и Y1, ..., Ym - взаимно независимые элементы двух выборок с непрерывными функциями распределений. Для проверки гипотезы о том, что соответствующие Xi и Yj функции распределения одинаковы, можно использовать ранговый критерий, основанный на значениях функций от рангов:
W = s(r1) + ... + s(rm),
где rj - ранг случайных величин Yj в общем вариационном ряду Xi и Yj, а функция s(r), r = l, ..., n+m, определяется заранее заданной подстановкой
1 | 2 | ... | n+m |
s(1) | s(2) | ... | s(n+m) |
где s(l), ..., s(n+m) - одна из возможных перестановок чисел 1, 2, ..., n+m. Выбор подстановки может быть осуществлён оптимальным образом.
Ранговые критерии также используются для проверки гипотез случайности и независимости.
Одной из важнейших задач статистики является изучение изменений анализируемых показателей во времени, то есть их динамика. Эта задача решается при помощи анализа рядов динамики (временных рядов). Ряд динамики (или временной ряд) – это числовые значения определенного статистического показателя в последовательные моменты или периоды времени (т.е. расположенные в хронологическом порядке). Числовые значения того или иного статистического показателя, составляющего ряд динамики, называютуровнями ряда и обычно обозначают буквой y. Первый член ряда y1 называют начальным или базисным уровнем, а последний yn – конечным. Моменты или периоды времени, к которым относятся уровни, обозначают через t. Ряды динамики, как правило, представляют в виде таблицы или графика, причем по оси абсцисс строится шкала времени t, а по оси ординат – шкала уровней ряда y.
Таблица. Число жителей России в 2004-2009 гг. в млн.чел, на 1 января
Год | 2004 | 2005 | 2006 | 2007 | 2008 | 2009 |
Число жителей | 144,2 | 143,5 | 142,8 | 142,2 | 142,0 | 141,9 |
График ряда динамики числа жителей России в 2004-2009 гг. в млн.чел, на 1 января
Данные таблицы и графика нагля
1. По времени — ряды моментные и интервальные (периодные), которые показывают уровень явления на конкретный момент времени или на определенный его период. Сумма уровней интервального ряда дает вполне реальную статистическую величину за несколько периодов времени, например, общий выпуск продукции, общее количество проданных акций и т.п. Уровни моментного ряда, хотя и можно суммировать, но эта сумма реального содержания, как правило, не имеет. Так, если сложить величины запасов на начало каждого месяца квартала, то полученная сумма не означает квартальную величину запасов.
2. По форме представления — ряды абсолютных, относительных и средних величин.
3. По интервалам времени — ряды равномерные и неравномерные (полные и неполные), первые из которых имеют равные интервалы, а у вторых равенство интервалов не соблюдается.
4. По числу смысловых статистических величин — ряды изолированные и комплексные (одномерные и многомерные). Первые представляют собой ряд динамики одной статистической величины (например, индекс инфляции), а вторые — нескольких (например, потребление основных продуктов питания).
В нашем примере про число жителей России ряд динамики: 1) моментный (приведены уровни на 1 января); 2) абсолютных величин (в млн.чел.); 3) равномерный (равные интервали в 1 год); 4) изолированный.
Показатели изменения уровней ряда динамики
Анализ рядов динамики начинается с определения того, как именно изменяются уровни ряда (увеличиваются, уменьшаются или остаются неизменными) в абсолютном и относительном выражении. Чтобы проследить за направлением и размером изменений уровней во времени, для рядов динамики рассчитывают показатели изменения уровней ряда динамики:
абсолютное изменение (абсолютный прирост);
относительное изменение (темп роста или индекс динамики);
темп изменения (темп прироста).
Все эти показатели могут определяться базисным способом
Оно показывает, на сколько (в единицах показателей ряда) уровень одного (i-того) периода больше или меньше первого (базисного) уровня, и, следовательно, может иметь знак «+» (при увеличении уровней) или «–» (при уменьшении уровней). Цепное абсолютное изменение представляет собой разность конкретного и предыдущего уровней ряда, определяется по формуле
Оно показывает, на сколько (в единицах показателей ряда) уровень одного (i-того) периода больше или меньше предыдущего уровня, и может иметь знак «+» или «–».
В следующей расчетной таблице в столбце 3 рассчитаны базисные абсолютные изменения, а в столбце 4 – цепные абсолютные изменения.
Год | y | , % | ,% | ||||
2004 | 144,2 |
|
|
|
|
|
|
2005 | 143,5 | -0,7 | -0,7 | 0,995 | 0,995 | -0,49 | -0,49 |
2006 | 142,8 | -1,4 | -0,7 | 0,990 | 0,995 | -0,97 | -0,49 |
2007 | 142,2 | -2,0 | -0,6 | 0,986 | 0,996 | -1,39 | -0,42 |
2008 | 142,0 | -2,2 | -0,2 | 0,985 | 0,999 | -1,53 | -0,14 |
2009 | 141,9 | -2,3 | -0,1 | 0,984 | 0,999 | -1,60 | -0,07 |
Итого |
|
| -2,3 |
| 0,984 |
| -1,60 |