Статистический анализ

Автор: Пользователь скрыл имя, 14 Ноября 2011 в 21:51, реферат

Краткое описание

Статистика (stato - состояние ) - это совокупность данных наблюдений ,
статистическая совокупность - это, как правило, количественная оценка
исследуемого явления, собранная одномоментно из разных источников или в
одном месте в разное время (числовые значения).
Статистической совокупностью - называется генеральной совокупностью, если
включает в себя все возможные значения данного явления. Такую совокупность
практически трудно создать в силу бесконечного ее объема, поэтому чаще
всего статисты работают с некоторой частью генеральной совокупности,
которая называется - выборкой. Работая с выборкой должны получать
результаты, которые соответствуют генеральной совокупности.

Файлы: 1 файл

Основы статистического анализа.docx

— 60.31 Кб (Скачать)

   Рис 4 

   II. Анализ  двумерной совокупности. 

   2.1. Корреляционное  поле, эллипс рассеянния. 

   Корреляционной  зависимостью можно называть  функциональную зависимость

   условной (или  групповой) средней или обратную  ей функцию . При этом

   полученное  уравнение называют уравнением  регрессии. 

   Если составить  так называемую корреляционную  решетку, то видна некоторая

   размазанность  корреляции. 

   1. Важно  отметить, что установление корреляции  между признаками не дает

   оснований  считать эти связи причинно-следственными.  Может вполне быть, что

   эти признаки  зависят еще от каких-то признаков. 

   Корреляционное  поле. 

   Рис 5 

   2. Наглядное  представление (рис 5) можно получить  построив 

   корреляционное  поле (точечная диаграмма) 

   1-й признак  2-й признак интервал 

   1470 28,6 1 

   2006 25,00 2 

   2030 32,70 2 

   2078 28,90 2 

   2305 27,90 3 

   2444 29,90 3 

   2535 27,00 4 

   2625 29,10 4 

   2710 28,30 4 

   Табл. 10 

   Вытянутость  корреляционного поля по диагонали  свидетельствует о наличии

   корреляции  между признаками. 

   3. Если число  вариантов велико, то корреляционное  поле имеет вид более или

   менее правильного  эллипса со сгущением точек  в центре и сравнительно

   редким  их расположением на периферии. 

   Эллипс  рассеянния. 

   Рис 6 

   Такой эллипс  носит название эллипс рассеянния (рис 6). Отклонение осей

   эллипса  от координатных направлений  указывает на наличие корреляции.

   Вытянутость  говорит только о масштабах  по осям. 

   2.2. Эмпирические  линии регрессии. 

   1. Обычно  на одно значение признака  приходится несколько значений  другого

   признака. При этом рассчитывается условное  или групповое среднее, так, -

   среднее  значение y при условии, что x заданная  величина. 

   Тогда о  корреляции можно говорить только  в том случае, когда изменения  при

   переходе  от xi к xj носят систематический  характер. Получим условные

   средние: 

   интервалы  min - max 

   1 1300 1700 1500 2663 2663 

   2 1700 2100 1900 2508 3269,3 

   3769 

   3531 

   3 2100 2500 2300 3502 3779,5 

   4057 

   4 2500 2900 2700 3200 3508 

   4090 

   3234 

   Табл. 11 

   интервалы  min - max 

   1 25 27 26 2006 2006 

   2 27 29 28 2305 2219,6 

   2535 

   2078 

   1470 

   2710 

   3 29 31 30 2444 2534,5 

   2625 

   4 31 33 32 2030 2030 

   Табл. 12 

   2. Построим  зависимости (; x ) и ( y ;) , и назовем  их эмпирическими

   линиями  регрессии (рис 7) 

   Зависимость  1-го и 3-го признака 

   Рис 7 

   Зависимости  (; x ) и ( y ;) , 1-го и 2-го признака (рис 7А) 

   Зависимость  1-го и 2-го признака 

   Рис. 7А 

   Линии не  совпадают между собой, что  является результатом размазанности

   корреляции. В общем случае линии - ломаные,  но в простейшем случае -

   прямые. Это  значит, что средние значения  одного признака зависят от

   значения  другого признака линейно. Такой  случай называют линейной

   регрессией. Для простоты рассмотрим линейный  случай. 

   3. Как уже  указывалось точки, точки изображающие  зависимость от x и от y ,

   никогда  не ложатся на одну прямую. Поэтому речь может идти только  о том,

   чтобы найти  такую прямую, которая проходила  наиболее близко ко всем

   точкам. Смысл  “близости” может быть разным : 

   а) наилучшая  прямая та, при которой max эмпирического  отклонения от

   расчетного - наименьший. Но тогда наиболее  отклоняющаяся точка окажет

   большое  влияние на определение прямой ; 

   б) наилучшая  прямая та, при которой площадь  между ломаной ломаной

   эмпирических  значений и прямой - наименьшая. Такую  считать трудно ; 

   в) в большинстве  случаев целесообразен критерий, при котором требуется

   минимизировать  сумму квадратов отклонений эмпирических  точек от прямой

   (метод наименьших  квадратов ). При этом отклоняющаяся  точка не имеет

   решающего  значения. 

   4. Для практических  целей могут представлять интерес  оба уравнения

   регрессии.  При размазанности корреляции  коэффициенты уравнений не являются

   обратными. 

   5. rxy=ryx , если  не размазаны данные. 

   6. Важной  задачей теории корреляции является  построение численного

   параметра,  который давал бы количественное  выражение степени или силы

   корреляции  между признаками. 

   7. Будем  считать, что корреляция тем  более сильна, чем теснее точки

   корреляционного  поля группируются около линии  регрессии. И если корреляция

   полная (т.е.  неучитываемых влияний нет ), то  имеем функциональную

   зависимость  rxy=ryx ,=1. 

   Если корреляция  отсутствует (т.е. y в общем не  зависит от x ), то rxy=ryx

   ,=0 . 

   8. Корреляционную  связь можно считать реальной, если полученный

   коэффициент  корреляции значимо отличается  от нуля. С этой целью используют

   таблицы  r - распределения. 

   Если вычисленный  коэффициент корреляции превосходит  табличное значение для

   выбранного  уровня значимости при числе  степеней свободы f=N-2 , где N -

   число испытаний,  то его можно считать значимо  отличающимся от нуля. 

   9. Для выполнения  анализа необходимо, чтобы коэффициенты  были безусловно

   значимыми. 

   10. Если rxy= 0, то это только означает, что  не может существовать

   линейная  корреляционная связь, а криволинейная  вполне может. 

   11. Линейная  регрессия и соответствующий  коэффициент корреляции можно

   представить  графически. 

   2.3. Парный  корреляционный анализ ( ЭВМ ) . 

   В отличии  от нелинейной корреляции, где  корреляция может быть немонотонной

   (т.е. на  одних участках возрастающей, а  на других убывающей), при линейной

   корреляции  можно говорить о положительной  и отрицательной корреляциях  .

   Если при  увеличении одного признака другой  увеличивается, - корреляция

   положительна. Если при увеличении одного  признака другой уменьшается,

   -отрицательная. 

   В случае  эмпирической совокупности точки,  изображающие зависимость , ,

   никогда  не ложатся на одну прямую, поэтому речь может идти о  том , чтобы

   найти такую  линию, которая проходила бы  более близко ко всем точкам : 

   x y y1 y2 y3 y4 

   32,70 2030 2213,33 2033,82 2050,02 2236,5 

   28,30 2710 2247,08 2308,58 2319,66 2245,15 

   28,60 1470 2244,78 2310,75 2311,47 2244,48 

   29,90 2444 2234,81 2284,8 2242,7 2241,71 

   25,00 2006 2272,39 2082,85 2059,04 2253,64 

   28,90 2073 2242,48 2309,86 2299,91 2243,82 

   27,90 2305 2250,15 2300,94 2324,54 2246,07 

   29,10 2625 2240,94 2307,57 2290,55 2243,38 

   27,00 2535 2257,05 2263,84 2305,2 2248,25 

   Табл. 13 

   Зависимость  1-го признака от 2-го 

   Линейная  зависимость (y1) Полином второй  степени (y2) 

   Полином  третьей степени (y3) Гипербола  (y4) 

   x y y1 y2 y3 y4 

   2508 2030 1918,75 1816,77 1671,91 1860,63 

   3200 2710 2173,14 2249,42 2389,68 2204,27 

   2663 1470 1975,73 1937,17 2060,43 1953,12 

   4057 2444 2488,18 2410,53 2454,95 2467,36 

   3769 2006 2382,3 2402,65 2221,06 2392,29 

   3531 2073 2294,81 2360,79 2252,58 2321,02 

   3502 2305 2284,15 2353,51 2263,81 2311,67 

   4090 2625 2500,31 2408,45 2509,76 2475,28 

   3234 2535 2185,63 2263,71 2378,8 2217,36 

   Табл. 14 

   Зависимость  1-го признака от 3-го 

   Линейная  зависимость (y1) Полином второй  степени (y2) 

   Полином  третьей степени (y3) Гипербола  (y4) 

   Коэффициенты  регрессии: - 133.375 , 33.85114 , 0.415333 

   Коэффициент  множественной корреляции RR=0.550 

   Коэффициенты  регрессии: 1203.347 , 0.428281 , 0.000058 

   Коэффициент  множественной корреляции RR=0.523 

   В ы в  о д ы.

Информация о работе Статистический анализ