Автор: Пользователь скрыл имя, 14 Ноября 2011 в 21:51, реферат
Статистика (stato - состояние ) - это совокупность данных наблюдений ,
статистическая совокупность - это, как правило, количественная оценка
исследуемого явления, собранная одномоментно из разных источников или в
одном месте в разное время (числовые значения).
Статистической совокупностью - называется генеральной совокупностью, если
включает в себя все возможные значения данного явления. Такую совокупность
практически трудно создать в силу бесконечного ее объема, поэтому чаще
всего статисты работают с некоторой частью генеральной совокупности,
которая называется - выборкой. Работая с выборкой должны получать
результаты, которые соответствуют генеральной совокупности.
Рис 4
II. Анализ
двумерной совокупности.
2.1. Корреляционное
поле, эллипс рассеянния.
Корреляционной зависимостью можно называть функциональную зависимость
условной (или
групповой) средней или
полученное
уравнение называют уравнением
регрессии.
Если составить так называемую корреляционную решетку, то видна некоторая
размазанность
корреляции.
1. Важно отметить, что установление корреляции между признаками не дает
оснований
считать эти связи причинно-
эти признаки
зависят еще от каких-то
Корреляционное
поле.
Рис 5
2. Наглядное
представление (рис 5) можно получить
построив
корреляционное
поле (точечная диаграмма)
1-й признак
2-й признак интервал
1470 28,6 1
2006 25,00 2
2030 32,70 2
2078 28,90 2
2305 27,90 3
2444 29,90 3
2535 27,00 4
2625 29,10 4
2710 28,30 4
Табл. 10
Вытянутость
корреляционного поля по
корреляции
между признаками.
3. Если число вариантов велико, то корреляционное поле имеет вид более или
менее правильного эллипса со сгущением точек в центре и сравнительно
редким
их расположением на периферии.
Эллипс
рассеянния.
Рис 6
Такой эллипс
носит название эллипс
эллипса
от координатных направлений
указывает на наличие
Вытянутость
говорит только о масштабах
по осям.
2.2. Эмпирические
линии регрессии.
1. Обычно на одно значение признака приходится несколько значений другого
признака.
При этом рассчитывается
среднее
значение y при условии, что x заданная
величина.
Тогда о
корреляции можно говорить
переходе от xi к xj носят систематический характер. Получим условные
средние:
интервалы
min - max
1 1300 1700 1500 2663
2663
2 1700 2100 1900 2508
3269,3
3769
3531
3 2100 2500 2300 3502
3779,5
4057
4 2500 2900 2700 3200
3508
4090
3234
Табл. 11
интервалы
min - max
1 25 27 26 2006 2006
2 27 29 28 2305 2219,6
2535
2078
1470
2710
3 29 31 30 2444 2534,5
2625
4 31 33 32 2030 2030
Табл. 12
2. Построим зависимости (; x ) и ( y ;) , и назовем их эмпирическими
линиями
регрессии (рис 7)
Зависимость
1-го и 3-го признака
Рис 7
Зависимости
(; x ) и ( y ;) , 1-го и 2-го признака
(рис 7А)
Зависимость
1-го и 2-го признака
Рис. 7А
Линии не
совпадают между собой, что
является результатом
корреляции. В общем случае линии - ломаные, но в простейшем случае -
прямые. Это значит, что средние значения одного признака зависят от
значения
другого признака линейно.
регрессией.
Для простоты рассмотрим
3. Как уже
указывалось точки, точки
никогда
не ложатся на одну прямую.
Поэтому речь может идти
чтобы найти такую прямую, которая проходила наиболее близко ко всем
точкам. Смысл
“близости” может быть разным
:
а) наилучшая прямая та, при которой max эмпирического отклонения от
расчетного - наименьший. Но тогда наиболее отклоняющаяся точка окажет
большое
влияние на определение прямой
;
б) наилучшая прямая та, при которой площадь между ломаной ломаной
эмпирических
значений и прямой - наименьшая. Такую
считать трудно ;
в) в большинстве
случаев целесообразен
минимизировать
сумму квадратов отклонений
(метод наименьших квадратов ). При этом отклоняющаяся точка не имеет
решающего
значения.
4. Для практических
целей могут представлять
регрессии.
При размазанности корреляции
коэффициенты уравнений не
обратными.
5. rxy=ryx , если
не размазаны данные.
6. Важной
задачей теории корреляции
параметра,
который давал бы
корреляции
между признаками.
7. Будем считать, что корреляция тем более сильна, чем теснее точки
корреляционного поля группируются около линии регрессии. И если корреляция
полная (т.е. неучитываемых влияний нет ), то имеем функциональную
зависимость
rxy=ryx ,=1.
Если корреляция отсутствует (т.е. y в общем не зависит от x ), то rxy=ryx
,=0 .
8. Корреляционную связь можно считать реальной, если полученный
коэффициент корреляции значимо отличается от нуля. С этой целью используют
таблицы
r - распределения.
Если вычисленный
коэффициент корреляции
выбранного уровня значимости при числе степеней свободы f=N-2 , где N -
число испытаний,
то его можно считать значимо
отличающимся от нуля.
9. Для выполнения анализа необходимо, чтобы коэффициенты были безусловно
значимыми.
10. Если rxy= 0, то это только означает, что не может существовать
линейная
корреляционная связь, а
11. Линейная регрессия и соответствующий коэффициент корреляции можно
представить
графически.
2.3. Парный
корреляционный анализ ( ЭВМ ) .
В отличии
от нелинейной корреляции, где
корреляция может быть
(т.е. на одних участках возрастающей, а на других убывающей), при линейной
корреляции
можно говорить о
Если при
увеличении одного признака
положительна. Если при увеличении одного признака другой уменьшается,
-отрицательная.
В случае
эмпирической совокупности
никогда не ложатся на одну прямую, поэтому речь может идти о том , чтобы
найти такую
линию, которая проходила бы
более близко ко всем точкам
:
x y y1 y2 y3 y4
32,70 2030 2213,33
2033,82 2050,02 2236,5
28,30 2710 2247,08
2308,58 2319,66 2245,15
28,60 1470 2244,78
2310,75 2311,47 2244,48
29,90 2444 2234,81
2284,8 2242,7 2241,71
25,00 2006 2272,39
2082,85 2059,04 2253,64
28,90 2073 2242,48
2309,86 2299,91 2243,82
27,90 2305 2250,15
2300,94 2324,54 2246,07
29,10 2625 2240,94
2307,57 2290,55 2243,38
27,00 2535 2257,05
2263,84 2305,2 2248,25
Табл. 13
Зависимость
1-го признака от 2-го
Линейная
зависимость (y1) Полином второй
степени (y2)
Полином
третьей степени (y3) Гипербола
(y4)
x y y1 y2 y3 y4
2508 2030 1918,75
1816,77 1671,91 1860,63
3200 2710 2173,14
2249,42 2389,68 2204,27
2663 1470 1975,73
1937,17 2060,43 1953,12
4057 2444 2488,18
2410,53 2454,95 2467,36
3769 2006 2382,3 2402,65
2221,06 2392,29
3531 2073 2294,81
2360,79 2252,58 2321,02
3502 2305 2284,15
2353,51 2263,81 2311,67
4090 2625 2500,31
2408,45 2509,76 2475,28
3234 2535 2185,63
2263,71 2378,8 2217,36
Табл. 14
Зависимость
1-го признака от 3-го
Линейная
зависимость (y1) Полином второй
степени (y2)
Полином
третьей степени (y3) Гипербола
(y4)
Коэффициенты
регрессии: - 133.375 , 33.85114 , 0.415333
Коэффициент
множественной корреляции RR=0.550
Коэффициенты
регрессии: 1203.347 , 0.428281 , 0.000058
Коэффициент
множественной корреляции RR=0.523
В ы в о д ы.