Корреляционно-регрессионный анализ

Автор: Пользователь скрыл имя, 16 Января 2012 в 16:50, контрольная работа

Краткое описание

В матрице элемент хij соответствует значению j-й варианты в i-м наблюдении. Матрица, вообще говоря, может содержать пустые значения некоторых элементов, например, из-за пропусков в регистрации значений параметров. В многомерном анализе желательно устранить пропущенные значения. Для этого существуют специальные приемы, в частности, вычеркивание соответствующих строк матрицы или занесение средних значений вместо отсутствующих. В дальнейшем будем считать, что матрица не содержит пустых элементов, а параметры объекта характеризуются непрерывными случайными величинами.

Файлы: 1 файл

статистика.docx

— 33.54 Кб (Скачать)

матрица наблюдений не содержит пропусков. 

Если необходима проверка значимости оценки коэффициента корреляции, то требуется соблюдение дополнительного условия – распределение  вариант должно подчиняться нормальному  закону. 

Задача анализа  решается в несколько этапов: 

проводится стандартизация исходной матрицы; 

вычисляются парные оценки коэффициентов корреляции; 

проверяется значимость оценок коэффициентов корреляции, незначимые оценки приравниваются к нулю. По результатам  проверки делается вывод о наличии  связей между вариантами (факторами). 

Пример 7.1. Результаты наблюдений за характеристиками канала представлены в табл. 7.1.  

Таблица 7.1 
 

 

пп 

Пропускная способность  канала, 

кбит/с 

Соотношение сигнал/шум, 

Остаточное затухание, дБ, 

на частоте, Гц 

дБ 

1020 

1800 

2400 

Х1 

X2 

X3 

X4 

X5 

26,37 

41,98 

17,66 

16,05 

22,85 

28,00 

43,83 

17,15 

15,47 

23,25 

27,83 

42,83 

15,38 

17,59 

24,55 

31,67 

47,28 

18,39 

16,92 

26,59 

23,50 

38,75 

18,32 

15,66 

26,22 

21,04 

35,12 

17,81 

17,00 

27,52 

16,94 

32,07 

21,42 

16,77 

25,76 

37,56 

54,25 

26,42 

15,68 

23,10 

18,84 

32,70 

17,23 

15,92 

23,41 

10 

25,77 

40,51 

30,43 

15,29 

25,17 

11 

33,52 

49,78 

21,71 

15,61 

25,39 

12 

28,21 

43,84 

28,33 

15,70 

24,56 

13 

28,76 

44,03 

30,42 

16,87 

24,45 

14 

24,60 

39,46 

21,66 

15,25 

23,81 

15 

24,51 

38,78 

25,77 

16,05 

24,48 
 

Необходимо определить наличие линейных корреляционных связей между пропускной способностью и  остальными факторами. Предполагается, что выборки по всем вариантам  подчиняются нормальному закону. Проверку гипотезы о значимости оценок коэффициентов корреляции произвести с уровнем значимости a , равным 0,1. 

Решение. Стандартизация исходной матрицы начинается с вычисления выборочной средней m 1, несмещенной  оценки дисперсии m 2 и среднеквадратического  отклонения s по каждой варианте, табл.7.2. 

Таблица 7.2

Оценка параметра  распределения 

Варианта 

Х1 

X2 

X3 

X4 

X5 

m 1 

26,47 

41,68 

21,87 

16,12 

24,74 

m 2 

29,10 

36,47 

26,37 

0,52 

1,88 

s  

5,39 

6,04 

5,13 

0,72 

1,37 
 

В результате перехода к величинам  формируется стандартизованная  матрица исходных данных, табл. 7.3. 

Таблица 7.3 

 

пп 

Пропускная способность 

Соотношение сигнал/шум, 

Остаточное затухание, дБ 

на частоте, Гц 

канала, кбит/с 

дБ 

1020 

1800 

2400 

U1 

U2 

U3 

U4 

U5 

–0,02 

0,05 

–0,82 

–0,10 

–1,38 

0,28 

0,36 

–0,92 

–0,90 

–1,09 

0,25 

0,19 

–1,26 

2,03 

–0,14 

0,96 

0,93 

–0,68 

1,10 

1,35 

–0,55 

–0,49 

–0,69 

–0,64 

1,08 

–1,01 

–1,09 

–0,79 

1,21 

2,03 

–1,77 

–1,59 

–0,09 

0,90 

0,74 

2,06 

2,08 

0,89 

–0,61 

–1,20 

–1,42 

–1,49 

–0,90 

–0,28 

–0,97 

10 

–0,13 

–0,19 

1,67 

–1,15 

0,31 

11 

1,31 

1,34 

–0,03 

–0,71 

0,47 

12 

0,32 

0,36 

1,26 

–0,58 

–0,13 

13 

0,42 

0,39 

1,66 

1,03 

–0,21 

14 

–0,35 

–0,37 

–0,04 

–1,21 

–0,68 

15 

–0,36 

–0,48 

0,76 

–0,10 

–0,19 
 

Оценки коэффициентов  корреляции  (k = 2, 3, 4) представлены в  табл. 7.4. В этой же таблице приведены  значения статистик критерия Стьюдента  для вычисленных оценок коэффициентов  корреляции при п = 15. 

Таблица 7.4  

X2 

X3 

X4 

X5 

r 1 j 

0,93 

0,25 

– 0,13 

– 0,22 

9,12 

0,93 

0,47 

0,81 
 

Критическое значение tкр (n–2; a ) = tкр (13; 0,1) = 1,77. Статистика критерия больше критического значения только для r 12. Это означает, что только для указанного коэффициента оценка значима (коэффициент корреляции генеральной  совокупности не равен нулю), а остальные  коэффициенты следует признать равными  нулю. 

Корреляционная зависимость  не обязательно устанавливается  только для двух величин, с ее помощью  можно анализировать связи между  несколькими вариантами (множественная  корреляция). А кроме линейной существуют и другие виды корреляции. 

7.3. Регрессионный  анализ 
 

Постановка задачи 
 

Одной из типовых  задач обработки многомерных  ЭД является определение количественной зависимости показателей качества объекта от значений его параметров и характеристик внешней среды. Примером такой постановки задачи является установление зависимости между  временем обработки запросов к базе данных и интенсивностью входного потока. Время обработки зависит от многих факторов, в том числе от размещения искомой информации на внешних носителях, сложности запроса. Следовательно, время обработки конкретного  запроса можно считать случайной  величиной. Но вместе с тем, при увеличении интенсивности потока запросов следует  ожидать возрастания его среднего значения, т.е. считать, что время  обработки и интенсивность потока запросов связаны корреляционной зависимостью. 

Постановка задачи регрессионного анализа формулируется  следующим образом [2, 3, 4]. 

Имеется совокупность результатов наблюдений вида (7.1). В  этой совокупности один столбец соответствует  показателю, для которого необходимо установить функциональную зависимость  с параметрами объекта и среды, представленными остальными столбцами. Будем обозначать показатель через y* и считать, что ему соответствует  первый столбец матрицы наблюдений. Остальные т–1 (m > 1) столбцов соответствуют  параметрам (факторам) х2, х3, …, хт . 

Требуется: установить количественную взаимосвязь между  показателем и факторами. В таком  случае задача регрессионного анализа  понимается как задача выявления  такой функциональной зависимости y* = f(x2 , x3 , …, xт), которая наилучшим  образом описывает имеющиеся  экспериментальные данные. 

Допущения: 

количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей; 

обрабатываемые ЭД содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных  факторов; 

матрица результатов  наблюдений является единственной информацией  об изучаемом объекте, имеющейся  в распоряжении перед началом  исследования. 

Функция f(x2 , x3 , …, xт), описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии. Термин "регрессия" (regression (лат.) – отступление, возврат  к чему-либо) связан со спецификой одной  из конкретных задач, решенных на стадии становления метода, и в настоящее  время не отражает всей сущности метода, но продолжает применяться. 

Решение задачи регрессионного анализа целесообразно разбить  на несколько этапов: 

предварительная обработка  ЭД; 

выбор вида уравнений  регрессии; 

вычисление коэффициентов  уравнения регрессии; 

проверка адекватности построенной функции результатам  наблюдений. 

Предварительная обработка  включает стандартизацию матрицы ЭД, расчет коэффициентов корреляции, проверку их значимости и исключение из рассмотрения незначимых параметров (эти преобразования были рассмотрены в рамках корреляционного  анализа). В результате преобразований будут получены стандартизованная  матрица наблюдений U (через y будем  обозначать стандартизованную величину y* ) и корреляционная матрица r . 

Информация о работе Корреляционно-регрессионный анализ