Корреляционно-регрессионный анализ

Автор: Пользователь скрыл имя, 16 Января 2012 в 16:50, контрольная работа

Краткое описание

В матрице элемент хij соответствует значению j-й варианты в i-м наблюдении. Матрица, вообще говоря, может содержать пустые значения некоторых элементов, например, из-за пропусков в регистрации значений параметров. В многомерном анализе желательно устранить пропущенные значения. Для этого существуют специальные приемы, в частности, вычеркивание соответствующих строк матрицы или занесение средних значений вместо отсутствующих. В дальнейшем будем считать, что матрица не содержит пустых элементов, а параметры объекта характеризуются непрерывными случайными величинами.

Файлы: 1 файл

статистика.docx

— 33.54 Кб (Скачать)

Стандартизованной матрице U можно сопоставить одну из следующих геометрических интерпретаций: 

в т-мерном пространстве оси соответствуют отдельным  параметрам и показателю. Каждая строка матрицы представляет вектор в этом пространстве, а вся матрица –  совокупность п векторов в пространстве параметров; 

в п-мерном пространстве оси соответствуют результатам  отдельных наблюдений. Каждый столбец  матрицы – вектор в пространстве наблюдений. Все вектора в этом пространстве имеют одинаковую длину, равную . Тогда угол между двумя  векторами характеризует взаимосвязь  соответствующих величин. И чем  меньше угол, тем теснее связь (тем  больше коэффициент корреляции). 

В корреляционной матрице  особую роль играют элементы левого столбца  – они характеризуют наличие  или отсутствие линейной зависимости  между соответствующим параметром ui (i =2, 3, …, т) и показателем объекта y. Проверка значимости позволяет выявить  такие параметры, которые следует  исключить из рассмотрения при формировании линейной функциональной зависимости, и тем самым упростить последующую  обработку. 
 

Выбор вида уравнения  регрессии 
 

Задача определения  функциональной зависимости, наилучшим  образом описывающей ЭД, связана  с преодолением ряда принципиальных трудностей. В общем случае для  стандартизованных данных функциональную зависимость показателя от параметров можно представить в виде 

y = f(u1, u2, ...up) + e 

(7.5) 

где f – заранее  не известная функция, подлежащая определению; 

e - ошибка аппроксимации  ЭД. 

Указанное уравнение  принято называть выборочным уравнением регрессии y на u. Это уравнение характеризует  зависимость между вариацией  показателя и вариациями факторов. А мера корреляции измеряет долю вариации показателя, которая связана с  вариацией факторов. Иначе говоря, корреляцию показателя и факторов нельзя трактовать как связь их уровней, а регрессионный анализ не объясняет  роли факторов в создании показателя. 

Еще одна особенность  касается оценки степени влияния  каждого фактора на показатель. Регрессионное  уравнение не обеспечивает оценку раздельного  влияния каждого фактора на показатель, такая оценка возможна лишь в случае, когда все другие факторы не связаны  с изучаемым. Если изучаемый фактор связан с другими, влияющими на показатель, то будет получена смешанная характеристика влияния фактора. Эта характеристика содержит как непосредственное влияние  фактора, так и опосредованное влияние, оказанное через связь с другими  факторами и их влиянием на показатель. 

В регрессионное  уравнение не рекомендуется включать факторы, слабо связанные с показателем, но тесно связанные с другими  факторами. Не включают в уравнение  и факторы, функционально связанные  друг с другом (для них коэффициент  корреляции равен 1). Включение таких  факторов приводит к вырождению системы  уравнений для оценок коэффициентов  регрессии и к неопределенности решения. 

Функция f должна подбираться  так, чтобы ошибка e в некотором  смысле была минимальна. Существует бесконечное  множество функций, описывающих  ЭД абсолютно точно (e = 0), т.е. таких  функций, которые для всех значений параметров uj,2 , uj,3 , …, uj,т принимают  в точности соответствующие значения показателя yi , i =1, 2, …, п. Вместе с тем, для всех других значений параметров, отсутствующих в результатах наблюдений, значения показателя могут принимать любые значения. Понятно, что такие функции не соответствуют действительной связи между параметрами и показателем. 

В целях выбора функциональной связи заранее выдвигают гипотезу о том, к какому классу может принадлежать функция f, а затем подбирают "лучшую" функцию в этом классе. Выбранный  класс функций должен обладать некоторой "гладкостью", т.е. "небольшие" изменения значений аргументов должны вызывать "небольшие" изменения  значений функции (ЭД содержат некоторые  ошибки измерений, а само поведение  объекта подвержено влиянию помех, маскирующих истинную связь между  параметрами и показателем). 

Простым, удобным  для практического применения и  отвечающим указанному условию является класс полиномиальных функций 
 
 

(7.6) 

Для такого класса задача выбора функции сводится к задаче выбора значений коэффициентов a0 , aj , ajk , …, ajj , … . Однако универсальность  полиномиального представления  обеспечивается только при возможности  неограниченного увеличения степени  полинома, что не всегда допустимо  на практике, поэтому приходится применять  и другие виды функций. 

Частным случаем, широко применяемым на практике, является полином первой степени или уравнение  линейной регрессии 

. 

(7.7) 

Это уравнение в  регрессионном анализе следует  трактовать как векторное, ибо речь идет о матрице данных 

, i =1, 2, … , n. 

(7.8) 

Обычно стремятся  обеспечить такое количество наблюдений, которое превышало бы количество оцениваемых коэффициентов модели. Для линейной регрессии при п > т количество уравнений превышает  количество подлежащих определению  коэффициентов полинома. Но и в  этом случае нельзя подобрать коэффициенты таким образом, чтобы ошибка в  каждом скалярном уравнении обращалась в ноль, так как к неизвестным  относятся аj и e i , их количество n + т  – 1, т.е. всегда больше количества уравнений  п. Аналогичные рассуждения справедливы  и для полиномов степени, выше первой. 

Для выбора вида функциональной зависимости можно рекомендовать  следующий подход: 

в пространстве параметров графически отображают точки со значениями показателя. При большом количестве параметров можно строить точки  применительно к каждому из них, получая двумерные распределения  значений; 

по расположению точек и на основе анализа сущности взаимосвязи показателя и параметров объекта делают заключение о примерном  виде регрессии или ее возможных  вариантах; 

после расчета параметров оценивают качество аппроксимации, т.е. оценивают степень близости расчетных и фактических значений; 

если расчетные  и фактические значения близки во всей области задания, то задачу регрессионного анализа можно считать решенной. В противном случае можно попытаться выбрать другой вид полинома или  другую аналитическую функцию, например периодическую. 
 

Вычисление коэффициентов  уравнения регрессии 
 

Систему уравнений (7.8) на основе имеющихся ЭД однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений. Для преодоления этой проблемы нужны дополнительные допущения. Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации ЭД. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка. На ее основе разработан специальный метод оценки коэффициентов уравнений регрессии – метод наименьших квадратов (МНК). Этот метод позволяет получить оценки максимального правдоподобия неизвестных коэффициентов уравнения регрессии при нормальном распределения вариант, но его можно применять и при любом другом распределении факторов. 

В основе МНК лежат  следующие положения: 

значения величин  ошибок и факторов независимы, а  значит, и некоррелированы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов; 

математическое ожидание ошибки e должно быть равно нулю (постоянная составляющая входит в коэффициент a0), иначе говоря, ошибка является центрированной величиной; 

выборочная оценка дисперсии ошибки должна быть минимальна. 

Рассмотрим применение МНК применительно к линейной регрессии стандартизованных величин. Для центрированных величин uj коэффициент a0 равен нулю, тогда уравнения  линейной регрессии 

. 

(7.9) 

Здесь введен специальный  знак "^", обозначающий значения показателя, рассчитанные по уравнению регрессии, в отличие от значений, полученных по результатам наблюдений. 

По МНК определяются такие значения коэффициентов уравнения  регрессии, которые обеспечивают безусловный  минимум выражению 

. 

(7.10) 

Минимум находится  приравниванием нулю всех частных производных  выражения (7.10), взятых по неизвестным  коэффициентам, и решением системы  уравнений 
 
 

(7.11) 

Последовательно проведя  преобразования и используя введенные  ранее оценки коэффициентов корреляции 
 
 

получим 

. 

(7.12) 

Итак, получено т–1 линейных уравнений, что позволяет однозначно вычислить значения a2, a3, …, aт. 

Если же линейная модель неточна или параметры  измеряются неточно, то и в этом случае МНК позволяет найти такие  значения коэффициентов, при которых  линейная модель наилучшим образом  описывает реальный объект в смысле выбранного критерия среднеквадратического  отклонения. 

Когда имеется только один параметр, уравнение линейной регрессии примет вид  = a2 u2 . Коэффициент a2 находится из уравнения r y,2 – a2 r 2,2 = 0. Тогда, учитывая, что r 2,2 = 1, искомый  коэффициент 

a2 = r y,2. 

(7.13) 

Соотношение (7.13) подтверждает ранее высказанное утверждение, что коэффициент корреляции является мерой линейной связи двух стандартизованных  параметров. 

Подставив найденное  значение коэффициента a2 в выражение  для w, с учетом свойств центрированных и нормированных величин, получим  минимальное значение этой функции, равное 1– r 2y,2. Величину 1– r 2y,2 называют остаточной дисперсией случайной величины y относительно случайной величины u2. Она характеризует ошибку, которая  получается при замене показателя функцией от параметра  . Только при |r y,2 | = 1 остаточная дисперсия равна нулю, и, следовательно, не возникает ошибки при аппроксимации  показателя линейной функцией. 

Переходя от центрированных и нормированных значений показателя и параметра 

, 

можно получить для  исходных величин 

. 

(7.14) 

Это уравнение также  линейно относительно коэффициента корреляции. Нетрудно заметить, что  центрирование и нормирование для  линейной регрессии позволяет понизить на единицу размерность системы  уравнений, т.е. упростить решение  задачи определения коэффициентов, а самим коэффициентам придать  ясный смысл. 

Применение МНК  для нелинейных функций практически  ничем не отличается от рассмотренной  схемы (только коэффициент a0 в исходном уравнении не равен нулю). 

Например, пусть необходимо определить коэффициенты параболической регрессии 

= a0 + a2 u2 + a22 u22. 

Выборочная дисперсия  ошибки 

. 

На ее основе можно  получить следующую систему уравнений 
 
 

После преобразований система уравнений примет вид 
 
 
 

Учитывая свойства моментов стандартизованных величин, запишем 
 
 

Определение коэффициентов  нелинейной регрессии основано на решении  системы линейных уравнений. Для  этого можно применять универсальные  пакеты численных методов или  специализированные пакеты обработки  статистических данных [1]. 

С ростом степени  уравнения регрессии возрастает и степень моментов распределения  параметров, используемых для определения  коэффициентов. Так, для определения  коэффициентов уравнения регрессии  второй степени используются моменты  распределения параметров до четвертой степени включительно. Известно, что точность и достоверность оценки моментов по ограниченной выборке ЭД резко снижается с ростом их порядка. Применение в уравнениях регрессии полиномов степени выше второй нецелесообразно. 

Качество полученного  уравнения регрессии оценивают  по степени близости между результатами наблюдений за показателем и предсказанными по уравнению регрессии значениями в заданных точках пространства параметров. Если результаты близки, то задачу регрессионного анализа можно считать решенной. В противном случае следует изменить уравнение регрессии (выбрать другую степень полинома или вообще другой тип уравнения) и повторить расчеты  по оценке параметров. 

При наличии нескольких показателей задача регрессионного анализа решается независимо для  каждого из них. 

Информация о работе Корреляционно-регрессионный анализ