Функциональная и корреляционная зависимости

Автор: Пользователь скрыл имя, 26 Декабря 2011 в 23:25, доклад

Краткое описание

Корреляция - связь между двумя переменными. Расчёт корреляции основан на формировании парных значений, которые образовываются из рассматриваемых зависимых выборок.
Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные.

Файлы: 1 файл

Документ Microsoft Office Word.docx

— 54.81 Кб (Скачать)

13.Функциональная  и корреляционная  зависимости.

Корреляция - связь  между двумя переменными. Расчёт корреляции основан на формировании парных значений, которые образовываются из рассматриваемых зависимых выборок.

Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся  переменные. 

Переменные с  метрической шкалой: коэффициент  корреляции Пирсона.

Если данному  значению одной величины соответствует  вполне определенное значение другой, то говорят, что между этими величинами имеет место функциональная зависимость. Например, общий стаж работы y и стаж работы на данном предприятии x.

Часто случается  так, что определенному значению одной величины соответствует целый  комплекс значений другой, представляющий собой ряд распределения, причем при изменении данной величины меняется ряд распределения и его среднее. В таких случаях говорят о  корреляционной зависимости. Она отражает тенденцию возрастания (положительная  корреляция) или убывания (отрицательная  корреляция) одной переменной величины при возрастании другой. Например, связь между ростом отцов и  детей. 

Корреляция Пирсона.

Данный коэффициент  корреляции можно применять для метрических нормально распределенных переменных. Коэффициент корреляции говорит о том, насколько близко наблюдения лежат к некоторой прямой. 

Основная гипотеза - об отсутствие линейной связи между переменными. При p < 0,05 гипотезу отвергаем.

Коэффициент корреляции может принимать значения от -1 до +1. При этом отрицательный коэффициент корреляции позволяет принять гипотезу о наличии линейной отрицательной связи, т.е. увеличение значения одной переменной в большинстве случаев соответствует уменьшению значения коррелирующей с ней переменной. Положительный коэффициент корреляции свидетельствует о положительной связи переменных: увеличение одной переменной соответствует увеличению

14. Определение коэффициента линейной корреляции между признаками (коэффициент Пирсона) и интерпретация его значения

 Линейный  корреляционный анализ позволяет  установить прямые связи между  переменными величинами по их  абсолютным значениям. Формула  расчета коэффициента корреляции  построена таким образом, что  если связь между признаками  имеет линейный характер, коэффициент  Пирсона точно устанавливает  тесноту этой связи. Поэтому  он называется также коэффициентом  линейной корреляции Пирсона.

Уравнение регрессии  всегда дополняется показателем  тесноты связи. При использовании  линейной регрессии в качестве такового показателя выступает линейный коэффициент корреляции r.

 
   

 
Одна из формул линейного коэффициента корреляции имеет вид:

Коэффициент корреляции находится в пределах:   - 1 < r < 1.                                     

Если b > 0, то 0 < r < 1, и, наоборот, при  b < 0, - 1 < r < 0.

Линейный коэффициент  корреляции оценивает тесноту связи  рассматриваемых признаков в  ее линейной форме. Поэтому близость абсолютного значения линейного  коэффициента корреляции к нулю еще  не означает отсутствие связи между  признаками. При нелинейном виде модели связь может оказаться достаточно тесной.

Квадрат линейного  коэффициента корреляции называется коэффициентом детерминации. Он характеризует долю дисперсии результативного показателя y, объясняемую регрессией.

Соответственно  величина 1 - r2 характеризует долю дисперсии у, вызванную влиянием остальных, неучтенных в модели, факторов.

Для применения коэффициента корреляции Пирсона, необходимо соблюдать следующие условия:

Сравниваемые  переменные должны быть получены в  интервальной шкале или шкале  отношений.

Распределения переменных X и Y должны быть близки к  нормальному.

Число варьирующих  признаков в сравниваемых переменных X и Y должно быть одинаковым.

 Интерпретация  результатов заключается в том, что проводятся расчеты по математической модели и анализ полученного решения. Если модель удовлетворяет требованиям качества, то она может быть использована для прогнозирования, либо для анализа внутреннего механизма исследуемых процессов. Оцененная эконометрическая модель может использоваться как для структурного анализа, включая обратное влияние на экономическую теорию, так и для прогнозирования и связанной с ним выработки экономической политики.

15. Расчет коэффициента  детерминации. Линия  регрессии. Простая  линейная регрессия  и ее назначение

Коэффициент детерминации (R2)— это доля дисперсии отклонений зависимой переменной от её среднего значения, объясняемая рассматриваемой моделью связи (объясняющими переменными). Модель связи обычно задается как явная функция от объясняющих переменных. В частном случае линейной связи Rявляется квадратом коэффициента корреляции между зависимой переменной и объясняющими переменными.

Общая формула  для вычисления коэффициента детерминации:

    где y— наблюдаемое значение зависимой переменной, а f— значение зависимой переменной предсказанное по уравнению регрессии   -среднее арифметическое зависимой переменной.

    При проверке гипотезы о наличии связи модель связи может быть неизвестна. Тогда  ее задают в виде кусочно-постоянной функции (в этом случае коэффициент  детерминации равен квадрату корреляционного  отношения) либо оценивают неизвестные  значения функции связи, используя  методы сглаживания эмпирической зависимости (например метод скользящих средних)[1].

Линия регрессии - линия:  
- которая точнее всего отражает распределение экспериментальных точек на диаграмме рассеяния; и  
-крутизна наклона которой характеризует зависимость между двумя интервальными переменными. 

Простая линейная регрессия — регрессионный анализ двух случайных величин, предполагающий линейную зависимость между ними.

Этот вид регрессии  лучше всего подходит для того, чтобы продемонстрировать основополагающие принципы регрессионного анализа. Рассмотрим для этого диаграмму рассеяния  из главы 15.1, которая иллюстрирует зависимость  показателя холестерина спустя один месяц после начала лечения от исходного показателя, полученную при  исследовании гипертонии. Можно легко  заметить очевидную связь: обе переменные развиваются в одном направлении  и множество точек, соответствующих  наблюдаемым значениям показателей, явно концентрируется (за некоторыми исключениями) вблизи прямой (прямой регрессии). В  таком случае говорят о линейной связи.

у=b*х + а    где b — регрессионные коэффициенты, a — смещение по оси ординат.

Смещение по оси ординат соответствует точке  на оси у (вертикальной оси), где прямая регрессии пересекает эту ось. Коэффициент  регрессии b через соотношение       b = tg(a) указывает на угол наклона  прямой.

При проведении простой линейной регрессии основной задачей является определение параметров b и а. Оптимальным решением этой задачи является такая прямая, для  которой сумма квадратов вертикальных расстояний до отдельных точек данных является минимальной.

Если мы рассмотрим показатель холестерина через один месяц (переменная chol1) как зависимую  переменную (у), а исходную величину как независимую переменную (х), то тогда для проведения регрессионного анализа нужно будет определить параметры соотношения

16.Ограничения модели регрессии: требование гомоскедастичности

Построение  регрессионных моделей на сегодняшний  день, несомненно, является наиболее широко применяемым методом многомерного статистического анализа социологических  данных. За последние несколько лет  более половины статей, анализирующих эмпирические данные, в таких американских социологических журналах, как American Journal of Sociology и American Sociological Review, основаны на использовании регрессионных моделей.

Достаточно  распространены регрессионные методы и среди российских социологов, специалистов, использующих опросные методики. Вместе с тем многие особенности и  ограничения регрессионных моделей  обычно остаются вне сферы внимания исследователей, что, подчас, приводит к неточным, либо просто ошибочным  результатам. В данной статье рассматриваются  некоторые особенности использования  регрессионных методов при анализе  данных массовых опросов.

Регрессионный анализ показывает, во-первых, качество модели, то есть степень того, насколько  данная совокупность иксов объясняет Y. Показатель качества называется коэффициентом  детерминации Rи показывает, какой процент информации Y можно объяснить поведением иксов. Во-вторых, регрессионный анализ вычисляет значения коэффициентов В, то есть определяет, с какой силой каждый из Х влияет на Y.

Методологическим  недостатком такого подхода является то, что данная зависимость ищется единой для всей совокупности опрошенных респондентов. Иными словами, мы предполагаем, что для всех людей характер зависимости Y от иксов единый. В том случае, когда выборочная совокупность достаточно однородна, такого рода допущение имеет  под собой определенные основания. Однако, если анализируются, скажем, детерминанты электоральных предпочтений на основе данных всероссийской выборки, допущение  об однородности этих детерминант для  чукотского оленевода и для московского  профессора выглядит не очень убедительным.

ГОМОСКЕДАСТИЧНОСТЬ- свойство корреляции, состоящее в постоянстве условной дисперсии (в противном случае корреляция наз. гетероскедастичной); этим свойством обладает, напр., нормальная.

Свойство данных, используемых для построения модели линейной регрессии, которое заключается в том, что их дисперсия вдоль прямой регрессии должна быть постоянной. Гомоскедастичность является одним из условий эффективности регрессионной модели. Если оно нарушается, т.е. имеет место гетероскедастичность, это может затруднить интерпретацию результатов регрессии, поскольку в этом случае значение выходной переменной зависит не только от величины изменения входной, но и от того, относительно какой величины это изменение происходит

17. Анализ регрессионных остатков

Анализ регрессионных  остатков заключается в проверке нескольких гипотез:

    (1)

    (2)

    (3)

    (4) 

    — независимы

где  ,  , — регрессионные остатки конкретной модели.   - отклики посчитанные по модели, а   - эмпирические отклики.

Для проверки первой гипотезы воспользуемся критерием знаков. Проверка второй гипотезы по сути является проверкой на гомоскедастичность, то есть на постоянство дисперсии, случай гетероскедастичности будет рассмотрен ниже. Для этого воспользуемся двумя статистическими тестами: тестом Ансари-Брэдли и критерием Голдфелда-Кванта. Так как тест Ансари-Брэдли фактически осуществляет проверку гипотезы, что у двух предоставленных выборок дисперсии одинаковы, а мы фактически имеем только один вектор остатков, то произведем несколько тестов, сравнивая в каждом две случайные выборки из нашего вектора остатков. Проверку нормальности распределения осуществим с помощью критерия согласия хи-квадрат, модифицированного для проверки на нормальность, то есть сравнивая данное нам распределение в остатках с нормальным распределением, имеющим моментные характеристики, вычисленные из вектора остатков. Наконец, проверку последнего условия реализуем с помощью статистики Дарбина-Уотсона.

Информация о работе Функциональная и корреляционная зависимости