Автор: Пользователь скрыл имя, 07 Февраля 2013 в 16:55, курс лекций
Тема 1. Предмет, метод и задачи статистики (1.5 часа)
Понятие статистики и ее особенности
Термин «статистика» употребляется в различных значениях. Под статистикой понимается практическая деятельность по сбору, накоплению, обработке и анализу цифровых данных, характери¬зующих население, экономику, культуру, образование и другие явления в жизни общества.
Метод сопоставления двух параллельных рядов.
Установить наличие стохастической связи, а также получить представление о ее характере и направлении можно с помощью сопоставления двух параллельных рядов статистических величин. Для этого факторы, характеризующие результативный признак, располагают в возрастающем или убывающем порядке (в зависимости от эволюции процесса и целей исследования), а затем прослеживают изменение величины результативного признака. Сопоставление и анализ расположенных таким образом рядов значений изучаемых величин позволяют установить наличие связи и ее направление. Зависимость между факторами и показателями может прослеживаться во времени (параллельные динамические ряды).
До исследования методом параллельных рядов (априори) необходимо провести анализ сопоставляемых явлений и установить наличие между ними причинных связей (а не простого сопутствия). Например, только потому, что между урожайностью и себестоимостью продукции сельского хозяйства имеется причинная связь, становится возможным построение, а затем сопоставление параллельных рядов этих показателей.
К недостатку метода взаимозависимых
параллельных рядов следует отнести
невозможность определения
Метод аналитических группировок.
Стохастическая связь будет проявляться отчетливее, если применить для ее изучения аналитические группировки. Чтобы выявить зависимость с помощью этого метода, нужно произвести группировку единиц совокупности по факторному признаку и для каждой группы вычислить среднее или относительное значение результативного признака. Сопоставляя затем изменения результативного признака по мере изменения факторного, можно выявить направление, характер и тесноту связи между ними с помощью эмпирического корреляционного отношения. Однако метод группировок не позволяет определить форму (аналитическое выражение) влияния факторных признаков на результативный.
Корреляционно-регрессионный анализ взаимосвязей социально-экономических явлений, его сущность и этапы. Уравнение регрессии как форма аналитического выражения связи
Корреляционно-регрессионный анализ является одним из наиболее широко распространенных и гибких приемов обработки статистических данных.
Корреляционно-регрессионный анализ как общее понятие включает в себя измерение тесноты, направления связи и установление аналитического выражения (формы) связи (регрессионный анализ).
Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).
Теснота связи количественно выражается величиной коэффициентов корреляции. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям
Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму. Та и другая служат для установления соотношения между явлениями, для определения наличия или отсутствия связи.
Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Регрессия может быть однофакторной (парной) и многофакторной (множественной).
По форме зависимости различают:
а) линейную регрессию, которая выражается уравнениями прямой (линейной функцией) вида Yx = a0+a1x;
б) нелинейную регрессию, которая выражается уравнениями вида:
парабола - ;
гипербола - и т. д.
По направлению связи различают:
а) прямую регрессию (положительную), возникающую при условии, если с увеличением или уменьшением независимой величины значения зависимой также соответственно увеличиваются или уменьшаются;
б) обратную (отрицательную) регрессию, появляющуюся при условии, что с увеличением или уменьшением независимой переменной зависимая соответственно уменьшается или увеличивается.
Уравнение регрессии, или статистическая модель связи социально-экономических явлений, выражаемая функцией
а(x1, x2,…, xk),
является достаточно адекватным реальному моделированию явлению или процессу в случае соблюдения следующих требований их построения:
1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.
2. Возможность
описания моделируемого
3. Все факторные
признаки должны иметь
4. Наличие достаточно большого объема исследуемой выборочной совокупности.
5. Причинно-следственные
связи между явлениями и
6. Отсутствие количественных ограничений на параметры модели связи.
7. Постоянство
территориальной и временной
структуры изучаемой совокупнос
Соблюдение данных требований
позволяет исследователю
Теоретическая обоснованность моделей взаимосвязи, построенных на основе корреляционно-регрессионного анализа, обеспечивается соблюдением следующих основных условий:
1. Все признаки и их совместные распределения должны подчиняться нормальному закону распределения.
2. Дисперсия моделируемого признака (Y) должна все время оставаться постоянной при изменении величины (Y) и значений факторных признаков.
3. Отдельные
наблюдения должны быть
Отступление от выполнения этих условий и предпосылок приводит к тому, что параметры регрессии не будут отражать реальное воздействие на моделируемый показатель.
Методика построения однофакторной регрессионной модели корреляционной связи. Анализ качества модели
Одной из проблем построения уравнения регрессии является ее размерность, т. е. определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным.
Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, быстрее и качественнее реализуемую. В то же время построение модели малой размерности может привести к тому, что она будут недостаточно полно описывать исследуемое явление или процесс в единой системе национального счетоводства.
Практика выработала определенный критерий, позволяющий установить оптимальное соотношение между числом факторных признаков, включаемых в модель, и объемом исследуемой совокупности. Согласно данному критерию число факторных признаков (k) должно быть в 5-6 раз меньше объема изучаемой совокупности.
Парная регрессия.
Парная регрессия
параболы - ;
гиперболы - .
Определить тип уравнения можно, исследуя зависимость графически. Однако существуют более общие указания, позволяющие выявить уравнение связи, не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о том, что связь между ними линейная, а при обратной связи – гиперболическая. Если факторный признак увеличивается в арифметической прогрессии, а результативный – значительно быстрее, то используется параболическая, или степенная регрессия.
Параметры уравнения a0 , a1 находят методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), то есть в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных yi от выравненных ŷ :
S(yi – ŷ)2 = S(yi – a0 – a1xi)2 ® min
Для нахождения минимума данной функции приравняем к нулю ее частные производные и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
.
Решим эту систему в общем виде:
Параметры уравнения парной линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же результат:
Определив значения a0 , a1 и подставив их в уравнение связи ŷ = a0 + a1x , находим значения ŷ , зависящие только от заданного значения х.
Для практического использования моделей регрессии очень важна их адекватность, т. е. соответствие фактическим статистическим данным.
Корреляционный и
При численности объектов анализа до 30 единиц возникает необходимость проверки значимости (существенности) каждого коэффициента регрессии. При этом выясняют насколько вычисленные параметры характерны для отображения комплекса условий: не являются ли полученные значения параметров результатами действия случайных причин.
Значимость коэффициентов простой линейной регрессии (применительно к совокупностям, у которых п < 30) осуществляют с помощью t-критерия Стьюдента. При этом вычисляют расчетные (фактические) значения t-критерия:
для параметра а0
(3)
для параметра а1
, (4)
где n-объем выборки;
- среднее квадратическое
или -среднее квадратическое отклонение факторного признака x от общей средней .
Вычисленные по формулам (3) и (4) значения, сравнивают с критическими t, которые определяют по таблице Стьюдента с учетом принятого уровня значимости и числом степеней свободы вариации у=n-2. В социально-экономических исследованиях уровень значимости обычно принимают равным 0,05. Параметр признается значимым (существенным) при условии, если > .В таком случае практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями.
Проверка адекватности регрессионной модели может быть дополнена корреляционным анализом. Для этого необходимо определить тесноту корреляционной связи между переменными х и у. Теснота корреляционной связи, как и любой другой, может быть измерена эмпирическим корреляционным отношением , когда (межгрупповая дисперсия) характеризует отклонения групповых средних результативного признака от общей средней: = .
Для практических вычислений при малом числе наблюдений, , линейный коэффициент корреляции удобнее исчислять по следующей формуле:
.
Значение линейного коэффициента корреляции важно для исследования социально-экономических явлений и процессов, распределение которых близко к нормальному. Он принимает значения в интервале -1 r +1.
Отрицательные значения указывают на обратную связь, положительные - на прямую. При r = 0 линейная связь отсутствует. Чем ближе коэффициент корреляции по абсолютной величине к единице, тем теснее связь между признаками. И, наконец, при г = ±1 связь — функциональная.
Квадрат линейного коэффициента корреляции г2 = 0,855 называется линейным коэффициентом детерминации. Из определения коэффициента детерминации очевидно, что его числовое значение всегда заключено в пределах от 0 до 1, т.е. 0 г2 1. Степень тесноты связи полностью соответствует теоретическому корреляционному отношению, которое является более универсальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции.