Содержательная
интерпретация двух типах факторов
Для целей изложения факторного анализа
остановимся на двух типах факторов, условно
выделенных нами с точки зрения их содержательной
ин-терпретации: 1) факторы, в состав которых
входят, содержательно близкие или содержательно
«гомогенные» переменные; 2) факторы, состоящие
из содержательно разнородных, «гетерогенных»
переменных. Первый тип факторов предполагает
относительно простую интерпретацию фактора
как общего свойства, черты и т. д., полученных
на основании обобщения содер-жательно
близких переменных.
23.
Кластерный анализ
выполняет следующие основные
задачи:
- Разработка
типологии или классификации.
- Исследование
полезных концептуальных схем группирования
объектов.
- Порождение
гипотез на основе исследования данных.
- Проверка
гипотез или исследования для определения,
действительно ли типы (группы), выделенные
тем или иным способом, присутствуют в
имеющихся данных (примечание 1).
Кластерный анализ
предъявляет следующие требования
к данным:
- показатели
не должны коррелировать между собой
- показатели
должны быть безразмерными
- распределение
показателей должно быть близко к нормальному
- показатели
должны отвечать требованию «устойчивости»,
под которой понимается отсутствие влияния
на их значения случайных факторов
- выборка должна
быть однородна, не содержать «выбросов»
(примечание 2).
Если кластерному
анализу предшествует факторный
анализ, то выборка не нуждается в «ремонте» —
изложенные требования выполняются автоматически
самой процедурой факторного моделирования
(есть ещё одно достоинство — z-стандартизация
без негативных последствий для выборки;
если её проводить непосредственно для
кластерного анализа, она может повлечь
за собой уменьшение чёткости разделения
групп). В противном случае выборку нужно
корректировать.
Методы кластерного
анализа можно разделить на две
группы:
- иерархические;
- неиерархические.
Каждая из групп
включает множество подходов и алгоритмов.
Используя различные
методы кластерного анализа, аналитик
может получить различные решения
для одних и тех же данных. Это
считается нормальным явлением.
Рассмотрим иерархические
и неиерархические методы подробно.
Иерархические
методы кластерного
анализа
Суть иерархической
кластеризации состоит в последовательном
объединении меньших кластеров
в большие или разделении больших
кластеров на меньшие.
Иерархические
агломеративные методы (Agglomerative Nesting, AGNES)
Эта группа методов
характеризуется последовательным
объединением исходных элементов и
соответствующим уменьшением числа
кластеров.
В начале работы
алгоритма все объекты являются
отдельными кластерами. На первом шаге
наиболее похожие объекты объединяются
в кластер. На последующих шагах
объединение продолжается до тех
пор, пока все объекты не будут
составлять один кластер.
- Виды
проявления количественных связей между
признаками
- функциональная
связь
- корреляционная
связь
- Определения
функциональной и корреляционной связи
Функциональная
связь — такой вид соотношения между двумя
признаками, когда каждому значению одного
из них соответствует строго определенное
значение другого (площадь круга зависит
от радиуса круга и т.д.). Функциональная
связь характерна для физико-математических
процессов.
Корреляционная
связь — такая связь, при которой каждому
определенному значению одного признака
соответствует несколько значений другого
взаимосвязанного с ним признака (связь
между ростом и массой тела человека; связь
между температурой тела и частотой пульса
и др.). Корреляционная связь характерна
для медико-биологических процессов.
- Практическое
значение установления корреляционной
связи. Выявление причинно-следственной
между факторными и результативными признаками
(при оценке физического развития, для
определения связи между условиями труда,
быта и состоянием здоровья, при определении
зависимости частоты случаев болезни
от возраста, стажа, наличия производственных
вредностей и др.)
Зависимость
параллельных изменений нескольких
признаков от какой-то третьей величины.
Например, под воздействием высокой
температуры в цехе происходят изменения
кровяного давления, вязкости крови,
частоты пульса и др.
- Величина,
характеризующая направление и силу связи
между признаками. Коэффициент корреляции,
который одним числом дает представление
о направлении и силе связи между признаками
(явлениями), пределы его колебаний от
0 до ± 1
- Способы
представления корреляционной связи
- график
(диаграмма рассеяния)
- коэффициент
корреляции
- Направление
корреляционной связи
- Сила
корреляционной связи
- сильная:
±0,7 до ±1
- средняя:
±0,3 до ±0,699
- слабая:
0 до ±0,299
- Методы
определения коэффициента корреляции
и формулы
- метод
квадратов (метод Пирсона)
- ранговый
метод (метод Спирмена)
- Методические
требования к использованию коэффициента
корреляции
- измерение
связи возможно только в качественно однородных
совокупностях (например, измерение связи
между ростом и весом в совокупностях,
однородных по полу и возрасту)
- расчет
может производиться с использованием
абсолютных или производных величин
- для
вычисления коэффициента корреляции используются
не сгруппированные вариационные ряды
(это требование применяется только при
вычислении коэффициента корреляции по
методу квадратов)
- число
наблюдений менее 30
- Рекомендации
по применению метода ранговой корреляции
(метод Спирмена)
- когда
нет необходимости в точном установлении
силы связи, а достаточно ориентировочных
данных
- когда
признаки представлены не только количественными,
но и атрибутивными значениями
- когда
ряды распределения признаков имеют открытые
варианты (например, стаж работы до 1 года
и др.)
- Рекомендации
к применению метода квадратов (метод
Пирсона)
- когда
требуется точное установление силы связи
между признаками
- когда
признаки имеют только количественное
выражение
- Методика
и порядок вычисления коэффициента корреляции
- построить
вариационные ряды для каждого из сопоставляемых
признаков, обозначив первый и второй
ряд чисел соответственно х и у;
- определить
для каждого вариационного ряда средние
значения (М1 и М2);
- найти
отклонения (dх и dy) каждого
числового значения от среднего значения
своего вариационного ряда;
- полученные
отклонения перемножить (dx X dy)
- каждое
отклонение возвести в квадрат и суммировать
по каждому ряду (Σ dx2 и dy2 )
- подставить
полученные значения в формулу расчета
коэффициента корреляции: