Автор: Пользователь скрыл имя, 16 Января 2012 в 16:50, контрольная работа
В матрице элемент хij соответствует значению j-й варианты в i-м наблюдении. Матрица, вообще говоря, может содержать пустые значения некоторых элементов, например, из-за пропусков в регистрации значений параметров. В многомерном анализе желательно устранить пропущенные значения. Для этого существуют специальные приемы, в частности, вычеркивание соответствующих строк матрицы или занесение средних значений вместо отсутствующих. В дальнейшем будем считать, что матрица не содержит пустых элементов, а параметры объекта характеризуются непрерывными случайными величинами.
Стандартизованной
матрице U можно сопоставить одну
из следующих геометрических интерпретаций:
в т-мерном пространстве
оси соответствуют отдельным
параметрам и показателю. Каждая строка
матрицы представляет вектор в этом
пространстве, а вся матрица –
совокупность п векторов в пространстве
параметров;
в п-мерном пространстве
оси соответствуют результатам
отдельных наблюдений. Каждый столбец
матрицы – вектор в пространстве
наблюдений. Все вектора в этом
пространстве имеют одинаковую длину,
равную . Тогда угол между двумя
векторами характеризует
В корреляционной матрице
особую роль играют элементы левого столбца
– они характеризуют наличие
или отсутствие линейной зависимости
между соответствующим
Выбор вида уравнения
регрессии
Задача определения
функциональной зависимости, наилучшим
образом описывающей ЭД, связана
с преодолением ряда принципиальных
трудностей. В общем случае для
стандартизованных данных функциональную
зависимость показателя от параметров
можно представить в виде
y = f(u1, u2, ...up) + e
(7.5)
где f – заранее
не известная функция, подлежащая определению;
e - ошибка аппроксимации
ЭД.
Указанное уравнение
принято называть выборочным уравнением
регрессии y на u. Это уравнение характеризует
зависимость между вариацией
показателя и вариациями факторов.
А мера корреляции измеряет долю вариации
показателя, которая связана с
вариацией факторов. Иначе говоря,
корреляцию показателя и факторов нельзя
трактовать как связь их уровней,
а регрессионный анализ не объясняет
роли факторов в создании показателя.
Еще одна особенность
касается оценки степени влияния
каждого фактора на показатель. Регрессионное
уравнение не обеспечивает оценку раздельного
влияния каждого фактора на показатель,
такая оценка возможна лишь в случае,
когда все другие факторы не связаны
с изучаемым. Если изучаемый фактор
связан с другими, влияющими на показатель,
то будет получена смешанная характеристика
влияния фактора. Эта характеристика
содержит как непосредственное влияние
фактора, так и опосредованное влияние,
оказанное через связь с
В регрессионное
уравнение не рекомендуется включать
факторы, слабо связанные с показателем,
но тесно связанные с другими
факторами. Не включают в уравнение
и факторы, функционально связанные
друг с другом (для них коэффициент
корреляции равен 1). Включение таких
факторов приводит к вырождению системы
уравнений для оценок коэффициентов
регрессии и к неопределенности
решения.
Функция f должна подбираться
так, чтобы ошибка e в некотором
смысле была минимальна. Существует бесконечное
множество функций, описывающих
ЭД абсолютно точно (e = 0), т.е. таких
функций, которые для всех значений
параметров uj,2 , uj,3 , …, uj,т принимают
в точности соответствующие значения
показателя yi , i =1, 2, …, п. Вместе с тем,
для всех других значений параметров,
отсутствующих в результатах наблюдений,
значения показателя могут принимать
любые значения. Понятно, что такие функции
не соответствуют действительной связи
между параметрами и показателем.
В целях выбора функциональной
связи заранее выдвигают
Простым, удобным
для практического применения и
отвечающим указанному условию является
класс полиномиальных функций
(7.6)
Для такого класса задача
выбора функции сводится к задаче
выбора значений коэффициентов a0 , aj , ajk
, …, ajj , … . Однако универсальность
полиномиального представления
обеспечивается только при возможности
неограниченного увеличения степени
полинома, что не всегда допустимо
на практике, поэтому приходится применять
и другие виды функций.
Частным случаем, широко
применяемым на практике, является
полином первой степени или уравнение
линейной регрессии
.
(7.7)
Это уравнение в
регрессионном анализе следует
трактовать как векторное, ибо речь
идет о матрице данных
, i =1, 2, … , n.
(7.8)
Обычно стремятся
обеспечить такое количество наблюдений,
которое превышало бы количество
оцениваемых коэффициентов
Для выбора вида функциональной
зависимости можно
в пространстве параметров
графически отображают точки со значениями
показателя. При большом количестве
параметров можно строить точки
применительно к каждому из них,
получая двумерные
по расположению
точек и на основе анализа сущности
взаимосвязи показателя и параметров
объекта делают заключение о примерном
виде регрессии или ее возможных
вариантах;
после расчета параметров
оценивают качество аппроксимации,
т.е. оценивают степень близости
расчетных и фактических
если расчетные
и фактические значения близки во
всей области задания, то задачу регрессионного
анализа можно считать
Вычисление коэффициентов
уравнения регрессии
Систему уравнений (7.8)
на основе имеющихся ЭД однозначно
решить невозможно, так как количество
неизвестных всегда больше количества
уравнений. Для преодоления этой
проблемы нужны дополнительные допущения.
Здравый смысл подсказывает: желательно
выбрать коэффициенты полинома так, чтобы
обеспечить минимум ошибки аппроксимации
ЭД. Могут применяться различные меры
для оценки ошибок аппроксимации. В качестве
такой меры нашла широкое применение среднеквадратическая
ошибка. На ее основе разработан специальный
метод оценки коэффициентов уравнений
регрессии – метод наименьших квадратов
(МНК). Этот метод позволяет получить оценки
максимального правдоподобия неизвестных
коэффициентов уравнения регрессии при
нормальном распределения вариант, но
его можно применять и при любом другом
распределении факторов.
В основе МНК лежат
следующие положения:
значения величин
ошибок и факторов независимы, а
значит, и некоррелированы, т.е. предполагается,
что механизмы порождения помехи
не связаны с механизмом формирования
значений факторов;
математическое ожидание
ошибки e должно быть равно нулю (постоянная
составляющая входит в коэффициент
a0), иначе говоря, ошибка является центрированной
величиной;
выборочная оценка
дисперсии ошибки должна быть минимальна.
Рассмотрим применение
МНК применительно к линейной
регрессии стандартизованных
.
(7.9)
Здесь введен специальный
знак "^", обозначающий значения показателя,
рассчитанные по уравнению регрессии,
в отличие от значений, полученных
по результатам наблюдений.
По МНК определяются
такие значения коэффициентов уравнения
регрессии, которые обеспечивают безусловный
минимум выражению
.
(7.10)
Минимум находится
приравниванием нулю всех частных производных
выражения (7.10), взятых по неизвестным
коэффициентам, и решением системы
уравнений
(7.11)
Последовательно проведя
преобразования и используя введенные
ранее оценки коэффициентов корреляции
получим
.
(7.12)
Итак, получено т–1 линейных
уравнений, что позволяет однозначно
вычислить значения a2, a3, …, aт.
Если же линейная
модель неточна или параметры
измеряются неточно, то и в этом случае
МНК позволяет найти такие
значения коэффициентов, при которых
линейная модель наилучшим образом
описывает реальный объект в смысле
выбранного критерия среднеквадратического
отклонения.
Когда имеется только
один параметр, уравнение линейной
регрессии примет вид = a2 u2 . Коэффициент
a2 находится из уравнения r y,2 – a2 r 2,2
= 0. Тогда, учитывая, что r 2,2 = 1, искомый
коэффициент
a2 = r y,2.
(7.13)
Соотношение (7.13) подтверждает
ранее высказанное утверждение,
что коэффициент корреляции является
мерой линейной связи двух стандартизованных
параметров.
Подставив найденное
значение коэффициента a2 в выражение
для w, с учетом свойств центрированных
и нормированных величин, получим
минимальное значение этой функции,
равное 1– r 2y,2. Величину 1– r 2y,2 называют
остаточной дисперсией случайной величины
y относительно случайной величины
u2. Она характеризует ошибку, которая
получается при замене показателя функцией
от параметра . Только при |r y,2 | = 1 остаточная
дисперсия равна нулю, и, следовательно,
не возникает ошибки при аппроксимации
показателя линейной функцией.
Переходя от центрированных
и нормированных значений показателя
и параметра
,
можно получить для
исходных величин
.
(7.14)
Это уравнение также
линейно относительно коэффициента
корреляции. Нетрудно заметить, что
центрирование и нормирование для
линейной регрессии позволяет понизить
на единицу размерность системы
уравнений, т.е. упростить решение
задачи определения коэффициентов,
а самим коэффициентам придать
ясный смысл.
Применение МНК
для нелинейных функций практически
ничем не отличается от рассмотренной
схемы (только коэффициент a0 в исходном
уравнении не равен нулю).
Например, пусть необходимо
определить коэффициенты параболической
регрессии
= a0 + a2 u2 + a22 u22.
Выборочная дисперсия
ошибки
.
На ее основе можно
получить следующую систему уравнений
После преобразований
система уравнений примет вид
Учитывая свойства
моментов стандартизованных величин,
запишем
Определение коэффициентов
нелинейной регрессии основано на решении
системы линейных уравнений. Для
этого можно применять
С ростом степени
уравнения регрессии возрастает
и степень моментов распределения
параметров, используемых для определения
коэффициентов. Так, для определения
коэффициентов уравнения
Качество полученного
уравнения регрессии оценивают
по степени близости между результатами
наблюдений за показателем и предсказанными
по уравнению регрессии значениями
в заданных точках пространства параметров.
Если результаты близки, то задачу регрессионного
анализа можно считать
При наличии нескольких
показателей задача регрессионного
анализа решается независимо для
каждого из них.