Автор: Пользователь скрыл имя, 25 Декабря 2010 в 12:45, практическая работа
Работа состоит в следующем: на основе выборки данных и цен о квартирах в определенном районе в определенный день строится несколько моделей зависимости цены квартиры от её параметров. В моделях проверяются, какие факторы являются значимыми, незначимые отбрасываются. Из нескольких моделей выбирается лучшая, и на её основе производится прогноз цены квартиры, не вошедшей в выборку данных.
Российский
Государственный Университет
Кафедра прикладной математики и компьютерного моделирования
Задание по дисциплине
Прогноз цены
на квартиру.
Выполнил: студент
группы АМ-06-6
Руководитель:
доц. Иткин В.Ю.
Задание состоит в том, чтобы спрогнозировать
цену на квартиру в каком-нибудь районе
Москвы. Для этого выбираем район
– м.Пушкинская. С сайта http://www.realty.ru/flat/
Модели зависимости отклика(цены квартиры) от факторов:
Рассмотрим несколько моделей зависимости цены от следующих факторов: число комнат, время до метро, этаж, этажность дома, общая площадь, жилая площадь, площадь кухни. Исследуем значимость коэффициентов по критерию Стьюдента в каждой модели. Во всем этом нам поможет хорошая программа – Matlab. В ней есть функция glmfit. В функцию необходимо передать матрицу значений факторов X и вектор откликов, а на выходе мы получим интересующую нас исследовательскую информацию. В каждом столбце матрицы содержаться значения одного фактора. Порядок следования факторов в строчке соответствует порядку их перечисления выше по тексту.
Факторы:
число комнат | X1 |
время до метро | X2 |
Этаж | X3 |
этажность дома | X4 |
общая площадь | X5 |
жилая площадь | X6 |
площадь кухни | X7 |
y=b0+b1*x1+b2*x2+b3*x3+b4*x4+b
Коэффициент | Значение | Значимость |
b0 | -626.32 | 0.06 |
b1 число комнат | -22.29 | 0.55 |
b2 время до метро | 10.09 | 0.44 |
b3 Этаж | 43.32 | 0.26 |
b4 этажность дома | 13.79 | 0.58 |
b5 общая площадь | 2.12 | 0.24 |
b6 жилая площадь | 13.35 | 0.00 |
b7 площадь кухни | 34.00 | 0.01 |
Уровень значимости выберем 0.05. Факторы, для которых значение статистики Стьюдента превышает заданный уровень, считаем незначительными. В этой модели мы получили, что значимыми являются только жилая площадь квартиры и площадь кухни.
Для исследования
мультиколлинеарности отбросим значения
незначимых факторов в матрице X, проведем
её нормировку , посчитаем матрицу XT*X
и определим число обусловленностей и
детерминант полученной матрицы.
Cond(XT*X) = 24.23;
Det(XT*X) =
0.1522.
Матрица получилась
хорошо обусловленной.
Фактор X3 в данной модели не рассматривается вообще, так как по графику не видно никаких зависимостей. Факторы X5 , X6 , X7 остались линейными, потому что по графикам зависимости цены от них прослеживается именно линейная зависимость.
Коэффициент | Значение | Значимость |
b0 | -396.87 | 0.02 |
b1 число комнат | -8.36 | 0.06 |
b2 время до метро | 0.22 | 0.80 |
b4 этажность дома | 2.30 | 0.40 |
b5 общая площадь | 2.34 | 0.19 |
b6 жилая площадь | 14.57 | 0.00 |
b7 площадь кухни | 33.20 | 0.01 |
Значимым оказался
коэффициент при свободном
Мультиколлинеарность:
Cond(XT*X) = 63.7901;
Det(XT*X) = 0.0144;
Снова получили хорошо обусловленную матрицу.
Коэффициент | Значение | Значимость |
b0 | -274.91 | 0.02 |
b1 число комнат | -0.26 | 0.01 |
b2 время до метро | 0.0001 | 0.23 |
b4 этажность дома | -0.001 | 0.93 |
b5 общая площадь | 2.22 | 0.20 |
b6 жилая площадь | 14.02 | 0.00 |
b7 площадь кухни | 27.14 | 0.03 |
Значимыми оказались коэффициент при свободном члене, а также
коэффициенты при следующих факторах: жилая площадь, площадь кухни.
Мультиколлинеарность:
Сond(XT*X) = 69.12;
Det(XT*X)
= 0.0105.
Снова матрица
хорошо обусловлена.
Лучшая модель.
Вычислим коэффициент
детерминации для каждой модели:
Линейная модель: R2 = 0.7060.
Модель 2: R2 0.7124.
Модель 3: R2
= 0.7238.
Коэффициенты детерминации всех моделей очень близки. Больше всех имеет коэффициент модель 3. Значит, она самая лучшая по этому критерию.
Теперь выберем лучшую по критерию Фишера.
S_lin = 1.4277e+007;
S_2 = 1.3969e+007;
S_3 = 1.3416e+007;
m_lin = 8;
m2 = 7;
m3 = 7;
Сравниваем линейную
и модель 2:
Fкр=1.0316, F0.95(106,107)= 1.3772.
Модели эквивалентны.
Сравним линейную и модель 3:
Fкр= 1.0742; F0.95(106, 107)= 1.3772.
Модели эквивалентны.
А теперь сравним модели 2 и 3:
Fкр= 1.0413; F0.95(107,107) = 1.3764.
Модели эквивалентны.
Следовательно, по критерию Фишера все модели одинаковы.
Давать прогноз на цену будем с помощью модели 3.
Прогноз.
Получили следующие результаты:
Значение цены квартиры, которую запрашивают её владельцы – 750.0 ед.изм.
Мы видим, что
прогноз оказался не очень далек от
истинного значения и попал в доверительный
интервал.
На графике видно, что общая и жилая площадь линейно зависят друг от друга. Однако, ни в одной модели в число значимых факторов общая площадь не вошла, хотя на графике зависимости цены от общей площади видна явная линейная зависимость. Жилая площадь вошла во все модели. Также во все модели вошла площадь кухни. Возможно, общая площадь оказалось незначимой при исследовании зависимости цены от различных факторов именно потому, что она рассматривалась в совокупности с другими факторами, влияние которых компенсировало влияние общей площади на цену квартиры.