Автор: Пользователь скрыл имя, 19 Июня 2013 в 00:53, доклад
Предположим, что мы имеем экспериментально измеренные характеристики некоторого явления, которое собираемся изучать и дальнейшее развитие которого собираемся прогнозировать. В таблице ниже приводятся данные о численности населения России с 1897 по 1999гг. Предположим, нам не известны содержательные описания механизмов изменения характеристик данного явления (содержательной моделью демографического процесса является, например, модель Мальтуса – другое дело, насколько она применима в данном случае). Тем не менее, мы хотим на основании имеющихся данных, получить прогноз развития изучаемого процесса, например, на 2000-2010гг.
«Элементы информационного моделирования. Демография»
Выполнил(а):
студент 4 курса 8 группы
математического факультета МПГУ
Юрьева Евгения Александровна
Москва 2013
Элементы информационного
Предположим, что мы имеем экспериментально измеренные характеристики некоторого явления, которое собираемся изучать и дальнейшее развитие которого собираемся прогнозировать. В таблице ниже приводятся данные о численности населения России с 1897 по 1999гг. Предположим, нам не известны содержательные описания механизмов изменения характеристик данного явления (содержательной моделью демографического процесса является, например, модель Мальтуса – другое дело, насколько она применима в данном случае). Тем не менее, мы хотим на основании имеющихся данных, получить прогноз развития изучаемого процесса, например, на 2000-2010гг.
Год |
Численность населения России в млн. чел. |
1897 |
67,473 |
1914 |
89,902 |
1917 |
91 |
1920 |
88,247 |
1923 |
87,755 |
1936 |
92,735 |
1940 |
110,098 |
1950 |
101,438 |
1960 |
119,046 |
1970 |
130,079 |
1980 |
138,291 |
1990 |
148,041 |
1991 |
148,543 |
1992 |
148,704 |
1993 |
148,673 |
1994 |
148,366 |
1995 |
148,306 |
1996 |
147,976 |
1997 |
147,502 |
1998 |
147,105 |
1999 |
146,693 |
Можно пытаться искать зависимость между имеющимися значениями характеристик демографического процесса, а именно, искать зависимость численности населения от года измерения этой численности. При этом придумывать функциональную зависимость численности от времени желательно так, чтобы кривая, выражающая эту зависимость, проходила как можно ближе в какой-либо метрике (например, в качестве такой метрики часто берется сумма квадратов разностей экспериментальных и заданных придуманной функциональной зависимостью точек) к совокупности имеющихся экспериментальных точек. Во всяком случае, если постулировать существование точной функциональной зависимости численности населения от года измерения (в которую, возможно, входят еще какие-либо неучтенные нами характеристики процесса), то близость придуманной нами кривой к набору экспериментальных измерений, является необходимым условием успешности последующего прогноза. То что это необходимое условие не всегда является достаточным, демонстрирует факт возможности точно провести через n +1 точку полином n -й степени, что вряд ли даст хороший прогноз, если например, экспериментальные точки лежат на экспоненте, гиперболе или синусоиде.
Тем не менее, часто, особенно в начале процесса изучения различных явлений, когда их природа еще недостаточно исследована, придумывание подобных функциональных зависимостей с целью последующего прогноза развития явления остается единственным и часто достаточно эффективным средством. Важно лишь не забывать о границах применимости этого метода.
В ходе данной работы мы попробуем приближенно выразить имеющиеся экспериментальные данные различными функциональными зависимостями и на основании этих зависимостей попытаемся дать прогноз развития демографического процесса.
Для начала перенесем приведенную выше таблицу в Excel, например в ячейки диапазона С1:D22. Построим график нашей экспериментальной зависимости. Отметим, что шкала времени измерений в данном случае неравномерна, в некоторые периоды времени есть демографические данные на каждый год, а где-то интервал между двумя измерениями более десятилетия. Для правильного отображения таких графиков нужно выбрать в мастере диаграмм точечную диаграмму со значениями, соединенными сглаживающими линиями (на рисунке ниже выделено темным цветом).
Получаем следующий график демографического процесса:
Воспользуемся встроенными в Excel средствами моделирования временных зависимостей. Наведем курсор на линию построенного графика и нажмем правую кнопку мышки. В появившемся контекстном меню выберем пункт «Добавить линию тренда», после чего появится окно линии тренда.
В окне линии тренда две закладки. На первой из них нужно выбрать тип элементарной функции, с помощью которой будут приближаться экспериментальные данные (на рисунке выбрана линейная аппроксимация). На закладке «Параметры» следует выбрать возможность показа уравнения аппроксимирующей кривой на диаграмме. После этого нажимаем кнопку «ОК» и получаем на графике аппроксимирующую линию тренда.
Таким образом, Excel предлагает аппроксимировать наши экспериментальные данные прямой y = 0,7987x −1445,3 , где x - год, а y - численность населения в этом году. Теперь можно поместить параметры линии тренда 0,7987 и -1445,3 в какие-нибудь ячейки, например в E1 и F1, записать в ячейке E2 формулу линии тренда
=$E$1*C2+$F$1 (1)
добавить в ячейки С23:С33 годы с 2000 по 2010 и наконец, наведя мышку на правый нижний угол ячейки Е2, чтобы курсор принял форму крестика, «растянуть» формулу (1) вплоть до ячейки Е33. Получим в столбце Е2:Е33 значения численностей населения по годам, вычисляемые линией тренда, с прогнозом до 2010 года.
Чаще всего качество аппроксимации экспериментальных данных некоторой функцией, оценивается суммой квадратов разностей значений аппроксимирующей функции и экспериментальных данных. Параметры линий тренда выбираются Excel’ом так, чтобы эта сумма была минимальной. Сейчас мы проверим этот факт и заодно научимся пользоваться предоставляемой Excel’ом возможностью «Поиск решения», с помощью которой можно решать не слишком сложные оптимизационные задачи.
Поместим в столбце F квадраты разностей значений линии тренда и экспериментальных данных. Для этого в ячейку F2 запишем формулу:
=(D2-E2)^2
и «растянем» эту формулу до ячейки F22 включительно. В диапазоне F2:F22 теперь находятся квадраты разностей экспериментальных и теоретических данных. В ячейку F23 введем формулу =СУММ(F2:F22) (проще всего это сделать, установив курсор в ячейке F23 и нажав значок суммы на панели инструментов, будет предложена формула =СУММ(F1:F22), т.к. ячейка F1 у нас тоже непустая, останется только исправить верхнюю границу диапазона), и получим в этой ячейке F23 сумму квадратов разностей значений приближающей функции и экспериментальных данных. Попробуем теперь минимизировать эту сумму, меняя параметры аппроксимирующей прямой, т.е. ее тангенс угла наклона и свободный член, записанные ранее в ячейках E1 и F1. Для этого воспользуемся возможностью Excel’a, которая называется «Поиск решения» и применяется для решения не очень сложных оптимизационных задач. «Поиск решения» не входит в ядро Excel’a, а является надстройкой, поэтому в меню «Сервис» может не оказаться такого пункта. Если это действительно так, то в меню «Сервис» следует выбрать пункт «Надстройки» и в открывшемся окне надстроек поставить галочку напротив пункта «Поиск решения», после чего этот пункт начнет отображаться в меню «Сервис». Итак, в меню «Сервис» выбираем пункт «Поиск решения», после чего появляется окно поиска решения в котором мы указываем целевую ячейку F23 (там находится сумма квадратов разностей), то что мы хотим минимизировать ее значение и ячейки, значения которых можно менять для этой минимизации (E1 и F1 в нашем случае).
Если бы мы решали более сложную оптимизационную задачу, можно было бы еще указать ограничения, которым должны удовлетворять переменные. Мы же просто нажмем кнопку «Выполнить». Будет произведен расчет, после чего появившееся окно предложит принять либо отменить его результаты. В результате расчета наши изменяемые переменные почти не изменятся, т.к. Excel ищет линию тренда также методом наименьших квадратов. Чтобы оценить мощь и пользу «Поиска решения» можно перед его применением специально «испортить» линию тренда, изменив значения ячеек E1 и F1.
В заключение несколько слов о качестве полученного прогноза. Нетрудно видеть, что если в 60х – 70х годах линия тренда идет практически вплотную с экспериментальной, то с конца 80х годов экспериментальная линия начинает все больше уходить вниз от аппроксимирующей прямой, поэтому в ближайшие после 1999 годы прогноз будет не слишком точен. Такое «заваливание» демографической линии в конце 80х-90х гг. по-видимому, можно объяснить социальными процессами известными как перестройка и ее последствия. Если пренебречь предысторией и строить прогноз лишь на данных начиная с конца 80х – прогноз на ближайшие после 1999 годы будет конечно точнее, но вряд ли он будет способен дать выход из наметившегося кризиса (на что авторам хотелось бы надеяться). В то же время видно что такие спады бывали и раньше, и также были обусловлены социальными процессами – гражданской войной и коллективизацией в 20х – начале 30х годов и Великой Отечественной войной в первой половине 40х. И всегда спад заканчивался ростом, это наводит на мысль, что и спад 90х тоже должен закончиться. Далее можно проанализировать особенности спадов 20х и 40х годов и на их основании попробовать строить прогноз выхода из очередного демографического провала в начале ХХI века.
Подобным прогнозированием временных рядов, не вникая подробно в содержательные механизмы стоящих за ними явлений, но в то же время и не отказываясь от принятия во внимание некоторых тенденций развития этих явлений, иногда даже на гуманитарном уровне, занимается информационное моделирование.
Информация о работе Элементы информационного моделирования. Демография