Автор: Пользователь скрыл имя, 15 Марта 2012 в 09:02, дипломная работа
Окружающая среда - это все, что окружает человека и прямо или косвенно влияет на его состояние и функционирование (развитие, рост, выживаемость и др.) Окружающая среда включает в себя природную среду, возникшую на Земле вне зависимости от человека и унаследованную им от предшествующих поколений, и техногенную среду, то есть среду, созданную человеком. Элементы окружающей среды, воздействующие на живой организм, называются экологическими факторами.
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ 3
1 ОБЩАЯ ЧАСТЬ 5
1.1 Описание предметной области 5
1.2 Постановка задач 15
2 ОПИСАНИЕ ПРОГРАММНЫХ СРЕДСТВ НЕОБХОДИМЫХ ДЛЯ ОБРАБОТКИ СИСТЕМЫ 16
2.1. UML 16
2.2 Microsoft Access 21
2.3 RAD Studio C++ Builder 2007 22
2.4 Statistica 6 24
2.5 Математические методы анализа данных 27
2.5.1 Метод главных компонент 27
2.5.2. Регрессионный анализ 28
2.5.3. Дискриминантный анализ 28
2.5.4. Корреляционный анализ 29
2.5.5 Кластерный анализ 29
3. ПРОЕКТИРОВАНИЕ 34
3.1 Анализ данных 34
3.2 Диаграммы IDEF 35
3.3 Проектирование с помощью CASE технологий. 45
3.4 Реализация 48
ЗАКЛЮЧЕНИЕ 49
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ 50
Министерство образования и науки РФ
Государственное образовательное учреждение
высшего профессионального образования
«Петрозаводский государственный университет»
Кольский филиал
Кафедра информационных технологий
Разработка информационной системы анализа зависимости между вариациями геокосмических агентов и психофизиологическим состоянием организма человека
Дипломная работа
студента 5 курса (гр. 2)
очного отделения
факультета ИПМ
специальность 230102 - Автоматизированные системы обработки информации и управления
Влащенко Виталия Михайловича
Научные руководители:
д.б.н. Белешева Н.К.
к.т.н. Тоичкин Н.А.
Оценка публичной защиты работы:
Апатиты
2011
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ 3
1 ОБЩАЯ ЧАСТЬ 5
1.1 Описание предметной области 5
1.2 Постановка задач 15
2 ОПИСАНИЕ ПРОГРАММНЫХ СРЕДСТВ НЕОБХОДИМЫХ ДЛЯ ОБРАБОТКИ СИСТЕМЫ 16
2.1. UML 16
2.2 Microsoft Access 21
2.3 RAD Studio C++ Builder 2007 22
2.4 Statistica 6 24
2.5 Математические методы анализа данных 27
2.5.1 Метод главных компонент 27
2.5.2. Регрессионный анализ 28
2.5.3. Дискриминантный анализ 28
2.5.4. Корреляционный анализ 29
2.5.5 Кластерный анализ 29
3. ПРОЕКТИРОВАНИЕ 34
3.1 Анализ данных 34
3.2 Диаграммы IDEF 35
3.3 Проектирование с помощью CASE технологий. 45
3.4 Реализация 48
ЗАКЛЮЧЕНИЕ 49
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ 50
Окружающая среда - это все, что окружает человека и прямо или косвенно влияет на его состояние и функционирование (развитие, рост, выживаемость и др.) Окружающая среда включает в себя природную среду, возникшую на Земле вне зависимости от человека и унаследованную им от предшествующих поколений, и техногенную среду, то есть среду, созданную человеком. Элементы окружающей среды, воздействующие на живой организм, называются экологическими факторами. Экологический фактор - это любой элемент окружающей среды, способный оказывать прямое или косвенное влияние на живые организмы, хотя бы на протяжении одного из периодов их индивидуального развития. Любой организм в окружающей среде подвергается воздействию огромного числа экологических факторов, например колебаниям температуры, атмосферного давления, изменению физических и химических свойств атмосферы, влажности, радиоактивного фона и др. Положительное или отрицательное влияние экологических факторов на организм человека зависит прежде всего от силы и длительности его проявления. Как недостаточное, так и избыточное действие экологических факторов отрицательно сказывается на жизнедеятельности человека и повышает риск развития у него различных заболеваний. В этих случаях мы говорим об экологических факторах риска. Например, резкие суточные колебания температуры, атмосферного давления, магнитных полей ухудшают состояние больных сердечнососудистыми заболеваниями.
Сегодня уже окончательно ясно, что именно природные процессы задают нашему организму способность противостоять многочисленным экстремальным факторам. А социальная деятельность человека становится таким же мощным стрессирующим элементом, если ее ритмы не подчиняются биосферным и космическим колебаниям, и, особенно тогда, когда осуществляется массированная длительная попытка подчинить жизнедеятельность человека, его биологические часы, искусственноипридуманным социальным ритмам.
Человек – сложная целостная система, которая в свою очередь является компонентом более сложных систем – биологической и социальной. Закономерности физиологических процессов непосредственно влияют на социальную жизнь и, наоборот.
В наш век стрессовых перегрузок и серьезных нарушений в экологии здоровье выступает как ведущий фактор, который определяет не только гармоническое развитие человека, но и успешность освоения им профессии, эффективность профессиональной деятельности.
Существует большое количество факторов, снижающих уровень здоровья человека: перенесенные болезни, пристрастие к алкоголю и табакокурению, хроническое влияние неблагоприятных условий жизни и труда, нерациональное питание (как его недостаточность, так и изобилие и высокая калорийность), беспорядочный режим труда и отдыха, сна, частые эмоциональные напряжения, загрязнение воздуха, воды и пищи, злоупотребление лекарствами и бытовой химией.
Но не только социальная среда влияет на человеческий организм и на человека в целом. Влияние среды на организм обычно оценивают через отдельные экологические факторы.
Чаще всего факторы делят на три группы.
1. Факторы неживой природы (абиологические, или физико-химические). К ним относится климатические, атмосферные, почвенные (эдафические), геоморфологические (орографические), гидрологические и другие.
2. Факторы живой природы (биологические) – влияние одних организмов или их сообществ на другие. Эти влияния могут быть со стороны растений (фитогенные), животных (зоогенные), микроорганизмов, грибов и т.п.
3. Факторы человеческой деятельности (антропогенные). В их числе различают прямое влияние на местообитание (например, промысел) и косвенное – влияние на местообитание (например, загрязнение среды, уничтожение кормовых угодий, строительство плотин на реках и т.п.).
Интересна классификация факторов по периодичности и направленности действия, степени адаптации к ним организмов. В этом отношении выделяются факторы, действующие строго периодически (смены времени суток, сезонов года, приливно-отливные явления и т.п.), действующие без строгой периодичности, но повторяющиеся время от времени. Сюда относятся погодные явления, наводнения, ураганы, землетрясения и т.п.
В настоящее время на первый план проблем для здоровья населения выходят именно патологические расстройства, обусловленные несоответствием наших социальных преобразований законам природы. Эти расстройства, так называемые социопатии, влекут за собой психические расстройства, алкоголизм, наркоманию, рост сердечно-сосудистой, онкологической, иммунной патологии; увеличение женской патологии, туберкулеза, венерических болезней, числа самоубийств и убийств. А одним из главных механизмов развития социопатии оказывается нарастающая под действием социальных факторов дисгармония внутриорганизменных процессов с изменяющимися условиями природной среды. Этот механизм и есть неадекватная реакция дезориентированного дефектным социумом организма на метеорологические, климатические, геофизические, космические флюктуации.
Практически каждый из нас, дожив до определенного возраста, пережив очередной стресс или оправившись от болезни, вдруг начинает чувствовать зависимость своего состояния и настроения от изменяющихся факторов среды. При этом обычно делается вывод, что погода действует на здоровье. В то же время другие люди, обладающие недюжинным здоровьем, большой уверенностью в своих силах и возможностях, не представляют, как могут такие незначительные с их точки зрения факторы, как атмосферное давление, геомагнитные возмущения, гравитационные аномалии в Солнечной системе действовать на человека.
О высокой распространенности и значимости метеопатологии в настоящее время свидетельствуют и данные широкомасштабных исследований показателей смертности при изменениях различных метеорологических и геофизических характеристик погоды, проведенных в различных регионах земного шара.
Графически интегрированный показатель изменения адаптивной устойчивости организма после биологически значимого изменения геофизического, погодного, климатического, ритмологического или экологического фактора можно представить в виде кривой рис.1, на которой видно как сразу же после действия средового фактора за счет мобилизации внутренних резервов возникает заметный достоверный подъем уровня адаптивной устойчивости организма человека.
При этом высокий уровень функционирования жизнеобеспечивающих органов и систем сохраняется на протяжении двух-пяти суток в зависимости от экстремальности воздействовавшего фактора и от уровня резервных возможностей организма.
Рис 1- изменение адаптивной устойчивости организма здорового человека после действия экстремального фактора
Совершенно иная реакция на изменение геофизических и погодных факторов наблюдается у людей с истощенными адаптивными резервами. В эту группу входят больные, ослабленные и переутомленные люди. В дни, характеризующиеся резкими изменениями одного или нескольких геофизических условий, у них ухудшаются показатели энергетики, иммунной защиты, состояния сердечно-сосудистой, пищеварительной, выделительной систем, органов дыхания.
Замедляются реакции центральной нервной системы, снижается работоспособность. Организм начинает терять способность быстро перестраивать свои внутренние реакции применительно к новым, изменившимся условиям окружающей среды, что проявляется субъективным ощущением ухудшения самочувствия, появлением головной боли, одышки, гипертонических кризов и других, так называемых субъективных метеопатических, реакций.
На рис 2 интегрированный показатель изменения адаптивной устойчивости организма у больного после биологически значимого изменения геофизического, погодного, климатического, ритмологического или экологического фактора можно представить в виде кривой, на которой видно как сразу же после действия средового фактора за счет мобилизации внутренних резервов возникает незначительный краткосрочный (в течение 2-4 часов) подъем уровня адаптивной устойчивости, сменяющийся затем достоверным ее снижением.
Рис 2- изменение адаптивной устойчивости организмабольного человека после действия экстремального фактора
Опираясь на данные факты было решено провести исследования для выявления зависимостей между вариациями геокосмических агентов и психофизиологическим состоянием организма человека.
В данной работе материалом для исследования служили показатели психофизиологического состояния, так называемых, «обеспечиваемых», пожизненно находящихся в Государственном областном стационарном учреждении социального обслуживания системы социальной защиты населения (Апатитский психоневрологический интернат) и база солнечных и геофизических данных. В качестве показателей физиологического и психического состояния контингента, пребывающего в Интернате, были использованы такие характеристики, как частота смертности (усредненная по годам), частота ежесуточных эпилептических припадков, психомоторного возбуждения и состояния измененного сознания с 1984 по 2010 г.г. База солнечных и геофизических данных включала 28 параметров состояния межпланетной среды, а также индексов геомагнитной активности (http://omniweb.gsfc.nasa.gov/
Предварительные исследования по оценке связи между частотой эпилептических припадков, психомоторного возбуждения и состояния измененного сознания, усредненных по годам, выявили, что между частотой случаев измененного сознания, состоянием межпланетной среды и геомагнитной активностью (ГМА) имеются значимые корреляции ((p<0.05), таблица 1. При возрастании ГМА частота состояний измененного сознания – увеличивается. Косвенным образом на увеличение случаев психомоторного возбуждения при возрастании ГМА служат значимые отрицательные коэффициенты корреляции между частотой психомоторного возбуждения, Ву компонентой межпланетного магнитного поля и электрическим полем солнечного ветра, которые анти коррелируют с солнечной активностью (СА).
Таблица1.1
| Среднее значение межпланетного магнитного поля, nT | | Bz,GSE | By,GSM | Bz,GSM | Electric field | Kp*10-индекс ГМА | Числа Вольфа |
Эпилептические припадки | 0.08 | 0.25 | -0.20 | 0.29 | -0.27 | 0.08 | -0.08 |
Психомоторное возбуждение | 0.28 | 0.21 | -0.39 | 0.35 | -0.41 | 0.19 | 0.37 |
Состояние измененного сознания | 0.48 | 0.53 | -0.30 | 0.55 | -0.62 | 0.41 | 0.42 |
Коэффициенты, маркированные красным цветом, соответствуют уровню значимости p<0.05 |
Наряду с этими исследованиями, был проведен предварительный анализ связи между частотой смертей в Интернате и вариациями геокосмических агентов. Автокорреляционный анализ показал, в частоте случаев смертности выявляется периодичность, равная ≈ 6 годам рис.3. При этом, были выявлены значимые корреляции (p<0.05) выявлены между частотой смертей и плотностью протонов в околоземном пространстве (r=0.51), а также альвеновским числом Маха (r=0.52).
рис 3 анализ связи между частотой смертности и вариациями геокосмических агентов
Совместный ход кривых, отражающих смертность в Интернате, солнечную активность и корректированный нейтронный счет показаны на Рис. 1. Из этого рисунка следует, что частота смертей увеличивается на спаде солнечной активности при возрастании интенсивности космических лучей, который отражается значениями корректированного счета нейтронного монитора рис. 4.
Рис. 4- смертность в интернате (серая область), солнечная активность (пунктирная кривая), корректированный нейтронный счет (сплошная кривая).
Сглаженные по 5.5 точкам кривые частоты смертей и плотности протонов имеют коэффициенты корреляции 0.75 (p<0.05), рис. 5. Эти кривые показываю соответствие между вариациями космических лучей (КЛ) и частотой смертей в интернате: при возрастании интенсивности КЛ – смертность в интернате возрастает.
Рис. 5. Смертность (жирная кривая), плотность протонов (пунктирная линия), космические лучи (черная линия). Сглаженные по 5.5 точкам кривые. Коэффициент корреляции между плотностью протонов и смертностью 0.75(p<0.05).
Далее были проанализированы, значения вариаций геокосмических агентов для состояния периферической крови.
Клеточный состав периферической крови, наряду с рутинными показателями, такими, как общее содержание лейкоцитов, скорость оседания эритроцитов и содержание гемоглобина, наиболее адекватно отражают физиологическое состояние организма. Поэтому, по изменению клеточного состава крови можно судить о последствиях для функционального состояния организма воздействий геокосмических агентов. Особенно показательны, в этом отношении, Сег, Лимф и Мон, составляющие неразрывную и основную триаду иммунитета.
Альтернативный характер связи Сег и Мон, по отношению к Лимф, с индексами ГМА позволяет предположить, что вариации ГМА могут быть сопряжены с процессом гемопоэза высокоспециализированных клеток, таких как Лимф. Однако такое предположение требует доказательств на основе сопоставления характера связи клеточного состава крови, в том числе Лимф, с другими геокосмическими агентами. Поскольку СА порождает сложный комплекс явлений в МПС и на поверхности Земли, выраженных через вариации геокосмических агентов и ассоциированных не только с вариациями ГМП, но также и с вариациями нуклонной компоненты вторичных КЛ, детектируемых наземным нейтронным монитором, в данном разделе приведены результаты анализа зависимости отдельных показателей состояния периферической крови от вариаций глобальных, региональных и локальных компонент геокосмического комплекса.
Оценка усредненных показателей состояния периферической крови испытуемых за исследуемый период времени показала, что некоторые из них существенно отличались от нормативных величин, характерных для исследуемой возрастной группы (Фролькис, 1975), и колебались в значительных пределах. Общее число лейкоцитов изменялось в пределах 3х109– 13,7 х109 при норме 4-9 х109 в1л крови, причем у одних и тех же испытуемых резкое изменение содержания лейкоцитов происходило в течение суток (например, 24.10 – 5,8 х109/л, а 25.10 – 3,4 х109/л). В целом по выборке наблюдалось значительное варьирование значений числа лейкоцитов как между отдельными испытуемыми, так и в пределах исследуемого периода для каждого испытуемого. Возможно, такие колебания уровня лейкоцитов отражают эндогенную ритмику клеток крови, обнаруженную для гемоглобина и СОЭ с помощью коссинор-анализа. С другой стороны, функциональные лейкопении, наблюдаемые у испытуемых, могли бы отражать и климатогеографическое воздействие, поскольку показана также тенденция к лейкопеническим состояниям у людей в условиях полярного климата. В частности, обнаружено, что у детей в г. Мурманска содержание лейкоцитов в среднем на 1 х109-3 х109/л меньше, чем в средних широтах (Гершкович, Немзер, 1962).
Аномальные выбросы в динамике показателей крови отмечены, практически для всех форменных элементов крови, причем такие значения отражают лишь амплитуду колебаний показателей внутри рядов наблюдений. Средние же показатели по выборке в целом укладывались в возрастную норму, однако отмечаются и нетипичные сдвиги в формуле крови отдельных показателей за пределы нижних или верхних границ: палочкоядерные нейтрофилы (Пал) при норме 1-6%, имели среднее значение 0, 6219; лимфоциты (Лимф) при норме 18-40% - 41,6; скорость оседания эритроцитов (СОЭ), которая существенно варьировала в пределах 2-42 мм в час, при норме 2-10 мм/час, имела среднее значение на границе верхней нормы - 10,0. Кроме того, наблюдался выход в периферическую кровь плазматических клеток (Плазм), которые в исследуемой возрастной группе в норме должны отсутствовать. Отклонения в формуле крови со стороны иммунокомпетентных клеток в однородной выборке здоровых школьников, проживающих практически лишь при фоновых колебаниях естественной среды и в отсутствии промышленного воздействия, предполагает, что фоновые вариации геокосмических агентов в условиях высоких широт могут модулировать состояние иммунной системы.
Неоднозначный характер связи общего числа лейкоцитов с геоэффективными агентами можно объяснить неоднородным составом «белой» крови и тем, что сегментоядерные нейтрофилы и лимфоциты, входящие в состав лейкоцитов, имеют противоположный характер связи с геокосмическими агентами. В зависимости от преобладающего числа тех или иных клеток в составе лейкоцитов, знаки связи лейкоцитов с геокосмическими агентами должны меняться.
Таким образом, анализ функционального состояния периферической крови, неспецифической иммунорезистентности, численности микрофлоры кожных покровов и бактерицидной активности кожи показывает, что локальные вариации ГМА и интенсивность нуклонов у поверхности Земли, зависящие от СА, ММП, КЛ, являются основными геокосмическими агентами, модулирующими функциональное состояние организма и его иммунной системы.
Проведенный анализ показал, что возможные механизмы модуляции функционального состояния организма связаны с дозовым соотношением вариаций ГМП и нуклонной компоненты, а также модулирующего воздействия ММП, при которых возможны эффекты, обусловленные следующими причинами:
преобладающим действием нуклонной компоненты у поверхности Земли;
преобладающим действием электромагнитной компоненты ГМП;
альтернативной регуляцией вариаций ГМП и интенсивности нуклонной
компоненты КЛ;
аддитивным воздействием вариаций ГМП и нуклонной компоненты;
модулирующим воздействием секторной структуры ММП, смена знаков которой приводит к изменению спектрально-энергетических характеристик ГМП.
Эти явления отражены в значениях показателей функционального состояния периферической крови и неспецифической иммунорезистентности, которые также как ГМА и нуклоны составляют единый механизм регуляции функционального состояния организма.
При низких значения ГМА и значительной интенсивности нуклонной компоненты в периферической крови преобладают сегментоядерные нейтрофилы, содержание лимфоцитов при этом снижается; напротив, возрастание ГМА и снижение интенсивности нуклонной компоненты приводит к возрастанию лимфоцитов и снижению сегментоядерных нейтрофилов. Практически, вся мозаика возможных соотношений между показателями функционального состояния периферической крови и иммунорезистентности описывается дозовым соотношением воздействия вариаций ГМА и интенсивности нуклонной компоненты у поверхности Земли.
При дальнейшем исследовании, были выявлены факторы наиболее сильно влияющие на психофизиологическое состояние человека:
Солнечный ветер имеет бимодальный характер, это смесь медленного, спокойного и быстрого, скоростного потоков. Скоростной поток в свою очередь делится на квазистационарные и спорадические потоки, имеющие разную природу.
Спокойный солнечный ветер - постоянный поток солнечной плазмы над корональными стриммерами. Скорость спокойного солнечного ветра 300-500км/с, плотность 10-15 см-3.
Квазистационарные высокоскоростные потоки солнечной плазмы, ответственные за рекуррентные геомагнитные возмущения, наблюдаются над корональными дырами. Скорость здесь повышена до 700-1000 км/с, плотность понижена ( 3-4 см-3).
В минимуме солнечной активности эти два потока солнечного ветра пространственно разделены: стриммеры и спокойный поток СВ наблюдаются ближе к плоскости экватора, тогда как корональные дыры смещены к полюсам, выше 70o. Это видно по наблюдениям на КА ULISUS, орбита которого поднималась над плоскостью эклиптики.
Хотя корональные дыры в основном приполюсные, однако значимый вклад в магнитную активность вносят КД, вытянутые с полюса через экватор. Особенно велика их активность на спадающей ветви цикла.
Там, где скоростной поток догоняет медленный, образуется ударная волна, где плотность частиц и напряженность магнитного поля выше, чем в остальной части потока. Поскольку рекуррентные потоки высокоскоростного солнечного ветра существуют в течение нескольких 27-дневных оборотов Солнца, и поскольку может одновременно существовать 2- 4 потока, разнесенных по долготе, в солнечном ветре образуется т.н. секторная структура с несколькими фронтами, приход которых к Земле вызывает рекуррентные магнитные возмущения - серии суббурь или умеренные магнитные бури.
Спорадические высокоскоростные потоки - относительно кратковременные и сложные по структуре образования, ответственные за спорадические магнитосферные возмущения, в частности с ними связаны большие магнитные бури.
Космические лучи - поток заряженных частиц высокой энергии, преим. протонов, приходящих к Земле приблизительно изотропно со всех направлений космического пространства. Внутрь Солнечной системы КЛ попадают в основном из межзвёздного пространства от источников, расположенных в пределах нашей Галактики,- галактические КЛ (ГКЛ): самые энергичные частицы имеют, по-видимому, внегалактических происхождение - метагалактичсские КЛ; некоторая доля КЛ приходит от Солнца после мощных солнечных вспышек - солнечные КЛ (СКЛ). Названные КЛ являются первичными. При вхождении в атмосферу Земли, сталкиваясь с ядрами атомов воздуха, они образуют большое количество вторичных частиц (протонов, электронов, мезонов, фотонов и др.) - вторичные КЛ, которые затем регистрируются приборами на Земле.
КЛ напоминают сильно разреженный газ, частицы которого практически не сталкиваются друг с другом, по взаимодействуют с веществом и электромагнитными полями межзвёздного и межпланетного пространства. Ядра атомов различных элементов, входящие в состав КЛ, полностью лишены электронов и обладают огромными кинетическими энергиями (вплоть до 1020 эВ). Хотя суммарный поток первичных КЛ на границе с атмосферой Земли невелик (1 частица/см2*с), ср. плотность их энергии (1 эВ/см3) сравнима со ср. плотностью лучистой энергии звёзд в межзвёздной среде, энергии теплового движения межзвёздного газа и кинетической энергии его турбулентных движений, а также со ср. плотностью энергии магнитного поля Галактики.
Важная особенность КЛ - нетепловое происхождение их энергии. Действительно, при темп-ре 109 К, характерной, по-видимому, для звёздных недр, энергия теплового движения частиц не превышает 105 эВ. основная же масса частиц КЛ, наблюдаемых у Земли, имеет энергии от 108 эВ и выше. Это означает, что КЛ приобретают энергию в специфических астрофизических процессах электромагнитной и плазменной природы.
Необходимо разработать информационную систему анализа зависимостей между вариациями геокосмических агентов и психофизиологическим состоянием организма человека.
Для достижения этой цели были поставлены следующие задачи:
Исследование предметной области;
Размещение и вывод данных в удобном виде;
Разработка алгоритма распознавания психофизиологического состояния методом кластерного анализа;
Разработка клиентского приложения.
Для проектирования и разработки данного дипломного проекта, были использованы следующие программные продукты:
Унифицированный язык моделирования (Unified Modeling Language, UML) – это универсальный язык визуального моделирования систем. Хотя чаще всего UML ассоциируется с моделированием ОО программных систем, он имеет намного более широкое применение благодаря свойственной ему расширяемости. UML объединил лучшие современные технические приемы моделирования и разработки программного обеспечения. По сути, язык UML был задуман так, чтобы его можно было реализовать посредством его же инструментальных средств. Фактически это признание того, что
большие современные программные системы, как правило, нуждаются в инструментальной поддержке. UML диаграммы легко воспринимаются и при этом без труда генерируются компьютерами. Важно понимать, что UML не предлагает нам какой-либо методологии моделирования. Конечно, некоторые методические аспекты подразу меваются элементами, составляющими модель UML, но сам UML предоставляет собой лишь визуальный синтаксис, который можно использовать для создания моделей.
Основная идея UML – возможность моделировать программное обеспечение и другие системы как наборы взаимодействующих объектов. Это, конечно же, замечательно подходит для ОО программных систем и языков программирования, но также очень хорошо работает и для бизнес-процессов и других прикладных задач.
В UML_модели есть два аспекта:
• Статическая структура – описывает, какие типы объектов важны для моделирования системы и как они взаимосвязаны.
• Динамическое поведение – описывает жизненные циклы этих объектов и то, как они взаимодействуют друг с другом для обеспечения требуемой функциональности системы.
Эти два аспекта модели UML идут рука об руку, и ни один из них не является по настоящему полным без другого.
Объекты (и классы) будут подробно рассмотрены в главе 7. До тех пор будем считать, что объект единым целым блока данных и поведения. Иначе говоря, объекты содержат информацию и могут выполнять функции.
В UML существует четыре общих механизма, последовательно применяемых ко всему языку моделирования. Они описывают четыре стратегии подхода к моделированию объектов, которые в разных контекстах многократно применяются в UML. Это еще раз убеждает нас в простоте и элегантности структуры UML
Модели UML имеют, по крайней мере, два измерения: графическое, позволяющее визуализировать модель с помощью диаграмм и пиктограмм, и текстовое, состоящее из спецификаций различных элементов модели. Спецификации – это текстовые описания семантики элемента. Семантика элементов
модели фиксируется в спецификациях; без них можно только догадываться, что на самом деле представляет собой элемент.
Набор спецификаций – это суть модели. Спецификации формируют семантический задний план (semantic backplane), который объединяет модель и наполняет ее смыслом. Различные диаграммы – это просто представления или визуальные проекции этого плана.
Семантический задний план обычно сопровождается инструментом моделирования UML, предоставляющим доступ, просмотр и изменение спецификаций каждого элемента модели.
UML обеспечивает большую гибкость при создании моделей. В частности, модели могут быть:
• сокращенными – некоторые элементы присутствуют в заднем плане, но скрыты в той или иной диаграмме для упрощения представления;
• неполными – некоторые элементы модели могут быть полностью пропущены;
• несогласованными – модель может содержать противоречия.
Здесь важен сам факт ослабления требований к полноте и согласованности, поскольку, как вы заметите, со временем модель эволюционирует и неоднократно подвергается изменениям. Однако развитие всегда происходит по направлению к согласованным моделям, достаточно полным для создания программной системы.
Разработку моделей с помощью UML, как правило, начинают с графической модели, которая позволяет визуализировать систему, а затем по мере ее развития добавляют в задний план все больше и больше семантики. Однако модель можно считать полезной или полной, только если семантика модели присутствует в семантическом заднем плане. В противном случае модели не существует, есть просто бессмысленный набор блоков и пятен, соединенных линиями! Кстати, общую ошибку, совершаемую новичками в разработке моделей, можно назвать «смерть от диаграмм»: модель переполнена диаграммами, но недоопределена.
«Плюсы» UML
Возможность полно описать статическую структуру архитектуры
Изменчивость, возможность быстрого изменения архитектуры
Частичная реализация последовательностей и активностей
Использование UML не ограничивается моделированием программного обеспечения. Его также используют для моделирования бизнес-процессов, системного проектирования и отображения организационных структур.
UML позволяет также разработчикам программного обеспечения достигнуть соглашения в графических обозначениях для представления общих понятий (таких как класс, компонент, обобщение (generalization), объединение (aggregation) и поведение) и больше сконцентрироваться на проектировании и архитектуре.
Структуру диаграмм UML можно представить на диаграмме классов UML рис. 6.
Рис 6 -диаграмма классов
Диаграмма классов
Диаграмма классов (Class diagram) — статическая структурная диаграмма, описывающая структуру системы, она демонстрирует классы системы, их атрибуты, методы и зависимости между классами.
Существуют разные точки зрения на построение диаграмм классов в зависимости от целей их применения:
концептуальная точка зрения — диаграмма классов описывает модель предметной области, в ней присутствуют только классы прикладных объектов;
точка зрения спецификации — диаграмма классов применяется при проектировании информационных систем;
точка зрения реализации — диаграмма классов содержит классы, используемые непосредственно в программном коде (при использовании объектно-ориентированных языков программирования).
Диаграмма компонентов (Component diagram) — статическая структурная диаграмма, показывает разбиение программной системы на структурные компоненты и связи (зависимости) между компонентами. В качестве физических компонент могут выступать файлы, библиотеки, модули, исполняемые файлы, пакеты и т. п.
Диаграмма композитной/составной структуры (Composite structure diagram) — статическая структурная диаграмма, демонстрирует внутреннюю структуру классов и, по возможности, взаимодействие элементов (частей) внутренней структуры класса.
Подвидом диаграмм композитной структуры являются диаграммы кооперации (Collaboration diagram, введены в UML 2.0), которые показывают роли и взаимодействие классов в рамках кооперации. Кооперации удобны при моделировании шаблонов проектирования.
Диаграммы композитной структуры могут использоваться совместно с диаграммами классов.
Диаграмма развёртывания (Deployment diagram) — служит для моделирования работающих узлов (аппаратных средств, англ. node) и артефактов, развёрнутых на них. В UML 2 на узлах разворачиваются артефакты (англ. artifact), в то время как в UML 1 на узлах разворачивались компоненты. Между артефактом и логическим элементом (компонентом), который он реализует, устанавливается зависимость манифестации.
Диаграмма объектов (Object diagram) — демонстрирует полный или частичный снимок моделируемой системы в заданный момент времени. На диаграмме объектов отображаются экземпляры классов (объекты) системы с указанием текущих значений их атрибутов и связей между объектами.
Диаграмма пакетов (Package diagram) — структурная диаграмма, основным содержанием которой являются пакеты и отношения между ними. Жёсткого разделения между разными структурными диаграммами не проводится, поэтому данное название предлагается исключительно для удобства и не имеет семантического значения (пакеты и диаграммы пакетов могут присутствовать на других структурных диаграммах). Диаграммы пакетов служат, в первую очередь, для организации элементов в группы по какому-либо признаку с целью упрощения структуры и организации работы с моделью системы.
Диаграмма деятельности (Activity diagram) — диаграмма, на которой показано разложение некоторой деятельности на её составные части. Под деятельностью (англ. activity) понимается спецификация исполняемого поведения в виде координированного последовательного и параллельного выполнения подчинённых элементов — вложенных видов деятельности и отдельных действий (англ. action), соединённых между собой потоками, которые идут от выходов одного узла ко входам другого.
Диаграммы деятельности используются при моделировании бизнес-процессов, технологических процессов, последовательных и параллельных вычислений.
Аналогом диаграмм деятельности являются схемы алгоритмов по ГОСТ 19.701-90.
Диаграмма автомата (State Machine diagram, диаграмма конечного автомата, диаграмма состояний) — диаграмма, на которой представлен конечный автомат с простыми состояниями, переходами и композитными состояниями.
Конечный автомат (англ. State machine) — спецификация последовательности состояний, через которые проходит объект или взаимодействие в ответ на события своей жизни, а также ответные действия объекта на эти события. Конечный автомат прикреплён к исходному элементу (классу, кооперации или методу) и служит для определения поведения его экземпляров.
Диаграмма вариантов использования (Use case diagram) — диаграмма, на которой отражены отношения, существующие между акторами и вариантами использования.
Основная задача — представлять собой единое средство, дающее возможность заказчику, конечному пользователю и разработчику совместно обсуждать функциональность и поведение системы.
Диаграммы коммуникации и последовательности транзитивны, выражают взаимодействие, но показывают его различными способами и с достаточной степенью точности могут быть преобразованы одна в другую.
Диаграмма коммуникации (Communication diagram, в UML 1.x — диаграмма кооперации, collaboration diagram) — диаграмма, на которой изображаются взаимодействия между частями композитной структуры или ролями кооперации. В отличие от диаграммы последовательности, на диаграмме коммуникации явно указываются отношения между элементами (объектами), а время как отдельное измерение не используется (применяются порядковые номера вызовов).
Диаграмма последовательности (Sequence diagram) — диаграмма, на которой изображено упорядоченное во времени взаимодействие объектов. В частности, на ней изображаются участвующие во взаимодействии объекты и последовательность сообщений, которыми они обмениваются.
Диаграмма сотрудничества — Этот тип диаграмм позволяет описать взаимодействия объектов, абстрагируясь от последовательности передачи сообщений. На этом типе диаграмм в компактном виде отражаются все принимаемые и передаваемые сообщения конкретного объекта и типы этих сообщений.
По причине того, что диаграммы Sequence и Collaboration являются разными взглядами на одни и те же процессы, Rational Rose позволяет создавать из Sequence диаграммы диаграмму Collaboration и наоборот, а также производит автоматическую синхронизацию этих диаграмм.
Диаграмма обзора взаимодействия (Interaction overview diagram) — разновидность диаграммы деятельности, включающая фрагменты диаграммы последовательности и конструкции потока управления.
Этот тип диаграмм включает в себя диаграммы Sequence diagram (диаграммы последовательностей действий) и Collaboration diagram (диаграммы сотрудничества). Эти диаграммы позволяют с разных точек зрения рассмотреть взаимодействие объектов в создаваемой системе.
Диаграмма синхронизации (Timing diagram) — альтернативное представление диаграммы последовательности, явным образом показывающее изменения состояния на линии жизни с заданной шкалой времени. Может быть полезна в приложениях реального времени.
MS Access в настоящее время является одной из самых популярных среди настольных программных систем управления базами данных. Среди причин такой популярности следует отметить:
Глубоко развитые возможности интеграции с другими программными продуктами, входящими в состав MS Office, а также с любыми программными продуктами, поддерживающими технологию OLE.
Богатый набор визуальных средств разработки.
MS Access- высокопроизводительная (32-разрядная) система управления реляционными базами данных архитектуры клиент-сервер, работающих под управлением операционных систем семейства Windows. Эта система доступна для пользователя любого уровня.
MS Access работает с объектами, к которым относятся таблицы, запросы, формы, отчеты, макросы и модули. Все связанные между собой объекты организованы в один файл, называемый базой данных.
Microsoft Access - это функционально полная реляционная СУБД. В ней предусмотрены все необходимые вам средства для определения и обработки данных, а также для управления ими при работе с большими объемами информации. Что касается легкости использования, то Microsoft Access совершил здесь настоящий переворот, и многие для создания своих собственных баз данных и приложений обращаются именно к нему.
Система управления базами данных предоставляет вам возможность контролировать задание структуры и описание своих данных, работу с ними и организацию коллективного пользования этой информацией. СУБД также существенно увеличивает возможности и облегчает каталогизацию и ведение больших объемов хранящейся в многочисленных таблицах информации. СУБД включает в себя три основных типа функций: определение (задание структуры и описание) данных, обработка данных и управление данными. Все эти функциональные возможности в полной мере реализованы в Microsoft Access. В практике, как правило, необходимо решать и задачи с использованием электронных таблиц и текстовых процессоров. Например, после подсчета или анализа данных необходимо их представить в виде определенной формы или шаблоны. В итоге пользователю приходится комбинировать программные продукты для получения необходимого результата. В этом смысле все существенно упростят возможности, предоставляемые Microsoft Access.
C++ Builder 2007 — интегрированное средство RAD-разработки приложений на C++ для платформы Microsoft Windows.
Новая версия продукта C++ Builder 2007 сочетает поддержку операционной системы Windows Vista и технологий Web 2.0 с самыми последними стандартами: значительно выросшей производительностью, интегрированными функциями проверки и множеством сочетаний клавиш, позволяющих экономить время и значительно упрощать выполнение типовых задач.
Разработчики теперь смогут реализовывать поддержку новой ОС от Microsoft в существующих продуктах, а также создавать приложения, пользователи которых по достоинству оценят преимущества новых пользовательских интерфейсов Vista Aero.
Производительность продукта возросла в пять раз по сравнению с предыдущими версиями. Вниманию разработчиков предложены дополнительные возможности визуализации программного кода и интегрированные средства модульного тестирования кода на C++.
Новые возможности C++Builder 2007
• Разработка веб-приложений: библиотеки визуальных компонентов
• Библиотека визуальных компонентов (VCL) для веб — WYSIWYG-разработка веб-приложений с поддержкой AJAX, с использованием отдельных исполняемых файлов, ISAPI для IIS или DSO для Apache, включая поддержку SSL
• Библиотека визуальных компонентов (VCL) для веб — режим приложений для изолированных серверов, имеющих до пяти подключений
• Оперативное обновление благодаря технологии установщика InstallAware.
• Автоматическая проверка обновлений, выполняемая IDE
• Гибкая система сборки с использованием MSBuild
• Идентичные процессы сборки с помощью среды разработки и командной строки с использованием MSBuild
• Виртуальные папки для логической организации файлов проектов
• Именованные наборы параметров для сохранения конфигураций сборок и их применения к любому проекту
• Возможность выбора нескольких файлов в окне Project Manager
• Средство просмотра файлов File Browser для просмотра файлов на диске и взаимодействия с оболочкой Windows непосредственно в среде IDE
• Визуализация кода UML Together
• Полнофункциональный отладчик Win32 с цветовым выделением синтаксиса
• Интегрированное тестирование элементов
Функциональные возможности C++Builder 2007
• Библиотека визуальных компонентов для веб-приложений VCL позволяет в визуальном режиме быстро создавать интерактивные, управляемые данными веб-страницы с поддержкой технологии AJAX
• В визуальные объекты уже встроены технологии низкого уровня, благодаря чему не требуется знание HTML, JavaSprint, CSS или HTTP
• Новая архитектура DBX4 упрощает соединение с базами данных и поддерживает самые последние версии SQL
• Библиотека сокетов на основе открытого кода, обновлена до набора интернет-протоколов Indy версии10
• Встроенная поддержка технологии тестирования DUnit для C++ делает возможным стандартизированное тестирование элем6нтов и повышает стабильность приложений
• Поддержка самых последних стандартов и улучшенная совместимость с ANSI C++ Dinkumware и библиотекой Boost
• Разработка в Windows 2000, XP и Vista и развертывание в средах Windows 2000, XP и Vista
• MSBuild и файлы проекта в формате HML позволяют упростить сложные процессы сборки следует указать элементы, необходимые для сборки и способ сборки для различных платформ и конфигураций
• Создание правил сборки с возможностью многократного использования для согласования производительности на всех этапах проекта
• Визуализация исходного кода UML C++ позволяет упростить планирование и разработку приложений
• Повышение производительности сборки, выполняемой в среде IDE, в 5 раз теперь также быстро или даже быстрее, чем сборка из командной строки
• Усовершенствованный интерфейс отладчика с сочетаниями клавиш быстрого вызова, позволяющими экономить время
• Визуальное представление кода с помощью представления стека вызовов и синхронизации между представлением стека вызова и представлением локальных переменных
• Экономия времени благодаря организации файлов проектов в среде разработки с помощью виртуальных папок
• Шаблоны Live Templates способствуют ускорению набора кода за счет его шаблонной вставки
• Мастеры позволяют быстро создавать процедуры проверки элементов для существующих библиотек кодов
• Для поддержки новой инфраструктуры базы данных не требуется перерабатывать имеющийся код
Statistica - это современный пакет статистического анализа, в котором реализованы все новейшие компьютерные и математические методы анализа данных. Программа предназначена для всех отраслей промышленности (бизнес, наука, обучение). В ней реализовано все возможные функции для статистической обработки данных, плюс к этому возможность построения графиков, базы данных и т.д. В программу встроен STATISTICA Visual Basic, что добавляет еще около 10000 новых функций. Синтаксис этого Basic'а полностью совместим с Microsoft Visual Basic.
Возможности программы:
STATISTICA - это система статистического анализа данных, включающая широкий набор аналитических процедур и методов:
более 100 различных типов графиков,
описательные и внутригрупповые статистики,
быстрые основные статистики и блоковые статистики,
множественная регрессия,
непараметрические статистики,
разведочный анализ данных, корреляции,
общая модель дисперсионного и ковариационного анализа,
интерактивный вероятностный калькулятор,
T-критерии (и другие критерии групповых различий),
таблицы частот, сопряженности, флагов и заголовков,
анализ многомерных откликов,
подгонка распределений и многое другое.
Продукты серии STATISTICA основаны на самых современных технологиях, целиком и полностью соответствуют завершительным приобретениям в области IT, позволяют решать любые задачи в области анализа и отделки данных, совершенно подходят для решения полезных задач в маркетинге, финансах. Страховании, экономике, бизнесе. Промышленности, медицине и тд.
STATISTICA Base предлагает широкий набор методов для разведочного анализа:
Описательные статистики и графики. Программа вычисляет практически все используемые описательные статистики общего характера: медиану, моду, квартили, заданные пользователем процентили, среднее значение и стандартное отклонение, квартильный размах, доверительные интервалы для среднего, асимметрию и эксцесс (и их стандартные ошибки), гармоническое и геометрическое среднее, а также многие специальные описательные статистики. Как и во всех других модулях системы STATISTICA, в разведочном анализе данных доступны разнообразные графики и диаграммы, в т.ч. различные виды диаграмм размаха и гистограмм, гистограммы двумерных распределений (трехмерные и категоризованные), двух- и трехмерные диаграммы рассеяния с помеченными подмножествами данных, нормальные и полунормальные вероятностные графики и графики с исключенным трендом, К-К и В-В графики и т.д. Имеется набор критериев для подгонки нормального распределения к данным (критерии Колмогорова-Смирнова, Лилиефорса и Шапиро-Уилкса)
В системе имеется большой набор методов для исследования корреляций между переменными. Прежде всего, могут быть вычислены все основные характеристики связи между переменными, в том числе: коэффициент корреляции Пирсона r, коэффициент ранговой корреляции Спирмена R, тау (b, c) Кендалла, Гамма, тетрахорический r, Фи, V Крамера, коэффициент сопряженности C, D Соммера, коэффициенты неопределенности, частные и получастные корреляции, автокорреляции, различные меры расхождения и т.д. Корреляционные матрицы могут быть вычислены с построчным, попарным удалением пропусков или с подстановкой среднего вместо пропущенных значений. Как и во всех других модулях системы STATISTICA, для достижения высокой - не имеющей аналогов среди других пакетов - точности результатов здесь можно производить вычисления с повышенной точностью (где требуется - с "учетверенной"). Как и все численные результаты, корреляционные матрицы в системе STATISTICA выводятся в виде таблиц, имеющих богатые возможности форматирования данных (см. ниже) и визуализации численных результатов; так, можно "указать" на конкретный корреляционный коэффициент и вызвать для него контекстное меню всевозможных "описательных диаграмм" (диаграммы рассеяния с доверительными интервалами, различные объемные гистограммы двумерных распределений, вероятностные графики и т.д.). Богатые средства закрашивания позволяют выделять (или, наоборот, затенять) отдельные точки на диаграмме рассеяния и таким образом оценивать их влияние на положение линии регрессии (и других подогнанных кривых). Таким образом исследуются, например, выбросы или резко выделяющиеся наблюдения. Поддерживаются разнообразные форматы глобального вывода корреляций; значимые коэффициенты корреляции могут автоматически выделяться цветом, каждую ячейку таблицы результатов можно расширить и посмотреть число n наблюдений, по которым вычислен коэффициент и уровень значимости p, можно запросить подробные результаты, включающие все описательные статистики (попарные средние и стандартные отклонения, B-веса, пересечения, и т.д.)
Из любой панели инструментов системы STATISTICA доступен удобный интерактивный Калькулятор вероятностных распределений. Он поддерживает множество типов стандартных распределений (бета, Коши, хи-квадрат, экспоненциальное, экстремальное (Гумбеля), F, гамма, Лапласа, логнормальное, логистическое, Парето, Релея, t (Стьюдента), Вейбулла и Z (нормальное)). Графики (плотности вероятности и функции распределения) отображаются в интерактивном режиме, что позволяет наглядно представить себе то или иное распределение, изменяя его с помощью кнопок микропрокрутки (при нажатии левой кнопки мыши изменится последняя, а при нажатии правой - предпоследняя значащая цифра числа). Имеется возможность строить составные графики распределений в нужном диапазоне. Таким образом, калькулятор дает возможность интерактивно исследовать структуру распределений (например, зависимость вероятности от параметров).
Метод главных компонент- один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном в 1901 г. Применяется во многих областях, таких как распознавание образов, компьютерное зрение, сжатие данных и т. п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных. Иногда метод главных компонент называют преобразованием Кархунена-Лоэва или преобразованием Хотеллинга. Другие способы уменьшения размерности данных — это метод независимых компонент, многомерное шкалирование, а также многочисленные нелинейные обобщения: метод главных кривых и многообразий, метод упругих карт, поиск наилучшей проекции, нейросетевые методы «узкого горла», самоорганизующиеся карты Кохонена и др.
Задача анализа главных компонент, имеет, как минимум, четыре базовых версии:
аппроксимировать данные линейными многообразиями меньшей размерности;
найти подпространства меньшей размерности, в ортогональной проекции на которые разброс данных (то есть среднеквадратичное отклонение от среднего значения) максимален;
найти подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичное расстояние между точками максимально;
для данной многомерной случайной величины построить такое ортогональное преобразование координат, что в результате корреляции между отдельными координатами обратятся в ноль.
Первые три версии оперируют конечными множествами данных. Они эквивалентны и не используют никакой гипотезы о статистическом порождении данных. Четвёртая версия оперирует случайными величинами. Конечные множества появляются здесь как выборки из данного распределения, а решение трёх первых задач — как приближение к «истинному» преобразованию Кархунена-Лоэва. При этом возникает дополнительный и не вполне тривиальный вопрос о точности этого приближения.
Основной целью регрессионного анализа является определение наличия и характера связи между переменными (в простейшем случае строится зависимость y(x) исходя из примерной формы кривой).
Несколько лет назад американский Институт стратегического планирования провел исследование «Маркетинговая стратегия и уровень прибыли», в котором рассматривалось влияние наиболее значимых переменных на уровень прибыли компании. Выяснилось, что график зависимости рентабельности от доли рынка выглядит следующим образом рис 7.
Рис. 7- график зависимости рентабельности от доли рынка
Невооруженным взглядом видно, что это прямая, однако точные ее параметры помогает установить регрессионный анализ.
Регрессионный анализ широко используется в офисном пакете Excel, который предоставляет возможность исследовать не только линейные, но и другие, более сложные зависимости (в Excel это называется построением линий трендов).
Дискриминантный анализ – это инструмент статистики, который используется для принятия решения о том, какие переменные разделяют возникающие наборы данных. Например, некий исследователь в области образования решает исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: (1) поступающий в колледж, (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы: пол, возраст, успеваемость, материальное положение семьи и т. д.
После выпуска большинство учащихся должно попасть в одну из названных категорий. Затем можно использовать дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути. Например, можно математически определить, что учащиеся с низкой успеваемостью и низким достатком в семье скорее всех попадают в 3-ю категорию.
Корреляционный анализ позволяет судить о том, насколько похоже ведут себя разные переменные. В самом общем виде принятие гипотезы о наличии корреляции означает, что изменение значения переменной А произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут, то корреляция положительная; если одна переменная растет, а вторая уменьшается – корреляция отрицательная. При изучении корреляций стараются установить, существует ли какая-то связь между двумя показателями в одной выборке (например, между ростом и весом детей или между уровнем IQ и школьной успеваемостью) либо между двумя различными выборками (например, при сравнении пар близнецов), и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого.
Кластерный анализ- задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя. Кластерный анализ - это многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры)(Q-кластеризация, или Q-техника, собственно кластерный анализ). Кластер — группа элементов, характеризуемых общим свойством, главная цель кластерного анализа — нахождение групп схожих объектов в выборке. Спектр применений кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии и других дисциплинах. «Тематика исследований варьирует от анализа морфологии мумифицированных грызунов в Новой Гвинее до изучения результатов голосования сенаторов США, от анализа поведенческих функций замороженных тараканов при их размораживании до исследования географического распределения некоторых видов лишая в Саскачеване». Однако универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа:
Кластерный анализ выполняет следующие основные задачи:
Разработка типологии или классификации.
Исследование полезных концептуальных схем группирования объектов.
Порождение гипотез на основе исследования данных.
Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных .
Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы: отбор выборки для кластеризации, определение множества переменных, по которым будут оцениваться объекты в выборке вычисление значений той или иной меры сходства между объектами применение метода кластерного анализа для создания групп сходных объектов проверка достоверности результатов кластерного решения.
Кластерный анализ предъявляет следующие требования к данным: во-первых, показатели не должны коррелировать между собой; во-вторых, показатели должны быть безразмерными; в-третьих, их распределение должно быть близко к нормальному; в-четвёртых, показатели должны отвечать требованию «устойчивости», под которой понимается отсутствие влияния на их значения случайных факторов; в-пятых, выборка должна быть однородна, не содержать «выбросов» . Если кластерному анализу предшествует факторный анализ, то выборка не нуждается в «ремонте» — изложенные требования выполняются автоматически самой процедурой факторного моделирования (есть ещё одно достоинство — z-стандартизация без негативных последствий для выборки; если её проводить непосредственно для кластерного анализа, она может повлечь за собой уменьшение чёткости разделения групп). В противном случае выборку нужно корректировать.
При анализе результатов социологических исследований рекомендуется осуществлять анализ методами иерархического агломеративного семейства, а именно методом Уорда, при котором внутри кластеров оптимизируется минимальная дисперсия, в итоге создаются кластеры приблизительно равных размеров. Метод Уорда наиболее удачен для анализа социологических данных. В качестве меры различия лучше квадратичное евклидово расстояние, которое способствует увеличению контрастности кластеров . Главным итогом иерархического кластерного анализа является дендрограмма или «сосульчатая диаграмма». При её интерпретации исследователи сталкиваются с проблемой того же рода, что и толкование результатов факторного анализа — отсутствием однозначных критериев выделения кластеров. В качестве главных рекомендуется использовать два способа — визуальный анализ дендрограммы и сравнение результатов кластеризации, выполненной различными методами. Визуальный анализ дендрограммы предполагает «обрезание» дерева на оптимальном уровне сходства элементов выборки.
Теперь возникает вопрос устойчивости принятого кластерного решения. По сути, проверка устойчивости кластеризации сводится к проверке её достоверности. Здесь существует эмпирическое правило — устойчивая типология сохраняется при изменении методов кластеризации. Результаты иерархического кластерного анализа можно проверять итеративным кластерным анализом по методу k-средних. Если сравниваемые классификации групп респондентов имеют долю совпадений более 70 % (более 2/3 совпадений), то кластерное решение принимается.
Проверить адекватность решения, не прибегая к помощи другого вида анализа, нельзя. По крайней мере, в теоретическом плане эта проблема не решена. В классической работе Олдендерфера и Блэшфилда «Кластерный анализ» подробно рассматриваются и в итоге отвергаются дополнительные пять методов проверки устойчивости: 1) кофенетическая корреляция- не рекомендуется и ограниченна в использовании; 2) тесты значимости (дисперсионный анализ) - всегда дают значимый результат; 3) методика повторных (случайных) выборок, что, тем не менее, не доказывает обоснованность решения; 4) тесты значимости для внешних признаков пригодны только для повторных измерений; 5) методы Монте-Карло очень сложны и доступны только опытным математикам.
Методы кластеризации:
K-средних (K-means)
Графовые алгоритмы кластеризации
Статистические алгоритмы кластеризации
Алгоритмы семейства FOREL
Иерархическая кластеризация или таксономия
Нейронная сеть Кохонена
Ансамбль кластеризаторов
Алгоритмы семейства КRAB
EM-алгоритм
Алгоритм, основанный на методе просеивания
Меры для кластерного анализа могут быть следующих видов:
Мера типа расстояния (функция расстояния), называемая также мерой различия. В этом случае объекты считаются тем более похожими, чем меньше расстояние между ними, поэтому некоторые авторы называют меры сходства типа расстояния мерами различия;
Мера типа корреляции, называемая связью, определяющая похожесть объектов (мера сходства). В этом случае объекты считаются тем более похожими, чем больше связь межу ними. Меры посредством элементарных преобразований могут быть сведены к мерам различия.
Меры различия, в зависимости от принадлежности той или иной шкале измерения описывающих объекты параметров:
1. Для количественных признаков:
Евклидово расстояние
Манхеттенское расстояние;
Супремум-норма;
Расстояние Махаланобиса;
Расстояние Пирсона;
2. Для порядковых или количественных признаков:
Расстояние Спирмэна;
Расстояние Кендела;
3. Для номинальных признаков:
Расстояние Жаккара;
Расстояние Рассела-Рао;
Расстояние Бравайса;
Расстояние Юла.
Рассмотренными мерами могут оперировать различные методы кластерного анализа.
Расстояние Пирсона.
Коэффициент корреляционного отношения Пирсона (коэффициент корреляции, выборочный коэффициент корреляции, коэффициент корреляции Бравайса-Пирсона) измеряет силу линейной корреляционной связи количественных признаков. Коэффициент корреляции вычисляется по известной формуле
где n- численность каждой выборки,
, = 1,2…,n – первая выборка, – соответствующее среднее значение,
, = 1,2…,n – первая выборка, – соответствующее среднее значение.
Использование коэффициента корреляции в качестве меры связи оправдано лишь тогда, когда совместное распределение пары признаков нормально или приблизительно нормально.
Расстояние Пирсона как мера сходства, может быть получено из рассмотренного коэффициента путем вычитания последнего из единицы.
Для данной работы данные по психофизиологическому состоянию человека были предоставлены отделом медико-биологических проблем адаптации человека в Арктике КНЦ РАН. А база солнечных и геофизических данных была взята с (http://omniweb.gsfc.nasa.gov/
Все данные были представлены в документах формата xls. На рис. 8 представлен фрагмент файла с данными по параметрам геокосмических агентов.
Рис 8 -фрагмент файла с данными
Для анализа этих данных и поиска зависимости между ними была использована программа Statistica.
Данные были проанализированы несколькими методами:
Канонический анализ;
Дискриминантный анализ;
Кластерный анализ;
Факторный анализ;
Анализ распределенных лагов.
После анализа данных был выбран метод (кластерный анализ), который, по моему мнению, показывает более четкую зависимость между вариациями геокосмических агентов и психофизиологическим состоянием человека.
На рис 9 представлена диаграмма функционирования системы.
Рис 9- диаграмма функционирования системы
Система получает данные от различных измерительных приборов из базы данных и от пользователей. На выходе система прогнозирует возможное количество приступов, может построить графики и таблица по различным параметрам.
Далее на рис 10 представлена декомпозиция блока А0.
рис 10- декомпозиция блока А0
Рассмотрим декомпозицию каждого блока.
А1- обработчик данных: В этот блок на вход передаются данные с измерительных приборов. Измерения собираются на сайте http://omniweb.gsfc.nasa.gov. В дальнейшем они передаются в нашу систему и из них делается нужная нам выборка. После этого они структурируются и записываются в базу данных. Также пользователь может добавить измерения и количество приступов вручную.
А2- БД: Данный блок работает с базой данных, которая представлена средствами Microsoft Acсess. Она состоит из трех таблиц: param, pristup и data.
В таблице param содержатся все значения измерений которые использует система.
Таблица 3.1
Описание структуры таблицы param
Название | Тип | Размер | Описание |
ID_P | Числовой | 1 | Код параметра |
nazvanie | Текстовый | 15 | Название параметра |
opisanie | Текстовый | 50 | Описание параметра |
edinici | Текстовый | 10 | Единицы измерения |
В таблице pristup содержатся даты и количество приступов.
Таблица 3.2
Описание структуры таблицы pristup
Название | Тип | Размер | Описание |
ID_D | Числовой | 1 | Код даты |
God | Числовой | 10 | Год записи |
Den | Числовой | 10 | День записи |
znachenie | Числовой | 10 | Количество приступов за день |
В таблице data содержатся даты и значения параметров.
Таблица 3.3
Описание структуры таблицы data
Название | Тип | Размер | Описание |
ID_D | Числовой | 1 | Код даты |
ID_P | Числовой | 1 | Код параметра |
znachenie | Числовой | 10 | Значение параметра |
На рис 11 представлена инфологическая модель схемы данных.
Рис 11- схема базы данных
Данная база данных соединяется со средой RAD Studio C++ Builder 2007 с помощью компонентов ADO: ADOConection, ADOTable, ADOQuery.
Пример функции добавления данных в базу.
int p, g, d;
ADOTable4->First(); ADOTable1->First(); ADOTable2->First();ADOTable3->
for(int i=0; i<ADOTable4->RecordCount; i++)
{ p=ADOTable4->Fields->Fields[0]
d=ADOTable4->Fields->Fields[2]
ADOTable1->First();
for(int j=0;j<ADOTable1->RecordCount; j++){
if((g==ADOTable1->Fields->
{ADOTable2->Insert();
ADOTable2->Fields->Fields[0]->
ADOTable2->Fields->Fields[1]->
ADOTable2->Fields->Fields[2]->
break;
} ADOTable1->Next();}
ADOTable4->Next(); ADOTable2->Next();
} ADOTable4->First(); ADOTable1->First(); ADOTable3->Next();
for(int i=0; i<ADOTable4->RecordCount; i++) {
p=ADOTable4->Fields->Fields[0]
g=ADOTable4->Fields->Fields[1]
d=ADOTable4->Fields->Fields[2]
ADOTable1->First();
for(int j=0;j<ADOTable1->RecordCount; j++){
if((g==ADOTable1->Fields->
{ADOTable2->Insert();
ADOTable2->Fields->Fields[0]->
ADOTable2->Fields->Fields[1]->
ADOTable2->Fields->Fields[2]->
ADOTable2->Post();
break;
} ADOTable1->Next();} ADOTable4->Next(); ADOTable2->Next(); }
А3- обработчик запроса: В данном блоке происходит обработка данных и запросов которые вводит пользователь. Если пользователь хочет построить график или вывести данные в таблицу, то система обрабатывает введенные данные и формирует специальный SQL запрос к базе данных. Если пользователь хочет спрогнозировать количество приступов, то система записывает все введенные данные и передает их дальше для расчета.
A4- расчет параметров. В данном блоки происходит прогнозирование количества приступов. Для этого используется метод кластерного анализа. После статистического анализа данных был выбран метод кластерного анализа «Метод средней связи Кинга», а для построения матрицы мер использовался коэффициент корреляции Пирсона. На рис 12 представлен унифицированный алгоритм кластерного анализа данных.
Рис 12- унифицированный алгоритм кластерного анализа
На рис 13 представлен полный алгоритм кластерного анализа.
Рис 13- алгоритм кластерного анализа
Рассмотрим функцию кластерного анализа для метода средней связи Кинга
short __stdcall King (double data[],short n,short k,short Mode,short ph[],short pl[],double s[])
{short i,j,l, // Счетчик
int m,m1, r; Code = 0; double *z,*dat, // Рабочая матрица
*t; // Матрица, обратная дисперсионно-ковариационной
if ((t = new double[k * k]) == 0)
return -1;
// Построение обратной дисперсионно-ковариационной
if ((dat = new double[n * k]) == 0)
{ delete [] t; return -1; }
// Копия исходного массива данных
ArrayToArray (data,dat,n * k);
// Основной цикл
for (l = 0, r = n; l < n - 1; l++, r--)
{ if ((z = new double[r * r]) == 0)
{ delete [] t; delete [] dat; return -1; }
// Построение матрицы сходства
if ((Code = LikenessMatrix (dat,z,t,r,k,Mode)) != 0)
{ delete [] t; delete [] z; delete [] dat; return Code; }
// Поиск двух наиболее похожих объектов путем анализа нижнего треугольника матрицы сходства
for (i = 0; i < r; i++)
for (j = i + 1, m = i * r + i + 1; j < r; j++, m++)
if (m == 1 || z[m] < s[l])
{ ph[l] = i; pl[l] = j; s[l] = z[m]; } delete [] z;
if ((z = new double[r * k]) == 0)
{ delete [] t; delete [] dat; return -1; }
// Копия исходного массива данных
ArrayToArray (dat,z,r * k); delete [] dat; dat = new double[(r - 1) * k];
// Центр тяжести нового кластера на месте ph[l]
for (j = 0, m1 = ph[l], m = pl[l]; j < k; j++, m1 += r, m += r)
z[m1] = (z[m1] + z[m]) / 2;
// Сдвинуть строки на место pl[l] и далее
for (i = pl[l]; i < r - 1; i++)
for (j = 0, m = i; j < k; j++, m += r)
z[m] = z[m + 1];
// Копия уменьшенного массива
for (i = 0; i < r - 1; i++)
for (j = 0, m = i, m1 = i; j < k; j++, m += r - 1, m1 += r)
dat[m] = z[m1]; delete [] z; } delete [] t; delete [] dat; return Code;}
Для анализа данных методом средней связи Кинга, сначала строится матрица мер.
short LikenessMatrix (double data[],double z[],double s[],short n,short k,short Mode)
{ short i,j,l,m,m1,m2; // Счетчики
double *dat1,*dat2,
if ((dat1 = new double[k]) == 0) return -1;
if ((dat2 = new double[k]) == 0)
{ delete [] dat1; return -1; }
// Построение матрицы сходства
for (i = 0, m2 = 0; i < n; i++)
for (j = 0; j < n; j++)
{ for (l = 0, m = i; l < k; l++, m += n)
dat1[l] = data[m];
for (l = 0, m1 = j; l < k; l++, m1 += n)
dat2[l] = data[m1];
z[m2++] = 1 - Pearson (dat1,dat2,n); } delete [] dat1; delete [] dat2;
return 0;}
Чтобы построить матрицу мер будем использовать коэффициент корреляции Пирсона.
Линейный корреляционный анализ позволяет установить прямые связи между переменными величинами по их абсолютным значениям. Формула расчета коэффициента корреляции построена таким образом, что если связь между признаками имеет линейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициентом линейной корреляции Пирсона.
В общем виде формула для подсчета коэффициента корреляции такова:
Где – значение переменой X,
– значение, принемаемые переменной Y,
- средняя по X,
- средняя по Y.
double Pearson (double x[],double y[],short n)
{ double s = Cov (x,x,n) * Cov (y,y,n); // Вспомогательная переменная
if (s == 0) return 0;
else return Cov (x,y,n) / sqrt (s);}
Для его расчета требуется посчитать ковариацию.
double Cov (double x[],double y[],short n)
{ double xm = VectorSum (x,n) / n, // Среднее значение x
ym = VectorSum (y,n) / n, // Среднее значение y
s = 0; // Вспомогательная переменная
for (short i = 0; i < n; i++)
s += (x[i] - xm) * (y[i] - ym);
return s / (n - 1);}
Чтобы спрогнозировать количество приступов, мы добавляем строчку с новыми данными к имеющемуся массиву данных и смотрим к какому кластеру отнесется эта строка, и записываем среднее значение по количеству приступов в кластере.
А5- вывод данных. В этом блоки реализованы алгоритмы для вывода данных в различных формах. Здесь строятся графии и таблицы по параметрам интересующим пользователя.
Описание функционального назначения программного комплекса представлено с помощью диаграмм CASE- средства Star UML.
На рис 14. представлена диаграмма вариантов использования. Этот вид диаграмм позволяет создать список операций, которые выполняет система. Часто этот вид диаграмм называют диаграммой функций, потому что на основе набора таких диаграмм создается список требований к системе и определяется множество выполняемых системой функций.
Диаграмма вариантов использования состоит из актеров, для которых система производит действие, и собственно действие Use Case, которое описывает то, что актер хочет получить от системы. Актер обозначается значком человечка, а Use Case - овалом.
Каждая такая диаграмма или, как ее обычно называют, каждый Use case – это описание сценария поведения, которому следуют действующие лица (Actors).
Данный тип диаграмм используется при описании процессов автоматизируемой предметной области, определении требований к будущей программной системе. Отражает объекты, как системы, так и предметной области и задачи, ими выполняемые.
В нашем случае на диаграмме отображены два действующих лица:
Пользователь – специальное приложение, которое установлено на машине, с помощью которого пользователь работает с системой.
Поставщик данных- машина которая собирает данные со всех приборов.
На диаграмме присутствует полное отображение всех выполняемых действующими лицами операций, связи и взаимодействия между ними.
Рис 14- диаграмма вариантов использования
На рис 15. представлена диаграмма последовательности действий. Данная диаграмма отражает весь путь, который проходят данные, начиная от своего формирования (ввода данных клиентом) и заканчивая размещением в базе данных и предоставлением в удобочитаемом виде.
Рис 15- диаграмма последовательности действий
Таблица 3.4
Описание действий
Класс | Отправляемое сообщение | |
Имя | Приемник | |
GUI | Ввод данных | GUI |
GUI | передача | Raspozn |
Raspozn | структурирование | Raspozn |
Raspozn | Передача данных | DB |
DB | Обновление БД | DB |
GUI | Ввод запроса | GUI |
GUI | передача | Class_system |
Class_system | Обработка | Class_system |
Class_system | передача | DB |
DB | поиск | DB |
Продолжение
DB | Возврат | Class_system |
Class_system | расчет | Class_system |
Поставщик данных | Обработка данных | Поставщик данных |
Поставщик данных | передача | Raspozn |
Данная информационная система разработана, как клиентское приложение. Оно сначала получает данные от пользователя и измерительных устройств, потом обрабатывает их и производит расчеты и затем выводит их в удобном для пользователя виде.
На рис 16 представлен интерфейс программы.
Рис 16 интерфейс программы
Для того чтобы нам спрогнозировать количество приступов, нужно сначала ввести значения параметров и нажать на кнопку «рассчитать количество приступов» и в соответствующем поле появится прогнозируемое число приступов. Также выбрав дату начала и дату окончания мы при нажатие на соответствующие кнопки, можем построить графики и вывести таблицы. Интерфейс программ позволяет сохранить результаты в документ Microsoft Word или вывести их на печать. База данных со значениями параметров заполняется автоматически, но мы также можем добавлять записи в ручную.
В результате работы была спроектирована и реализована информационная система анализа зависимости между вариациями геокосмических агентов и психофизиологическим состоянием человека. Система включает в себя клиентское приложение. Оно установлено на клиентской машине и выполняет все функции системы. Имеет удобный пользовательский интерфейс.
Для этого была исследована предметная область, произведено проектирование системы а также были разработаны:
База данных;
Алгоритма распознавания психофизиологического состояния методом кластерного анализа;
Клиентское приложение с удобным пользовательским интерфейсом.
1. Емельянова Н.З., Партыка Т.А., Попов И. Основы построения автоматизированных информационных систем: учебное пособие для студ. СПО. - М: Форум; Инфра-М, 2005.- 416 с.
2. Карпова Т. Базы данных. Модели, разработка, реализация: учеб. пособие. - СПб: Питер, 2002.- 304 с.
3. Моисеенко С. SQL : задачи и решения. - СПб: Питер, 2006.-256 с.
4. Принципы построения автоматизированных информационных систем (АИС). Техническое и рабочеее пректирование АИС: учеб. пособие для вузов / разраб. В.Н.Кузубовым. - М: Совр.Гум.Ун-т, 2000.-102 с.
5. Основы автоматизированных информационных систем: Автоматизированные информационные системы (АИС): учеб. пособ. для вузов / разраб. В.Н.Кузубовым. - М: Совр. Гум. Ун-т, 2000.
7. Белешева Н.К., Попов А.Н., Петухов Н.В. и др. Качественная и количественная оценка воздействия вариаций геомагнитного поля на функциональное состояние мозга человека / Биофизика. 1995. Вып.5. С.1005-1012.
8. Белишева Н.К., Меркушев И.А. Влияние геомагнитной активности на здоровье подростков / Жизнь и безопасность. 1999, №3-4, с. 112-125.
34