Системы обработки экономической информации

Автор: Пользователь скрыл имя, 02 Марта 2013 в 11:12, реферат

Краткое описание

С развитием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях- коммерции, производстве, науке, медицине и т.д. Стало понятно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Методов традиционной статистики оказалась явно недостаточно для качественного анализа больших объемов данных.

Файлы: 1 файл

L_SOEI_Part1.doc

— 442.50 Кб (Скачать)

1. Что такое Data Mining

С развитием  технологий записи и хранения данных на людей  обрушились колоссальные потоки информационной руды в самых различных областях- коммерции, производстве, науке, медицине и т.д. Стало понятно, что без  продуктивной переработки потоки сырых данных образуют никому не нужную свалку.

Методов традиционной статистики оказалась явно недостаточно для  качественного анализа больших  объемов данных.

Главная причина – недостаточность концепции усреднения по выборке для поиска неизвестных закономерностей. Методы статистики оказались полезными главным образом для проверки заранее сформулированных гипотез и для грубого разведочного анализа, составляющего основу оперативной аналитической обработки данных (OLAP).

В основу современной  технологии Data Mining положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных отношений в данных. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений (как это делается в статистике) о структуре распределения и виде распределения значений анализируемых показателей.

Примеры характерных  различий между традиционной статистикой (OLAP) и Data Mining приведены в таблице 1.

OLAP (статистика)

Data Mining

Каковы средние показатели травматизма для курящих и  некурящих?

 

Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке?

Встречаются ли точные шаблоны в  описаниях людей, подверженных повышенному травматизму?

Существуют ли стереотипные схемы  покупок для случаев мошенничества  с кредитными карточками?


Важная особенность Data Mining – нетривиальность разыскиваемых  шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые знания. Сырые данные (raw knowledge) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки.

Сущность Data Mining можно определить следующими положениями:

Data Mining – это процесс обнаружения в сырых данных:

  • ранее неизвестных;
  • нетривиальных;
  • практически полезных;
  • доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

2. Области использования Data Mining

Методы Data Mining могут использоваться практически во всех областях человеческой деятельности. Однако наибольшее распространение они получили:

  1. В торговле:
  • анализ покупательской корзины с целью выяснения товаров, которые покупатели стремятся приобрести вместе;
  • исследование временных шаблонов и создание прогнозирующих моделей с целью оптимизации запасов.
  1. В банковском деле:
  • для выявления мошенничества с кредитными карточками;
  • сегментации клиентов;
  • прогнозирования изменений клиентуры.
  1. Специальные приложения:
  • медицина – для создания экспертных систем по постановке медицинских диагнозов;
  • молекулярная генетика и генная инженерия: для расшифровки генома человека и наследственных заболеваний;
  • прикладная химия – для анализа высокомолекулярных соединений и создания соединений с требуемыми свойствами: лекарства, парфюмерия и т.д.

3. Типы закономерностей

Выделяют пять стандартных  типов закономерностей, которые  позволяют выявлять методы Data Mining:

  • ассоциацию;
  • последовательность;
  • классификация;
  • кластеризация;
  • прогнозирование.

Ассоциация имеет место  в том случае, если несколько событий  каким-либо образом связаны друг с другом.

Последовательность –  когда существует цепочка связанных  во времени событий.

Классификация позволяет  выявлять признаки, характеризующие  группу, к которой принадлежит  тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования на этой основе правил классификации для еще не расклассифицированных объектов.

Кластеризация отличается от классификации тем, что группы (правила классификации) заранее  не созданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.

 

  1. Классы систем Data Mining

Data Mining является многодисциплинарной  областью, возникшей и развивающейся  на базе достижений прикладной статистики, распознавания образов, других методов искусственного интеллекта, теории баз данных и др. Это влечет за собой обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. Многие из таких систем интегрируют в себе сразу несколько подходов. Тем не менее, как правило, в каждой системе имеется какой-то ключевой компонент, на который делается главная ставка.

Рассмотрим детальнее  существующие классы систем Data Mining

1) Предметно-ориентированные  аналитические системы – это  системы, основанные на детальном  знании предметной области и ее закономерностей. Наиболее широкий класс таких систем, получивший распространение в области исследования (предсказания) финансовых рынков носит название «технический анализ». Он представляет собой совокупность нескольких десятков метода прогноза динамики цен и выбора оптимальной структуры инвестиционного портфеля, основанных на различных эмпирических моделях динамики рынка. Эти методы часто используют несложный статистический аппарат, но максимально учитывают сложившуюся в своей области специфику (профессиональный язык, системы различных индексов и др.).

2) Статистические пакеты  – последние версии почти всех  статистических пакетов включают  наряду с традиционными статистическими методами также элементы Data Mining, хотя основное внимание в них все же уделяется традиционным статистическим методам.

Недостатком систем такого класса считают ограниченный набор  возможностей в области Data Mining, а  также требования к специальной подготовке пользователя.

3) Нейронные сети –  это большой класс систем, архитектура которых имеет аналогию (как теперь известно, довольно слабую) с построением нервной ткани из нейронов. Наиболее распространены структуры, содержащие несколько слоев искусственных нейронов. На нейроны первого слоя подается входная информация (сигнал), а затем происходит послойная обработка информации. Выходной сигнал рассматривается как ответ. За счет подбора коэффициентов связей между нейронами различных уровней можно добиться того, чтобы при определенном классе входных сигналов получался заданный класс выходных. При такой постановке вопроса самым важным этапом является «тренировка» или обучение нейросети.

Такой подход во многих случаях  позволяет находить решения, которые  невозможно получить другими способами, что и привело к широкому распространению нейросетевых технологий. К недостаткам нейросетей необходимо отнести, во-первых, необходимость в большом объеме обучающей выборки, и, во-вторых, невозможность обоснования того, на основании каких же закономерностей и аргументов был получен данный результат.

4) Системы рассуждений  на основе аналогичных случаев  (case based reasoning – CBR). В этих системах для того, чтобы сделать прогноз на будущее, или выбрать правильное решение, находят в прошлом близкие аналоги данной ситуации и выбирают тот ответ, который был для них правилен. Поэтому этот метод называют еще методом ближайшего соседа.

Такие системы показывают неплохие результаты для тех областей, где правила относительно стабильны  и имеется обширный аналитический материал по прошлым ситуациям.

Недостатки таких систем следующие:

  • при таком подходе вообще не создается какой-либо модели, что не позволяет улучшить или модифицировать решение;
  • выбор меры «близости»  достаточно произволен, в результате чего не всегда можно быть уверенным в том, что аналог достаточно близок для получения адекватного ответа в текущей ситуации.

5) Деревья решений  (decision trees). В этом случае создается иерархическая структура решающих правил типа «если – то», имеющая вид дерева. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах (точках ветвления) этого дерева, начиная с его корня (широкой части).

Популярность подхода  связана с его наглядностью и  понятностью. Недостаток в том, что  помимо уже сформулированных правил никакая информация не используется, в результате чего полученное таким способом решение может быть далеко не самым оптимальным.

6) Эволюционное программирование. В этом случае гипотезы о  виде зависимости целевой переменной  от других переменных формулируются в виде программ на некотором (внутреннем) языке программирования. Процесс получения решения строится как эволюция в мире программ. (этим метод похож на генетические алгоритмы). Когда система  находит некую программу, которая хотя в некоторой степени правильно отвечает на вопрос, она начинает вносить в нее небольшие изменения до получения максимально точного ответа. К системам этого класса относится довольно хорошо известный русскоязычный программный продукт PolyAnalyst.

Другое направление эволюционного программирования связано с поиском зависимости целевых переменных от остальных в виде функций какого-то определенного вида. В одном из наиболее удачных алгоритмов этого типа – методе группового учета аргументов (МГУА)- зависимость ищут в форме полинома.

7) Генетические алгоритмы. Data Mining – не основная область их использования. Их можно рассматривать скорее как мощное средство решения комбинаторных задач и задач оптимизации. Тем не менее генетические алгоритмы вошли в стандартный набор методов Data Mining, почему  и рассматриваются здесь.

Первый шаг при построении генетических алгоритмов – это колировка  исходных логических закономерностей. Такие отдельные коды именуют хромосомами, а весь набор – популяцией хромосом. Популяция обрабатывается с помощью процедур, аналогичных биологи ческой эволюции – репродукции, мутаций и т.п. Как правило, создают несколько наборов генетических алгоритмов и выбирают более совершенную линию.

Недостатки этого метода в том, что исходные правила (хромосомы), как и в методе деревьев, могут быть далеко не полными. Второе – как и в реальной хизни здесь возможны тупики, и, наоборот, скрещивание неперспективных линий может дать потомка, намного превосходящего потомков от перспективных линий.

8) Алгоритмы ограниченного перебора. Вычисляют частоты комбинаций простых логических событий в подгруппах данных.. Ограничением служит длина комбинации простых логических событий. На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциации и других видов закономерностей в данных (выше частота – выше связь).

Наиболее известным  представителем этого класса продуктов  является программа WizWhy фирмы Wizsoft. В настоящее время этот продукт является одним из лидеров в области Data Mining и демонстрирует более высокие результаты при решении практических задач по сравнению с остальными методами Data Mining.

Тема «Документальные (полнотекстовые) системы  
данных и знаний»

1. Назначение  и основные понятия

Классические методы и модели в теории БД ориентированы на организацию хранения и обработки детально структурированных данных. Чаще всего эти данные представляют собой числовые значения, описывающие те или иные характеристики информационных объектов.

Однако на практике информация часто представлена не в виде структурированных массивов данных, а в виде простых текстовых документов. Содержащаяся в текстах «сырая» информация зачастую  слишком сложную структуру, либо очень большой объем, что затрудняет, либо делает невозможным анализ этой информации в человеко-компьютерных системах. Поэтому текстовую информацию «очищают» и концентрируют с точки зрения выполнения определенного круга задач. Системы для переработки текстовой информации, а также полученные в результате наборы данных принято называть документальными или полнотекстовыми системами.

В отличие от классических БД, предназначенных для точного и детального воспроизведения информации, документальные БД  и знаний ориентированы на частичное, приближенное представление данных, имеющих сложную смысловую структуру и представленных на входе системы в виде текста.

Такие системы поиска текстовых знаний получили название документальных информационно-поисковых  систем (ДИПС).

Основной функцией любой  ДИПС является информационное обеспечение потребителей путем информационного поиска и последующей выдачи ответов на их вопросы.

Потребность человека в  определенной информации в процессе его практической деятельности получила название информационной потребности. Под действием получаемой информации информационная потребность людей постоянно изменяется и трансформируется. Вследствие этого ее невозможно однозначно выразить и описать. Фактически ИПС имеют дело с информационными запросами, представляющими собой осознанную  и сформулированную человеком информационную потребность в данный момент времени, но информационный запрос не тождественен информационной потребности, в связи с чем вводятся два важных новых понятия:

Информация о работе Системы обработки экономической информации