Системы обработки экономической информации

Автор: Пользователь скрыл имя, 02 Марта 2013 в 11:12, реферат

Краткое описание

С развитием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях- коммерции, производстве, науке, медицине и т.д. Стало понятно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Методов традиционной статистики оказалась явно недостаточно для качественного анализа больших объемов данных.

Файлы: 1 файл

L_SOEI_Part1.doc

— 442.50 Кб (Скачать)

Между всеми этими внешне различными постановками задач существует глубокое родство. За ними просматривается некий единый прототип, позволяющий при известной доле воображения сводить их друг к другу.

Рассмотрим, например, задачу аппроксимации функции по набору точек. Это типичный пример некорректной задачи, т.е. задачи не имеющей единственного решения. Чтобы добиться единственности, такие задачи надо регуляризировать - дополнить требованием минимизации некоторого регуляризирующего функционала. Минимизация такого функционала и является целью обучения нейросети. Задачи оптимизации также сводятся к минимизации целевых функций при заданном наборе ограничений. С другой стороны, классификация - это не что иное, как аппроксимация функции с дискретными значениями (идентификаторами классов), хотя ее можно рассматривать и как частный случай заполнения пропусков в базах данных, в данном случае - в колонке идентификаторов класса. Задача восстановления утраченных данных, в свою очередь - это ассоциативная память, восстанавливающая прообраз по его части. Такими прообразами в задаче кластеризации выступают центры кластеров. Наконец, если информацию удается восстановить по какой-нибудь ее части, значит мы добились сжатия этой информации, и т.д.

Многие представители  разных наук, занимающихся перечисленными выше задачами и уже накопившими изрядный опыт их решения, видят в нейросетях лишь перепев уже известных им мотивов. Каждый полагает, что перевод его методов на новый язык нейросетевых схем ничего принципиально нового не дает. Статистики говорят, что нейросети - это всего лишь частный способ статистической обработки данных, специалисты по оптимизации - что методы обучения нейросетей давно известны в их области, теория аппроксимации функций рассматривает нейросети наряду с другими методами многомерной аппроксимации. В то же время нейрокомпьютинг предоставляет единую методологию решения очень широкого круга практически интересных задач. Это, как правило, ускоряет и удешевляет разработку приложений.

3. Области использования нейросетей

В принципе, в каждой предметной области при ближайшем рассмотрении можно найти постановки нейросетевых задач. Но наиболее широко нейросети используются в следующих областях деятельности:

Экономика и бизнес: предсказание рынков, автоматический дилинг, оценка риска невозврата кредитов, предсказание банкротств, оценка стоимости недвижимости, выявление пере- и недооцененных компаний, автоматическое рейтингование, оптимизация портфелей, оптимизация товарных и денежных потоков, автоматическое считывание чеков и форм, безопасность транзакций по пластиковым карточкам.

Например, последний  продукт (январь 1998 года) компании Retek Predictive Enterprise Solution, (дочерней фирмы HNC Software, - лидера среди крупных ритейлоров с оборотом свыше $1 млрд), включает развитые средства нейросетевого анализа больших потоков данных, характерных для крупной розничной торговли. Он также содержит прогнозный блок, чтобы можно было заранее просчитать последствия тех или иных решений. (http://www.retek.com).

Медицина: обработка медицинских  изображений, мониторинг состояния пациентов, диагностика, факторный анализ эффективности лечения, очистка показаний приборов от шумов.

Например, группа НейроКомп из Красноярска (под руководством Александра Николаевича Горбаня) совместно с Красноярским межобластном офтальмологическом центром им. Макарова разработали систему ранней диагностики меланомы сосудистой оболочки глаза Нейросеть решает, имеется ли у пациента опухоль, и если да, то определяет ее стадию, выдавая, кроме этого, процентную вероятность своей уверенности (http://www.chat.ru/~neurocom/).

Авионика: обучаемые автопилоты, распознавание сигналов радаров, адаптивное пилотирование сильно поврежденного самолета.

Например, компания McDonnell Douglas Electronic Systems разработала автоматический переключатель режимов полета в реальном масштабе времени в зависимости от вида повреждения самолета. Данные от 20 сенсорных датчиков и сигналов от пилота используются нейросетью для выработки около 100 аэродинамических параметров полета. Сильной стороной является возможность сети адаптироваться к непредсказуемым аэродинамическим режимам, таким как потеря части крыла и т.д. (SIGNAL Magazin, февраль 1991).

Связь: сжатие видео-информации, быстрое кодирование-декодирование, оптимизация сотовых сетей и схем маршрутизации пакетов.

Например, нейросети  уже продемонстрировали коэффициент  сжатия 120:1 для черно-белого видео. Цветное  видео допускает примерно вдвое  большую степень сжатия 240:1 за счет специальной схемы кодирования цветов. (http://www.ee.duke.edu/~cec/JPL/paper.html).

Интернет: ассоциативный  поиск информации, электронные секретари  и агенты пользователя в сети, фильтрация информации в push-системах, коллоборативная фильтрация, рубрикация новостей, адресная реклама, адресный маркетинг для электронной торговли и др.

Например, фирма Autonomy отделилась от родительской фирмы Neurodynamics в июне 1996 года с уставным капиталом $45 млн и идеей продвижения  на рынок Internet электронных нейросетевых агентов. Согласно ее пресс-релизу, первоначальные вложения окупились уже через год.

Автоматизация производства: оптимизация режимов производственного  процесса, комплексная диагностика  качества продукции (ультразвук, оптика, гамма-излучение), мониторинг и визуализация многомерной диспетчерской информации, предупреждение аварийных ситуаций, робототехника.

Например, Ford Motors Company внедрила у себя нейросистему для диагностики двигателей после  неудачных попыток построить  экспертную систему, т.к. хотя опытный  механик и может диагностировать  неисправности он не в состоянии описать алгоритм такого распознавания. На вход нейро-системы подаются данные от 31 датчика. Нейросеть обучалась различным видам неисправностей по 868 примерам. “После полного цикла обучения качество диагностирования неисправностей сетью достигло уровня наших лучших экспертов, и значительно превосходило их в скорости

Политические технологии: анализ и обобщение социологических  опросов, предсказание динамики рейтингов, выявление значимых факторов, объективная  кластеризация электората, визуализация социальной динамики населения.

Например, уже упоминавшаяся  ранее группа НейроКомп из Красноярска  довольно уверенно предсказывает результаты президентских выборов в США на основании анкеты из 12 вопросов. Причем, анализ обученной нейросети позволил выявить пять ключевых вопросов, ответы на которых формируют два главных фактора, определяющих успех президентской кампании.

Безопасность и охранные системы: системы идентификации  личности, распознавание голоса, лиц  в толпе, распознавание автомобильных номеров, анализ аэро-космических снимков, мониторинг информационных потоков, обнаружение подделок.

Например, многие банки  используют нейросети для обнаружения  подделок чеков. Корпорация Nestor (Providence, Rhode Island) установила подобную систему  в Mellon Bank, что по оценкам должно сэкономить последнему $500,000 в год. Нейросеть обнаруживает в 20 раз больше подделок, чем установленная до нее экспертная система.

Ввод и обработка  информации: Обработка рукописных чеков, распознавание подписей, отпечатков пальцев и голоса. Ввод в компьютер финансовых и налоговых документов.

Геологоразведка: анализ сейсмических данных, ассоциативные  методики поиска полезных ископаемых, оценка ресурсов месторождений.

Тема «Генетические алгоритмы»

  1. Классы задач оптимизации

Методы оптимизации  используются при решении широкого круга практических задач. Наиболее важные из них, это задачи управления и методы поиска функциональных зависимостей в процессе анализа статистических данных (регрессионный анализ).

Сущность человеческой деятельности состоит в принятии решений и поиске наилучших способов их реализации. В свою очередь поиск наилучшего решения для неочевидных случаев, характеризующихся зависимостью от большого числа факторов, обычно включает в себя генерацию всех возможных вариантов решений, их оценку и выбор наилучшего варианта.

Обычно в качестве критерия оценки выступает некая  целевая функция, аргументами которой  являются количественные характеристики, описывающие состояние факторов, влияющих на достижение цели в решаемой задаче. При этом решению, приводящему к наилучшему результату, соответствует экстремальное значение целевой функции.

В случае регрессионного анализа ищется наилучшее приближение  некоторой аналитической функции  к имеющимся экспериментальным  данным. При этом в качестве меры приближения обычно выбирается среднеквадратическое отклонение экспериментальных данных от аналитической функции. Наилучшему приближению соответствует минимальная сумма квадратов ошибок (минимальное значение дисперсии), которая в данном случае выступает аналогом целевой функции в задачах управления.

С точки зрения математики, имеется три основных класса задач  на поиск экстремальных значений:

  1. Имеется некоторая известная функция от набора переменных Y = f (x1, x2, …xn). Необходимо найти такие значения xi, при которых функция Y принимает экстремальное значение.
  2. Известен вид функции, т.е., известно количество слагаемых в правой части и степени переменных, однако значения коэффициентов при переменных неизвестны (классическая регрессионная задача).

Необходимо найти значения коэффициентов при неизвестных, при которых отклонение экспериментальных данных от заданной функции минимально.


В задачах управления может возникнуть вариант, когда  необходимо найти как значения коэффициентов при переменных, так и одновременно найти значения неизвестных, максимизирующих целевую функцию.

  1. Вид зависимости между целевой функцией и независимыми переменными неизвестен. Из некоторых априорных соображений можно сказать лишь о классе функций, которым описывается искомая зависимость. В таком случае речь идет о поиске экстремального значения функционала целевой функции:

            F (X) = extr f(X),

где F (X) – функция, входящая в состав выбранного каким-либо образом класса функций и придающая максимальное значение зависимой переменной.

В этом случае ищется  экстремум путем изменения:

  • независимых переменных во всех диапазонах значений, в которых они определены;
  • коэффициентов при независимых переменных;
  • вида зависимости между зависимой и независимыми переменными.
  1. Методы решения оптимизационных задач

На сегодняшний день можно выделить три основных типа решения оптимизационных задач:

  • методы, основанные на нахождении аналитического решения;
  • методы перебора вариантов;
  • методы, использующие элементы случайности.

Аналитические методы хорошо изучены, и, как правило, сводятся к решению системы линейных или нелинейных уравнений. Основные недостатки:

  • требование дифференцируемости всех функций, входящих в состав уравнений;
  • метод позволяет найти лишь локальные экстремумы, вследствие чего найденное решение может быть далеко от оптимального.

Методы перебора вариантов  также хорошо изучены. Их основная идея заключается в том, что пространство поиска любой задачи можно представить в виде совокупности дискретных точек. Даже если переменные непрерывны, вследствие погрешностей любого измерения мы можем представить их дискретными (с шагом дискретности, равным либо погрешности измерения, либо с учетом требований к точности конечного результата). В этом случае процесс решения заключается в переборе всех точек пространства независимых переменных и вычислению в них целевой функции. Основной недостаток – необходимость большого количества вычислений, в результате чего для большой части практических задач невозможно получить решение за приемлемое время.

Например, пусть мы имеем 10 независимых переменных, каждая из которых может принимать 102 значений. Общее число вариантов составляет 1020. Самый быстрый на настоящее время компьютер вычисляет со скоростью примерно 109 операций/секунду (пусть одну точку обрабатывает за три такта – 3 ´ 10-9 сек. Тогда суммарное время решения задачи составит порядка 104 лет. А это далеко не самая сложная задача. Реальные задачи управления на уровне крупной фирмы или государства могут включать сотни и даже тысячи переменных.

Методы, использующие элементы случайности, также как и методы перебора, основаны на поиске в дискретном пространстве оптимального решения. Однако поиск в данном случае реализуется не методом перебора вариантов, а путем некоторого случайного «перескока» из точки в точку. При этом резко сокращается объем вычислений, необходимых для нахождения экстремума. Несмотря на определенные преимущества по сравнению с методами перебора, методы, основанные только на случайности, также во многих случаях не позволяют получать качественные решения за приемлемое время.

Исследования показали, внесение в случайные процессы некоторых  элементов детерминированности  дает значительное улучшение показателей. Одним из таких «частично» случайных методов и являются эволюционные вычисления.

  1. Эволюционные вычисления

В рамках эволюционных вычислений существуют три основных класса методов:

  • генетические алгоритмы;
  • эволюционные стратегии;
  • эволюционное программирование.

Основная особенность  генетических алгоритмов заключается  в представлении любой альтернативы решения (значения целевой функции для какой-либо точки многомерного пространства) в виде битовой строки (записи в двоичном виде) фиксированной длины, манипуляция которой осуществляется вне всякой связи с ее смысловой интерпретацией. То есть в данном случае применяется единое универсальное представление любой задачи.

Информация о работе Системы обработки экономической информации