Вивчення параметрів за допомогою методу максимальної правдоподібності: дискретні моделі

Автор: Пользователь скрыл имя, 02 Февраля 2013 в 17:58, курсовая работа

Краткое описание

Перед комп’ютером ставиться наступна задача. Є безліч об'єктів (ситуацій) і безліч можливих відповідей (відгуків, реакцій). Існує деяка залежність між відповідями і об'єктами, але вона невідома. Відома тільки кінцева сукупність прецедентів - пар «об'єкт, відповідь»,так звана навчальна вибірка. На основі цих даних потрібно відновити залежність, тобто побудувати алгоритм, здатний для будь-якого об'єкта видати досить точну відповідь. Для вимірювання точності відповідей певним чином вводиться функціонал якості.
Дана постановка є узагальненням класичних задач апроксимації функцій. У класичних задачах апроксимацій об'єктами є дійсні числа або вектори. У реальних прикладних задачах вхідні дані про об'єкти можуть бути неповними, неточними, нечисловими, різнорідними. Ці особливості призводять до великої різноманітності методів машинного навчання.

Оглавление

Вступ……………………………………………………………………………………….3
1. Вивчення параметрів за допомогою методу максимальної правдоподібності:
дискретні моделі……………………………………………………..…………….4
2. Наївні Байєсівські моделі………………………………………………………...7
3. Нейронні мережі…………………………………………………………………..10
3.1. Структура нейронних мереж………………………………………...13
3.2. Багатошарові нейронні мережі з прямим розповсюдженням….......17
3.3. Визначення в процесі навчання структур нейронних мереж…….....20
3.4. Практичний приклад: розпізнавання рукописних ЦИФР………….21
4. Програмна реалізація наївної байєсівської моделі……………………………24
4.1. Алгоритм навчання………………………………………………….24
4.2. Опис програми……………………………………………………….24
3. Інструкція користувачеві………………………………………….......25
Висновок………………………………………………………………………………..27
Список використаних джерел…………………………………………………………..28
Додаток…………………………………………………………………………………...29

Файлы: 1 файл

zvit.doc

— 2.10 Мб (Скачать)

Зміст

Вступ……………………………………………………………………………………….3

  1. Вивчення параметрів за допомогою методу максимальної правдоподібності:

 дискретні моделі……………………………………………………..…………….4

2.  Наївні Байєсівські моделі………………………………………………………...7

     3. Нейронні мережі…………………………………………………………………..10

3.1. Структура нейронних мереж………………………………………...13

3.2. Багатошарові нейронні мережі з прямим розповсюдженням….......17

3.3. Визначення в процесі навчання структур нейронних мереж…….....20

3.4. Практичний приклад: розпізнавання рукописних ЦИФР………….21

     4. Програмна реалізація наївної байєсівської моделі……………………………24

4.1. Алгоритм навчання………………………………………………….24

4.2. Опис програми……………………………………………………….24

3. Інструкція користувачеві………………………………………….......25

Висновок………………………………………………………………………………..27

Список використаних джерел…………………………………………………………..28

Додаток…………………………………………………………………………………...29

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вступ

Ідея створення штучної подоби людини для вирішення складних завдань і моделювання людського розуму зародилася ще в давні часи. Але родоначальником штучного інтелекту вважається Раймонд Раймунд, який в 9 столітті спробував створити механічну машину для вирішення різних завдань, на основі розробленої ним класифікації понять. І після нього було багато спроб продовження цієї ідеї створення щось схожого на розум.

Остаточне народження штучного інтелекту як наукового напрямку відбулося тільки після створення ЕОМ у 40-х роках ХХ століття, людям вже тоді було цікаво, чи можуть ЕОМ навчатися. Якщо ми зрозуміємо, як запрограмувати їх для навчання, щоб вони покращувались автоматично з досвідом, то результат може бути вражаючим. Уявіть комп'ютери, які навчаються за медичними рекомендаціями, можуть визначити, які види лікування більш ефективні для нових хвороб; або будинки, що навчаються оптимізовувати енергетичні витрати, грунтуючись на звичайних даних вживання енергії його мешканцями; або персональна комп'ютерна програма, яка вивчає зміни інтересів своїх користувачів, щоб помістити на передній план ті новини з сьогоднішніх ранкових газет, які б були доречні конкретному користувачеві. Уміння навчити комп'ютер могло б відкрити нові рівні знань, компетентності, продуктивності. І точне розуміння інформаційної обробки алгоритмів для машинного навчання могло б привести також до кращого розуміння людської навчальної спроможності.

Перед комп’ютером ставиться  наступна задача. Є безліч об'єктів (ситуацій) і   безліч можливих відповідей (відгуків, реакцій). Існує деяка залежність між відповідями і об'єктами, але вона невідома. Відома тільки кінцева сукупність прецедентів - пар «об'єкт, відповідь»,так звана навчальна вибірка. На основі цих даних потрібно відновити залежність, тобто побудувати алгоритм, здатний для будь-якого об'єкта видати досить точну відповідь. Для вимірювання точності відповідей певним чином вводиться функціонал якості.

Дана постановка є  узагальненням класичних задач  апроксимації функцій. У класичних задачах апроксимацій об'єктами є дійсні числа або вектори. У реальних прикладних задачах вхідні дані про об'єкти можуть бути неповними, неточними, нечисловими, різнорідними. Ці особливості призводять до великої різноманітності методів машинного навчання.

 

 

1. Навчання параметрів за допомогою методу максимальної правдоподібності: дискретні моделі.

 

Розглянемо один із методів  навчання – це навчання параметрів за допомогою методу максимальної правдоподібності: дескретної моделі. Цей метод попробуємо розглянути на основі елементарного прикладу із льодяниками.

Припустимо, що ми купуємо  пакет цукерок з лимонними  і вишневими льодяниками, випущений  новим виробником, співвідношення лимонних і вишневих льодяників в продукції якого повністю невідомо; це означає, що частка тих та інших льодяників може вимірюватися будь-яким значенням від 0 до 1. В даному випадку доводиться розглядати континіум гіпотез. Крім того, в цьому випадку параметром, який буде позначатися як 9, є частка вишневих льодяників, а гіпотезою є h0 (частка лимонних льодяників виражається як 1-9). Якщо прийнято припущення, що всі можливі значення часткового складу апріорно є рівно-імовірними, то стає обґрунтований підхід на основі гіпотези з максимальною правдо -подібністю. Якщо ми промоделюємо цю ситуацію за допомогою байєсівської мережі, то буде потрібна тільки одна випадкова змінна, Flavor(pізновид цукерки, випадково вибраної із пакета). Ця змінна приймає значення cherry і lime, де ймовірність cherry дорівнює Ө. Тепер припустимо, що розгорнуто N цукерок, з яких C виявились вишневими льодяниками, a l = N-c були лимонними льодяниками. Згідно рівнянню (1) , правдоподібність цього конкретного набору даних виражається наступною формулою:

 

                         P(d|hѲ ) =                                             (1)

   

Гіпотеза з максимальною правдоподібністю задається значенням , яке максимізує цей вираз. Таке ж значення може бути отримано шляхом максимізації значення логарифмічної правдоподібності:

 

L(d|hѲ )  = log P(d|hѲ ) = .                            (2)

 

Взявши логарифми, ми перетворили добуток в суму даних, які зазвичай легше максимізувати. Щоб знайти значення максимальної правдоподібності , диференціюємо L по і прирівняємо отриманий вираз до нуля наступним чином:

 

                            

                                                (3)

 

Таким чином, якщо описати цей вираз на природній мові, то гіпотеза з максимальною правдоподібністю hML стверджує, що фактична частка вишневих льодяників в пакеті дорівнює спостережуваній частці цих льодяників у цукерках, розгорнутих досі!

На перший погляд створюється  враження, що ми виконали великий обсяг роботи лише для того, щоб відкрити цей очевидний факт. Але в дійсності описаним вище шляхом був створений один із стандартних методів навчання параметрів з максимальною правдоподібністю, який описаний нижче.

 

  1. Записати вираз для правдоподібності даних як функції від параметра (параметрів).
  2. Знайти похідну логарифмічної правдоподібності по відношенню до кожного параметру.
  3. Знайти такі значення параметрів, щоб похідні стали рівними нулю.

 

Зазвичай найскладнішим  є останній з цих етапів. У розглянутому прикладі він був найпростішим, але нижче буде показано, що в багатьох випадках доводиться вдаватися до використання ітераційних алгоритмів пошуку рішень або інших числових методів оптимізації. Крім того, цей приклад ілюструє важливу проблему, яка в цілому характерна для навчання з урахуванням максимальної правдоподібності: якщо набір даних досить малий і тому деякі події ще не спостерігалися (наприклад, не було виявлено ні однієї цукерки з вишневим льодяником), то гіпотеза з максимальною правдоподібністю присвоює цим подіям нульову ймовірність. Для запобігання виникнення цієї проблеми використовувалися різні прийоми, такі як ініціалізація лічильників для кожної події значенням 1, а не 0.

Розглянемо ще один приклад. Припустимо, що цей новий виробник цукерок хоче дати споживачеві невелику підсказку і використовує для цукерок обгортки червоного і зеленого кольорів. Значення змінної Wrapper ,  відповідний колір обгортки для кожної цукерки, вибирається по імовірним законам, в відповідності до деяких невідомих умов розподілу, але в залежності від різновидів цукерок. Відповідна імовірна модель показана на рис. 2,б. Зверніть увагу на те, що вона має три параметри: Ө, Ө1 і Ө2. З використанням цих параметрів правдоподібність події, пов'язаної, скажімо, з виявленням вишневого льодяника в зеленій обгортці, можна визначити на основі стандартної семантики для байєсівських мереж.

 

 

                               а)                                            б)

              Рис.1 Навчання параметра за допомогою Байєсівської мережі.

  

Тепер припустимо, що розгорнуто N цукерок, з яких с виявились вишневими

льодяниками, а l – лимонними, а кількість обгорток виявилася такою: rс вишневих льодяників мали червоні обгортки, а gс – зелені, тоді як rl – лимонних льодяників мали червоні обгортки, а gl – зелені. Правдоподібність цих даних виражається наступним чином:

 

    P(d | hӨ ,Ө1, Ө2 ) = .                                (4)

 

Рішення для Ө залишається  таким же, як і колись. Рішення  для Ө1, імовірності того, що вишневий льодяник має червону обгортку, являє собою спостережливу частку вишневих льодяників в червоних обгортках, і аналогічним чином визначається рішення для Ө2.

 Дані результати є дуже зручними, і легко показати, що їх можна поширити на будь-яку байєсівську мережу, умовні імовірності в якій представлені у вигляді таблиці. Найбільш важливий висновок полягає в тому, що при наявності повних даних задана навчання параметрів з максимальною правдоподібністю для байєсівської мережі розбивається на окремі завдання навчання, по одній для кожного параметра. Ще один важливий висновок полягає в тому, що значення параметра для будь якої змінної при наявності її батьківських значень являють собою частоти значень змінних для кожного набору батьківських значень.

 

  1. Наївні Байєсівські моделі

 

 

Розглянемо  ще  один  метод  навчання  —  мультиноміальний  наївний  метод  Байеса(Naive Bayes — NB). У цьому методі імовірність того, що документ d належить класу c, обчислюється в такий спосіб. 

                                                                                      (5)

Тут  P(tk|c) — умовна  імовірність,того  що  термін  tk з'явиться в документі з класу c, P(tk |c) — міра  правильного розпізнавання класу c  по  терміну tk,  P(c) — апріорна  імовірність того,  що  документ  належить  класу c.  Якщо терміни документа не  дозволяють  чітко відокремити один  клас  від іншого,  то  варто вибрати той з них,  що  має більш високу апріорну імовірність. Послідовність < t1, t2, … tn >  складається з лексем документа d, що є частиною словника,  використаного  для класифікації,  а nd—  кількість  таких  лексем  у  документі d.  Наприклад, послідовність < t1, t2, … tnd > для документа Beijing and Taipei join the WTO,  що складається з одного  речення, може мати вигляд <Beijing, Taipei, join, WTO>, де nd= 4, якщо видалити стоп-слова and і the. Мета  класифікації  текстів — знайти  найкращий клас  для документа.  У методі  NB  найкращим  вважається найбільш ймовірний клас, чи клас сmap, що має максимальну апостеріорну імовірність(MAP).

 

                                                                                          

                                      

                                        (6)

                                                                                       

 

Ми пишемо , а не P, тому що не знаємо справжніх параметрів P(c) і , а можемо лише оцінити їх за допомогою навчальних множин.

У рівності (6) перемножуються кілька умовних імовірностей, по одній для кожного значення . Це може призвести до переповнення машинної пам'яті і втрати значущих розрядів. Отже, краще замінити добуток імовірностей додаванням їх логарифмів. Клас з найбільшим значенням логарифма імовірності залишається найбільш ймовірним, тому що log(xy) = log(x) + log(y) і логарифмічна функція монотонна. Отже, у наївному методі Байєса насправді потрібно знайти точку максимуму наступної функції


Рівність (7) допускає просту інтерпретацію. Кожен логарифм умовної імовірності |c) — це вага, що вказує, наскільки важливий термін tk для класу c. Аналогічно, апріорна імовірність — це вага, що характеризує відносну частоту класу c. Ті класи, що зустрічаються більш часто, частіше є правильними, ніж рідкісні. Таким чином, клас, сума логарифмів імовірностей і вага термінів для якого має максимальне значення є аргументом на користь того, що документ належить цьому класу.

Як оцінити імовірності  і |c) ? Спочатку спробуємо одержати оцінку максимальної правдоподібності, яка є відносною частотою і відповідає найбільш вірогідній величині кожного параметру при заданих навчальних даних. Для апріорних імовірностей оцінка має наступний вигляд

                                                                                                             (8)

Тут — кількість документів у класі c, а — загальна кількість документів в колекції.

Оцінимо умовну імовірність  |c) як відносну частоту терміна t у документі, що належить класу c

                                                    

|c)=
,                                           (9)

Тут — кількість появ терміна t у навчальних документах із класу c з урахуванням багаторазових появ терміна в документі. Ця оцінка заснована на припущенні про позиційну незалежність: умовні імовірності появи терміну однакові незалежно від позиції цього терміну в документі і враховують тільки кількість появ терміну в документі.

З оцінкою максимальної правдоподібності пов'язана наступна проблема: якщо пара термін-клас не зустрічаються в навчальних даних, то відповідно і оцінка даного терміну для класу дорівнює нулю. Наприклад, якщо термін WTO у навчальних даних зустрічається тільки в документах класу China, то оцінка цього терміну для інших класів, наприклад, класу UK, дорівнюють нулю.

Информация о работе Вивчення параметрів за допомогою методу максимальної правдоподібності: дискретні моделі