Сущность биоинформатики

Автор: Пользователь скрыл имя, 21 Марта 2012 в 17:16, реферат

Краткое описание

В настоящее время слово биоинформатика стало очень модным, оно употребляется в трех разных смыслах. Первый смысл связывают с телепатией, экстрасенсорикой и т.д. Второй смысл связан с применением компьютеров для изучения любого биологического объекта. И третий - биоинформатика в узком смысле слова, а именно о применении компьютерных методов для решения задач молекулярной биологии, в основном анализа разных последовательностей (аминокислотных, нуклеотидных).

Файлы: 1 файл

Биоинформатика.docx

— 1.68 Мб (Скачать)

Министерство Образования Республики Беларусь

Учреждение Образования «Белорусский Государственный Университет Транспорта»

 

 

 

Кафедра «Информационные  технологии» 

 

 

 

ДОКЛАД

по дисциплине:

динамическое программирование

тема: Биоинформатика

 

 

 

 

Выполнила:        Проверила:

студентка группы ЭМ-21      преподаватель

Гулевич А.А.        Миняйлова Е.Л.

 

 

 

 

Гомель 2011

Что такое биоинформатика?

 

В настоящее время слово  биоинформатика стало очень модным, оно употребляется в трех разных смыслах. Первый смысл связывают  с телепатией, экстрасенсорикой и т.д. Второй смысл связан с применением компьютеров для изучения любого биологического объекта. И третий - биоинформатика в узком смысле слова, а именно о применении компьютерных методов для решения задач молекулярной биологии, в основном анализа разных последовательностей (аминокислотных, нуклеотидных).

В общем, сам термин биоинформатика уже намекает на то, что здесь пойдет о связи биологии с компьютером. Биоинформатика используется в биохимии, биофизике, экологии и других областях. Она решает три основные задачи (которые в нашем компьютеризированном мире приобретают все большую актуальность):

  • математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика);
  • разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика);
  • исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем.

 

В биоинформатике используются методы прикладной математики, статистики и информатики.

Эта наука возникла в 1976-1978 годах, главным образом в связи с работами по расшифровке генома человека, окончательно оформилась в 1980 году со специальным выпуском журнала «Nucleic Acid Research» (NAR). Биоинформатика включает в себя:

  • базы данных, в которых хранится биологическая информация;
  • набор инструментов для анализа тех данных, которые лежат в таких базах;
  • правильное применение компьютерных методов для правильного решения биологических задач.

 

Термины биоинформатика и  «вычислительная биология» часто  употребляются как синонимы, хотя каждый автор в данной области  придумывает, как правило, свои собственные  определения для каждого. Иногда считают, что не всякое использование  вычислительных методов в биологии является биоинформатикой, например, математическое моделирование биологических процессов — это не биоинформатика.

Немного из истории

Биоинформатика возникла в конце 70-х годов на стыке молекулярной биологии и генетики, математики (статистики и теории вероятности) и информатики, испытавшая влияние лингвистики и физики полимеров. Толчком к этому послужило появление быстрых методов секвенирования последовательностей ДНК. (Секвенирование (от англ. Sequence – последовательность) — определение первичной аминокислотной или нуклеотидной последовательности биополимеров (белков и нуклеиновых кислот – ДНК и РНК). В результате получается линейное символьное описание, которое сжато поясняет атомную структуру молекулы.) Нарастание объема данных происходило лавинообразно и довольно скоро стало ясно, что каждая полученная последовательность не только представляет интерес сама по себе (например, для целей генной инженерии и биотехнологии), но и приобретает дополнительный смысл при сравнении с другими. В 1982 году были организованы банки данных нуклеотидных последовательностей - GenBank в США и EMBL в Европе. Первоначально данные переносились в банки из статей вручную, однако, когда этот процесс начал захлебываться, все ведущие журналы стали требовать, чтобы последовательности, упоминаемые в статье, были помещены в банк самими авторами. Многие последовательности сейчас попадают в банки без публикации. Банки постоянно обмениваются данными и, в этом смысле, практически равноценны, однако средства работы с ними, разрабатываемые в Центре биотехнологической информации США и Европейском институте биоинформатики, различны. Пожалуй, первым биологически важным результатом, полученным при помощи анализа последовательностей, было обнаружение сходства вирусного онкогена v-sis и нормального гена фактора роста тромбоцитов, что привело к значительному прогрессу в понимании механизма рака. С тех пор работа с последовательностями стала необходимым элементом лабораторной практики.

 

В 1995 году был секвенирован первый бактериальный геном, в 1997 - геном дрожжей. В 1998 было объявлено о завершении секвенирования генома первого многоклеточного организма - нематоды. По состоянию на 1 сентября 2001 года доступны 55 геномов бактерий, геном дрожжей, практически полные геномы Arabidopsis thaliana (растения, родственного горчице), нематоды, мухи дрозофилы - все это стандартные объекты лабораторных исследований. Количество геномов, находящихся в распоряжении фармацевтических и биотехнологических компаний, оценить трудно, хотя, по-видимому, оно составляет многие десятки и даже сотни. (Информации даже о примерном количестве расшифрованных геномов на данный момент нет. Последние сведения в сети интернет повествуют, только то, что к марту 2011 года уже расшифровано около 200 геномов людей (различных национальностей и расовой принадлежности), а также большинство известных вирусов.) Ясно, что подавляющее большинство генов в этих геномах никогда не будет исследовано экспериментально. Поэтому компьютерный анализ и становится основным средством изучения.

 

 Все это привело  к тому, что биоинформатика стала  чрезвычайно модной областью  науки, спрос на специалистов  в которой очень велик. Следует  отметить, что одним из неприятных  последствий возникшего шума  стало то, что биоинформатикой называют всё, где есть биология и компьютеры . В то же время многие области уже пережили такие моменты (например, теория информации ), и хочется надеяться, что за пеной ажиотажа не пропадет то действительно интересное, что делается в настоящей биоинформатике.

 

Следует отметить, что многие задачи из разных областей решаются сходными алгоритмами.

В последние годы возник ряд новых задач, связанных с  прогрессом в области автоматизации  не только секвенирования, но и других экспериментальных методов: масс-спектрометрии, анализа белок-белковых взаимодействий, исследования работы генов в различных тканях и условиях. При этом не только возникает необходимость создавать и заимствовать из других областей новые алгоритмы (например, для обработки результатов экспериментов в области протеомики (отрасль молекулярной биологии, изучающая кодируемые генами белки и их роль в регуляции функций организма) широко применяются методы анализа изображений), но и происходит распространение биоинформатических подходов на смежные области, например популяционную и медицинскую генетику. Существенно при этом, что роль биоинформатики не сводится к обслуживанию экспериментаторов, как это было еще несколько лет назад: у нее появились собственные задачи.

В настоящее время существует специальная литература по биоинформатике, проходят международные конференции, ведутся разработки новых алгоритмов и поиск новых путей решения задач биоинформатики. Так, например, основные журналы по биоинформатике - «Bioinformatics», «Journal of Computational Biology» и «Briefings in Bioinformatics», конференции - ISMB (Intellectual Systems for Molecular Biology) и RECOMB (International Conference on Computational Biology).

 

Коротко об основных областях исследований

 

Анализ  генетических последовательностей

Обработка гигантского количества данных, получаемых при секвенировании, является одной из важнейших задач биоинформатики

C тех пор как в 1977 году был секвенирован фаг Phi-X174, последовательности ДНК всё большего числа организмов были дешифрованы и сохранены в базах данных. Эти данные используются для определения последовательностей белков и регуляторных участков. Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены Филогенетические деревья). В наши дни для поиска по геномам тысяч организмов, состоящих из миллиардов пар нуклеотидов используются компьютерные программы. Программы могут однозначно сопоставить (выровнять) похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелких мутаций, таких как замены отдельных нуклеотидов, вставки нуклеотидов, и их «выпадения» (делеции). Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «дробного секвенирования» (которая была, например, использована Институтом Генетических Исследований для секвенирования первого бактериального генома, Haemophilus influenzae) вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600—800 нуклеотидов). Концы фрагментов накладываются друг на друга и, совмещённые должным образом, дают полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть довольно сложной задачей для больших геномов. В проекте по расшифроке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодняшний момент.

Другим примером применения компьютерного анализа последовательностей  является автоматический поиск генов  и регуляторных последовательностей  в геноме. Не все нуклеотиды в  геноме используются для задания  последовательностей белков. Например, в геномах высших организмов, большие  сегменты ДНК явно не кодируют белки  и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики.

Биоинформатика помогает связать геномные и протеомные проекты, к примеру, помогая в использовании последовательности ДНК для идентификации белков.

 

 

Аннотация геномов

В контексте геномики аннотация — процесс маркировки генов и других объектов в последовательности ДНК. Первая программная система аннотации геномов была создана в 1995 году Оуэном Уайтом (англ. Owen White), работавшим в команде, секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии Haemophilus influenzae. Доктор Уайт построил систему для нахождения генов, тРНК и других объектов ДНК и сделал первые обозначения функций этих генов. Большинство современных систем работают сходным образом, но эти программы постоянно развиваются и улучшаются.

 

 

Вычислительная  эволюционная биология

Эволюционная биология исследует  происхождение и появление видов, также как их развитие с течением времени. Информатика помогает эволюционным биологам в нескольких аспектах:

    • изучать эволюцию большого числа организмов, измеряя изменения в их ДНК, а не только в строении или физиологии;
    • сравнивать целые геномы (используя BLAST), что позволяет изучать более комплексные эволюционные события, такие как: дупликация генов, латеральный перенос генов, и предсказывать бактериальные специализирующие факторы;
    • строить компьютерные модели популяций, чтобы предсказать поведение системы во времени;
    • отслеживать появление публикаций, содержащих информацию о большом количестве видов.

Область в компьютерных науках, которая использует генетические алгоритмы, часто путают с компьютерной эволюционной биологией. Работа в этой области  использует специализированное программное  обеспечение для улучшения алгоритмов и вычислений и основывается на эволюционных принципах, таких, как репликация, диферсификация через рекомбинацию или мутации, и выживании в естественном отборе.

 

Оценка  биологического разнообразия

Биологическое разнообразие экосистемы может быть определено как  полная генетическая совокупность определённой среды, состоящая из всех обитающих  видов, была бы это биоплёнка в заброшенной шахте, капля морской воды, горсть земли или вся биосфера планеты Земля. Для сбора видовых имён, описаний, ареала распространения, генетической информации используются базы данных. Специализированное программное обеспечение применяется для поиска, визуализации и анализа информации, и, что более важно, предоставления её другим людям. Компьютерные симуляторы моделируют такие вещи, как популяционная динамика, или вычисляют общее генетическое здоровье культуры в агрономии. Один из важнейших потенциалов этой области заключается в анализе последовательностей ДНК или полных геномов целых вымирающих видов, позволяя запомнить результаты генетического эксперимента природы в компьютере и возможно использовать вновь в будущем, даже если эти виды полностью вымрут.

Часто из области рассмотрения биоинформатики выпадают методы оценки других компонентов биоразнообразия — таксонов (в первую очередь видов) и экосистем. В настоящее время математические основания биоинформационных методов для таксонов представлены в рамках такого научного направления как Фенетика, или численная таксономия. Методы анализа структуры экосистем рассматриваются специалистами таких направлений как системная экология, биоценометрия.

 

 

Примеры

 

Теперь перейдем к рассмотрению инструментов биоинформатики и непосредственному применению динамического программирования (на примере выравнивания последовательностей). Инструменты определяются задачами, которые хотят решать.

 

Основу биоинформатики составляют сравнения. Если у нас есть, например, аминокислотная последовательность, о которой у нас есть экспериментальные данные, и известны ее функции, и другая, похожая на нее последовательность, мы можем предположить, что эти последовательности выполняют сходные функции. Это задача поиска сходства последовательностей

Другая задача связана  с анализом генома. Например один бактериальный геном можно просеквенировать в хорошо оборудованной лаборатории за неделю. При этом получают длинную нуклеотидную последовательность нуклеотидов. Там есть гены – белок-кодирующие участки, и участки, кодирующие тРНК и рРНК. Возникает задача найти эти гены. Другая задача – поиск сигналов в ДНК, то есть тех участков ДНК, которые отвечают за регуляцию - сайты связывания регуляторных белков, элементы вторичной структуры мРНК, которая транскрибируется с этого гена и др.

Информация о работе Сущность биоинформатики