Информация

Скрит модел на Марков

Скрит модел на Марков


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Четох за скрития марков модел в биоинформатиката. Не мога да разбера какво е. Някой може ли да ми обясни накратко и с много прости думи какво е това?

Нямам опит в биоинформатиката или програмирането и статията в Уикипедия за това е твърде страшна.


Моделът на Марков е описание на система, която следва процес на Марков. В процес на Марков следващото състояние на системата е функция от нейното текущо състояние и не зависи от това откъде и как е започнала. Например Брауновото движение може да се нарече процес на Марков. Преходът от текущо състояние към следващо състояние се описва с вероятности.

В заключение, моделът на Марков е вероятностен модел на система, за която се предполага, че няма памет.

В скрит марков модел (HMM) състоянието(ята) на системата не са известни (следователно скрити). Въпреки това, има някои функции, които зависят от състоянието и техните изходи могат да се използват за приближаване на състоянието на системата. Има определението – не е толкова лесно да се обясни как се прилага към различни концепции (не само биоинформатика).

Строго погледнато това не е по темата. HMM не е биологична концепция. Това е статистическа/изчислителна концепция (това е като да попитате какво е динамично програмиране - което е основната концепция зад алгоритъма BLAST).


Въведение в скритите марковски модели и техните приложения в биологията

Редица системи от реалния свят имат общи основни модели сред тях и извеждането на тези модели е важно за нас, за да разберем средата около нас. Тези модели в някои случаи са очевидни при наблюдение, докато в много други, особено тези, открити в природата, са добре скрити. Освен това, присъщата стохастичност в тези системи внася достатъчно шум, за да се нуждаем от модели, способни да се справят с него, за да дешифрираме основния модел. Скритият модел на Марков (HMM) е вероятностен модел, който често се използва за изучаване на скритите модели в наблюдавана последователност или набори от наблюдавани последователности. От концепцията си в края на 60-те години на миналия век той се прилага широко в биологията за улавяне на модели в различни дисциплини, вариращи от малки ДНК и протеинови молекули, тяхната структура и архитектура, която формира основата на живота, до многоклетъчни нива, като анализ на движението при хората. Тази глава има за цел леко въведение в теорията на HMM, статистическите проблеми, които обикновено се свързват с HMM и тяхното използване в биологията.

Ключови думи: Алгоритъм на Баум–Уелч Вероятност на емисиите Максимизиране на очакванията Процедура напред-назад Скрит модел на Марков Разпознаване на образци Вероятност на прехода Алгоритъм на Витерби.


1. Скрит модел на Марков (HMM)

Преди да се задълбочим в това какво представлява скритият модел на Марков, нека разберем веригата на Марков.

Веригата на Марков е модел или вид случаен процес, който обяснява вероятностите на последователности от случайни променливи, известни като състояния. Всяко от състоянията може да вземе стойности от някакъв набор. С други думи, можем да го обясним като вероятността да бъдем в състояние, което зависи от предишното състояние. Ние използваме веригата на Марков, когато трябва да изчислим вероятността за поредица от наблюдавани събития. Въпреки това, в повечето случаи веригата е скрита или невидима и всяко състояние генерира произволно 1 от всеки к видими за нас наблюдения. Сега ще дефинираме скрития модел на Марков.


Слайдове за урок от Андрю Мур

В този урок ще започнем с преглед на моделите на Марков (известни още като Markov Chains) и след това. ще ги скрием! Това симулира много често срещано явление. има някаква основна динамична система, работеща според проста и несигурна динамика, но ние не можем да я видим. Всичко, което можем да видим, са някои шумни сигнали, произтичащи от основната система. От тези шумни наблюдения искаме да правим неща като да предвидим най-вероятното основно състояние на системата, или времевата история на състоянията, или вероятността от следващо наблюдение. Това има приложения в диагностиката на неизправности, локализацията на роботите, изчислителната биология, разбирането на речта и много други области. В урока ще опишем как с удоволствие да играете с най-безобидната математика около HMM и как да използвате затоплящ сърцето и лесен за прилагане подход, наречен динамично програмиране (DP), за ефективно извършване на повечето HMM изчисления, които бихте могли някога искам да направя. Тези операции включват оценка на състоянието, оценка на най-вероятния път на основните състояния и грандиозен (и изпълнен с EM) финал, изучаване на HMM от данни.


Популационната биология на бактериалните плазмиди: подход на скрит модел на Марков

Хоризонталният трансфер на плазмид играе ключова роля в бактериалната адаптация. В сурови условия бактериалните популации се адаптират чрез вземане на проби от генетичен материал от хоризонтален генофонд чрез самопренасящи се плазмиди и това позволява персистирането на тези мобилни генетични елементи. При липса на селекция за плазмид-кодирани черти не е добре разбрано дали и как плазмидите персистират в бактериалните общности. Тук представяме три модела на динамиката на персистирането на плазмида при липса на селекция. Моделите отчитат загубата на плазмид (сегрегация), цената на плазмида, прехвърлянето на конюгатен плазмид и грешката в наблюдението. Също така, ние представяме стохастичен модел, в който относителната годност на клетките без плазмид се моделира като случайна променлива, повлияна от процес на околната среда, използвайки скрит модел на Марков (HMM). Обширните симулации показаха, че оценките от предложения модел са почти безпристрастни. Тестовете за съотношение на вероятността показват, че динамиката на персистирането на плазмида е силно зависима от типа гостоприемник. Отчитането на стохастичността беше необходимо, за да се обяснят четири от седем набора от данни от времеви серии, като по този начин се потвърди, че устойчивостта на плазмида трябва да се разбира като стохастичен процес. Тази работа може да се разглежда като концептуална отправна точка, при която могат да бъдат тествани нови хипотези за устойчивост на плазмиди.

Фигури

Примерни детерминирани траектории (вляво) и...

Примерни детерминирани траектории (вляво) и темпове на растеж (вдясно) на хоризонталния трансфер (HT)…

За всеки от четирите бактериални…

За всеки от четирите бактериални щама (H2, R28, P21 и P18) данните...

Граници на стабилност за хоризонталната...

Граници на стабилност за модела на хоризонтален трансфер (HT), местоположение на оценения модел…

Пример за симулирана траектория...

Пример за симулирана траектория по модел за избор на променлива (VS) (триъгълници), извадка...

Оценка на представянето на…

Оценка на производителността на методите за оценка на параметрите на HMM. Хиляда данни...

Оценка на представянето на…

Оценка на производителността на методите за оценка на параметрите на HMM. Хиляда данни...


Скрит модел на Марков - Биология

Молекулярна биология в интернет

Шон Р Еди
Current Opinion in Structural Biology 1996, 6: 361-365.

„Профилите“ на протеиновите структури и подравняването на последователностите могат да открият фини хомологии. Анализът на профила е поставен на по-твърда математическа основа чрез въвеждането на методите на скрития Марков модел (HMM). През последната година приложенията на тези мощни нови HMM-базирани профили започнаха да се появяват в областите на прогнозиране на протеинова структура и мащабен анализ на геномната последователност.

Изчислителният анализ е все по-важен за извеждане на функциите и структурите на протеините [1], тъй като скоростта на секвениране на ДНК отдавна е надхвърлила скоростта, с която биологичната функция на последователностите може да бъде изяснена експериментално. Установените алгоритми за сравнение на последователности откриват значителни прилики между известните последователности на база данни и 35-80% от новите протеини, в зависимост от организма. Увеличаването на този процент е от изключителна важност. Увеличаването с един процент може да означава научаване на нещо полезно за допълнителни 700 човешки протеина до момента, в който изясняването на последователността на човешкия геном наближи завършването около 2002 г.

Методите за сравняване на двойни последователности като BLAST и FASTA обикновено предполагат, че всички позиции на аминокиселини са еднакво важни, въпреки че обикновено е налична голяма част от специфичната за позицията информация за протеин или протеинова фамилия от интерес. Множеството подравнявания на семействата на протеинови последователности показват остатъци, които са по-запазени от другите, и точките, в които вмъкванията и изтриванията са по-чести. Триизмерната (3D) структурна информация позволява структурните среди да бъдат взети предвид при оценяване на подравнени остатъци и позволява вмъкванията и изтриванията да се очакват по-често в контурите на повърхността, отколкото в основните вторични структурни елементи. „Профилът“ (дефиниран като консенсусен първичен структурен модел, състоящ се от специфични за позицията резултати от остатъци и санкции за вмъкване или изтриване) е интуитивна стъпка отвъд методите за подравняване на последователности по двойки. Профилните методи, базирани или на множество подравнявания на последователности [2] [3] [4], или на 3D структури [5] [6], са независимо разработени от редица групи и се използват широко.

Проблемът с профилите е, че са сложни модели с много безплатни параметри. Човек е изправен пред редица трудни проблеми: кои са най-добрите начини за определяне на специфичните за позицията резултати за остатъци, за оценка на пропуските и вмъкванията и за комбиниране на структурна и множествена информация за последователността? Доскоро тези въпроси обикновено се разглеждаха по ad hoc начин. Ad hoc система за точкуване може да бъде експертно настроена чрез опити и грешки, за да бъде адекватна, но все още се желае последователна математическа основа.

Въведени са нови профилни методи, използващи „скрити модели на Марков“ (HMM), за да се отговори на горните въпроси. В този преглед ще обясня какво представляват HMM, ще опиша техните силни страни и ограничения и ще подчертая как HMM-базираните профили започват да се използват при прогнозиране на протеиновата структура и мащабен анализ на геномна последователност.

Дейвид Хауслер, Андерс Крог и техните колеги от Калифорнийския университет в Санта Круз признаха, че всички профилни методи могат да бъдат изразени като HMM. Техният ясен технически доклад беше широко разпространен и работата в крайна сметка се появи в отворената литература в началото на 1994 г. [7]. По това време други групи вече проучваха базирани на HMM профилни методи [8] [9].

Скритите модели на Марков са обща техника за статистическо моделиране за „линейни“ проблеми като последователности или времеви серии и са били широко използвани в приложенията за разпознаване на реч в продължение на двадесет години. HMMs са били използвани преди в изчислителен анализ на последователността [10], включително приложения за структурно моделиране на протеини [11] [12]. Работата на Haussler беше насочена толкова ясно към популярните методи за анализ на профили, че издигна HMM в съзнанието на по-широка общност. В рамките на HMM формализма е възможно да се прилагат формални, напълно вероятностни методи към профили и подравняване на последователности с пропуски.

Ключовата идея е, че HMM е краен модел, който описва разпределение на вероятностите върху безкраен брой възможни последователности.

Удивително ясно описание на теорията на HMM е написано от Рабинер [13]. Човек говори за HMM, „генериращ“ последователност. HMM се състои от редица състояния, които могат да съответстват на позиции в 3D структура или колони с множество подравняване. Всяко състояние „излъчва“ символи (остатъци) според вероятностите за излъчване на символи и състоянията са свързани помежду си чрез вероятности за преход на състояние. Започвайки от някакво първоначално състояние, последователност от състояния се генерира чрез преминаване от състояние в състояние според вероятностите за преход на състояние, докато се достигне крайно състояние. След това всяко състояние излъчва символи според разпределението на вероятностите за излъчване на това състояние, създавайки наблюдаема последователност от символи. Фиг. 1 показва прост HMM за хетерогенна ДНК последователност [10].

Фигура 1 Прост скрит модел на Марков. Показан е HMM с две състояния, описващ ДНК последователност с хетерогенен основен състав, след работа на Чърчил [10]. (a) Състояние 1 (горе вляво) генерира AT-богата последователност, а състояние 2 (горе вдясно) генерира CG-богата последователност. Преходите на състояния и свързаните с тях вероятности са обозначени със стрелки, а вероятностите за излъчване на символи за A,C,G и T за всяко състояние са посочени под състоянията. (За по-голяма яснота началните и крайните състояния и свързаните преходи на състояния, необходими за моделиране на последователности с крайна дължина, са пропуснати.) (b) Този модел генерира последователност от състояния като верига на Марков и всяко състояние генерира символ според собствената си вероятност за излъчване разпределение (в). Вероятността на последователността е продукт на преходите на състояния и излъчванията на символа. За дадена наблюдавана ДНК последователност ние се интересуваме от извода за последователността на скритото състояние, която я е „генерирала“, тоест дали тази позиция е в богат на CG сегмент или в богат на AT сегмент.

Защо се наричат ​​скрити марковски модели? Последователността от състояния е верига на Марков, тъй като изборът на следващото състояние, което да заеме, зависи от идентичността на текущото състояние. Тази последователност на състоянието обаче не се спазва: тя е скрита. Наблюдава се само символната последователност, която генерират тези скрити състояния. Най-вероятната последователност на състоянието трябва да бъде изведена от подравняването на HMM към наблюдаваната последователност.

Като цяло, когато използваме HMM, ние се интересуваме от решаването на един от трите проблема [13]. Първо, като се има предвид съществуваща HMM и наблюдавана последователност, искаме да знаем вероятността HMM да генерира последователността (проблемът с оценката). Второ, ние искаме да знаем оптималната последователност на състоянията, която HMM ще използва за генериране на последователността (проблемът с подравняването). Трето, като се има предвид голямо количество данни, ние искаме да намерим структурата и параметрите на HMM, които най-добре отчитат данните (проблемът с обучението). Прозрението на Haussler и неговите колеги беше, че профилите могат да бъдат пренаписани като HMM и че тези проблеми са точно аналогични на проблемите за оценяване на последователности с профили, намиране на оптимално подравняване на последователност-профил и конструиране на профили от неподравнени, както и подравнени протеини или ДНК данни за последователността.

Пример за HMM-базиран профил е показан на фиг. 2. Повечето от колоните с подравняване на множество последователности са присвоени на състояния на „съвпадение“. Всяко от съвпадащите състояния има разпределение на емисиите, което отразява вероятността да се види даден остатък в тази позиция. Всяко състояние на съвпадение също е придружено от две други състояния. Състоянието на „изтриване“ не излъчва нищо, което позволява пропускането на колона, което е изтриване спрямо консенсуса. Между всяка двойка състояния на съвпадение съществува състояние „вмъкване“ и то има преход на състояние към себе си. Това позволява един или повече символи да бъдат вмъкнати във всяка точка спрямо консенсуса.

Фигура 2 Профил, базиран на HMM. Показан е пример за базиран на HMM профил от три позиции, следвайки модела, въведен от Krogh et al. [7oo]. Всяка важна колона от подравняване на множество последователности (отгоре) се моделира от триплет от състояния: съвпадение (M), вмъкване (I) и изтриване (D). За всяка моделирана колона на подравняването има 49 параметъра: девет вероятности за преминаване на състояния (стрелки), 20 вероятности за емисии на символ на състояние (съответстващи на аминокиселинните остатъци в скоби [един буквен код]) и 20 вероятности за емисии на символ на състояние ( обикновено не се научава от подравняването, а вместо това се запазва фиксирано при някакво фоново разпределение). За по-голяма яснота в този пример, всички емисии на вмъкнат символ са показани равно на 0,05, подчертавайки точката, че вмъкванията генерират по същество „случайна“ остатъчна последователност. Вероятностите за преход на състояния обикновено са склонни да предпочитат „основната линия“ през състоянията на съвпадение (удебели стрелки) пред по-редките пътища, съдържащи вмъквания и изтривания (пунктирани стрелки).

Формализмът на HMM има два основни приноса. Първо, HMM могат да бъдат обучени както от неподравнени, така и от подравнени данни, докато стандартните профили изискват предварително съществуващо многократно подравняване. Второ, базираните на HMM профили използват оправдано статистическо третиране на вмъквания и изтривания. В стандартните профили е невъзможно да се определят оптимални резултати за вмъкване/изтриване освен чрез проба и грешка, а статистическата значимост на подравняването трябва да бъде оценена чрез емпирични методи. Тъй като обработката на вмъквания и изтривания е основен проблем при разпознаването на силно различни протеинови последователности, преработването на профили като HMM обещава значително увеличаване на силата на профилите за разпознаване на отдалечени свързани структурни хомолози.

Предположения за HMM и профили

Профилите, базирани на HMM, правят две важни предположения. Първо, корелациите по двойки (или по-висок порядък) между остатъците се игнорират. HMM е модел на първична структура. Това не означава, че HMM са непременно просто модели на последователност: може да се вземе предвид 3D структурната среда на позиция. Например, 3D профили, в които оценките на остатъците се определят от структурната среда на позицията и нямат нищо общо с последователността [5], могат да бъдат полезно приложени като HMM. По подобен начин много от методите за „обратно сгъване“ на протеини, които използват така наречената „замразена апроксимация“ [14] (така че алгоритмите за динамично програмиране да могат да се използват за подравняване и оценяване), могат да бъдат изразени полезно като HMM методи. Второ, HMM предполагат, че последователностите се генерират независимо от модела. Истинските биопоследователности са свързани чрез общ еволюционен произход и са силно ненезависими. Това вероятно е основният нерешен проблем с всеки профилен метод. Моите колеги и аз [9] описахме алтернативи на методите за обучение на HMM с максимална вероятност, които компенсират предубеденото вземане на проби от последователност, причинено от еволюционните дървета, но тези методи са косвени и по същество представляват нови методи за претегляне на последователността в стил HMM. Мичисън и Дърбин [15] проучиха екстравагантно сливане на филогенезата с максимална вероятност със скрити модели на Марков, но използваните алгоритми все още не са практични в изчислително отношение.

Подравняване на множество последователности, базирано на HMM

За разлика от профилите, HMM могат да бъдат обучени от набор от неподравнени примерни последователности, произвеждайки многократно подравняване в процеса. Полето за разпознаване на реч осигурява добре проучен алгоритъм за обучение, наречен алгоритъм на Баум-Уелч, който Krogh et al. [7oo] зает. Baldi et al. [8] [16] са описали използването на алтернативен алгоритъм за обучение на HMM, използващ градиентно спускане, който изглежда също толкова ефективен. И двата подхода намират локално оптимални подравнявания, а не глобално оптимални, и понякога се забиват в неправилен оптимум. Krogh et al. [7] използва евристика за „инжектиране на шум“, за да избегне локален оптимум. Описах симулиран вариант на отгряване на подхода на Krogh, който е дори по-малко склонен към локални оптимуми [17]. Тази и свързаната с нея работа показа, че методите на HMM могат да се използват за вземане на проби за неоптимално подравняване на последователности според тяхната вероятност [18] [19].

Множественото подравняване, базирано на HMM, е интересно различно от повечето предишни методи за множествено подравняване. Параметрите за оценяване, както и подравняването са първоначално неизвестни. Следователно подравняването не изисква трудни априорни избори за оценяване на параметрите. Също така, подходът HMM избягва изчислително неразрешимия проблем за подравняване на множество последователности много към много, като го преработва като проблем за подравняване на последователност много към едно. Всъщност подравняването на последователности към общ модел на консенсус е интуитивно много по-близо до това, което искаме да представлява множественото подравняване на първо място. Настоящите HMM методи се доближават до точността на съществуващите подходи и често ще превъзхождат други алгоритми за множествено подравняване в сложни случаи, включващи много пропуски и вмъквания [17].

HMM-базирано разпознаване на протеинов хомолог

Krogh et al показаха, че първите профили, базирани на HMM, са малко по-добри от стандартните профили за разпознаване на протеинови хомологи [7]. Тим Хъбард и неговите колеги прилагат HMM методи в комбинация с инструменти за прогнозиране на вторична структура в състезание за предсказване на протеинова структура през 1994 г. Прогнозите на Хъбард са приблизително толкова точни, колкото и прогнозите, направени от много по-сложните алгоритми за нишоване за обратно сгъване на протеини [19]. HMM на Hubbard се базираха изключително на подравняване на последователности. Тъй като HMM са много подходящи за плавно комбиниране на информация за последователността и структурната среда, може да се очакват допълнителни HMM-базирани нахлувания в полетата за обратно сгъване и резба.

Недостатък на първите профилни методи, базирани на HMM, е, че те изискват голям брой последователности (> 100) за добро хомологично разпознаване. Понастоящем е постигнат значителен напредък при включването на предварителна информация за вероятностите за заместване на аминокиселини в HMMs, като се използват или „смеси на Dirichlet“ априори [20] [21] или Dayhoff PAM (процентно приета мутация) матрици за заместване [22]. Ефективни HMM за разпознаване на хомолог вече могат да бъдат конструирани от шепа последователности.

Алгоритмите за търсене на сходство по двойки (BLAST и FASTA) са ефективни при относително неорганизирани бази данни. За разлика от това, тъй като HMMs се основават на подравнени семейства на последователности вместо на единични последователности, прилагането на HMM-базирани профили към мащабен анализ на генома или база данни изисква йерархични бази данни от второ поколение на протеинови семейства и подравняване на последователности. В сътрудничество с производителите на йерархично организираната база данни SCOP (структурна класификация на протеини) [23], Erik Sonnhammer създаде база данни за подравняване на последователности на домейни и скрити модели на Марков (E Sonnhammer, SR Eddy, непубликувани данни). Тази база данни за подравняване в момента моделира 100 различни семейства протеинови домейни и е достъпна в World Wide Web (http://www.sanger.ac.uk/Pfam). Базираният на HMM анализ на протеинови домейни и семейства на повторения на ДНК започва да допълва BLAST анализа на усилията за секвениране на нематоди, дрожди и човешка ДНК в геномните центрове във Вашингтонския университет в Сейнт Луис, САЩ, и Центъра Сангер в Кеймбридж, Великобритания.

Скритите профили, базирани на модел на Марков, са решили много от проблемите, свързани със стандартния профилен анализ. HMM предоставят последователна теория за точкуване на вмъквания и изтривания и последователна рамка за комбиниране на структурна и информация за последователността. Базираното на HMM подравняване на множество последователности бързо се подобрява. Базираното на HMM хомолог разпознаване вече е достатъчно мощно, за да може HMM методите да се сравняват благоприятно с много по-сложните методи за врязване на нишки за обратно сгъване на протеини. Софтуерът за HMM-базирани профили, който ще работи на почти всяка UNIX платформа, е свободно достъпен от http://www.cse.ucsc.edu/research/compbio/sam.html или от http://genome.wustl.edu/eddy /hmmer.html.

Важно е да се има предвид, че HMM-базираните профили са много специален случай на HMM подходи. Методите на HMM се използват за различни биологични проблеми, като генно предсказване [24], прогнозиране на вторичната структура на протеини [25] и дори изграждане на радиационни хибридни карти [26].

Философията, която възприемаме при използването на HMM, е, че сложните проблеми на анализа на структурата и последователността се решават най-добре като проблеми със статистически изводи, използвайки пълни вероятностни модели. Все по-активно поле на изследване е разработването на други пълни вероятностни подходи за проблеми, по-сложни, отколкото могат да се справят HMM, като анализ на вторичната структура на РНК, използвайки стохастични безконтекстни граматики [27] [28] или справяне с корелация по двойки в протеинови последователности ( т.е. нишки методи и техния род) с помощта на произволни полета на Марков [29] [30]. Полезно е да се мисли за тези и други пълни вероятностни модели в рамките на йерархията на Чомски на формалните граматики, въведена от Чомски за проблеми в компютърната лингвистика [31]. Сърлс [32] е написал отлично въведение в използването на лингвистични подходи в анализа на биопоследователността.

Само за две години профилите, базирани на HMM, преминаха от чиста теория към практическо приложение при прогнозиране на протеинова структура и мащабен анализ на геномна последователност. Части от теорията на HMM, като използването на смесени априори на Дирихле, се интегрират в други методи за анализ [33]. Като ревностен привърженик на HMM и пълните вероятностни подходи, мисля, че полезността и обхватът на HMM приложенията в структурната биология могат само да продължат да нарастват.

Благодаря на моите колеги в дискусионната група по изчислителна биология в Кеймбридж (Обединеното кралство), особено на Греъм Мичисън и Ричард Дърбин, за потопа от идеи. Работата ми върху HMM беше любезно подкрепена от постдокторантски стипендии от Human Frontier Science Program (LT-130/92) и Националния институт по здравеопазване (1-F32-GM16932) и в момента се поддържа от Вашингтонския университет.

Референции и препоръчително четиво

1. Altschul SF , Boguski MS , Gish W , Wooton JC :
Проблеми при търсене в бази данни с молекулярни последователности.
Nat Genet 1994, 6: 119.129.

2. Бартън Дж. Дж.:
Подравняване на множество последователности на протеини и гъвкаво съвпадение на модела.
Methods Enzymol 1990, 183: 403-427.

3. Грибсков М, Маклаклан АД, Айзенберг Д:
Анализ на профила: откриване на далечно свързани протеини.
Proc Natl Acad Sci USA 1987, 84: 4355 4358.

4. Тейлър WR:
Идентифициране на хомология на протеиновата последователност чрез консенсусно подравняване на шаблона.
J Mol Biol 1986, 188: 233-258.

5. Bowie JU, Luthy R, Eisenberg D:
Метод за идентифициране на протеинови последователности, които се сгъват в известна триизмерна структура.
Наука 1991, 253: 164 170.

6. Luthy R, Bowie JU, Eisenberg D:
Оценка на протеинови модели с триизмерни профили.
Nature 1992, 356: 83 85.

7. Krogh A, Brown B, Mian IS, Sjolander K, Haussler D:
Скрити модели на Марков в изчислителната биология: приложения към протеиново моделиране.
J Mol Biol 1994, 235: 1501-1531.
Това е документът, който въвежда използването на HMM методи за профили на протеинови и ДНК последователности.

8. Baldi P, Chauvin Y, Hunkapiller T, McClure MA:
Скрити модели на Марков на информация за биологична първична последователност.
Proc Natl Acad Sci USA 1994, 91: 1059 1063.

9. Eddy SR, Mitchison G, Durbin R:
Максимална дискриминация скрити Марков модели на консенсус последователност.
J Comput Biol 1995, 2: 9.23.
Този документ представлява принципен принос в стил HMM към непрекъснато нарастващия брой методи за претегляне на последователността. Той въвежда алтернатива на оценката на параметъра за максимална вероятност, която компенсира предубеденото представяне на последователността.

10. Чърчил GA:
Стохастични модели за хетерогенни ДНК последователности.
Bull Math Biol 1989, 51: 79.94.

11. Sultz CM, White JV, Smith TF:
Структурен анализ, базиран на моделиране в пространството на състоянията.
Protein Sci 1993, 2: 305 314.

12. White JV, Stultz CM, Smith TF:
Класификация на протеини чрез стохастично моделиране и оптимално филтриране на аминокиселинни последователности.
Math Biosci 1994, 119: 35.75.

13. Рабинер LR:
Урок за скрити модели на Марков и избрани приложения за разпознаване на реч.
Proc IEEE 1989, 77: 257 × 286.

14. Годзик А, Колински А, Сколник Дж:
Топологичен подход с пръстови отпечатъци към проблема с обратния протеинов сгъване.
J Mol Biol 1992, 227: 227-238.

15. Мичисън Дж. Дж., Дърбин Р. М.:
Базирани на дърво матрици за заместване с максимална вероятност и скрити модели на Марков.
J Mol Evol 1995, 41: 1139-1151.

16. Балди П., Шовин Ю.:
Плавни он-лайн алгоритми за обучение за скрити модели на Марков.
Neural Computation 1994, 6: 305 316.

17. Eddy SR:
Множествено подравняване с помощта на скрити модели на Марков.
В доклади от Третата международна конференция по интелигентни системи за молекулярна биология. Редактирано от Rawlings C, Clark D, Altman R, Hunter L, Lengauer T, Wodak S. Menlo Park: AAAI Press, 1995, 114×120.

18. Алисън Л., Уолъс CS:
Задното разпределение на вероятностите на подравнявания и неговото приложение към оценка на параметрите на еволюционните дървета и за оптимизиране на множество подравнявания.
J Mol Evol 1994, 39: 418 × 430.
Работата на авторите е HMM по характер, но е написана на езика на теорията на информацията (минимална дължина на съобщението), а не на вероятностно моделиране (максимална вероятност). Контрастът е поучителен.

19. Кратко D :
Разпознаване на протеинови гънки.
Nat Struct Biol 1995, 2: 91.93.
Това е кратък преглед на конференцията на Asilomar, на която настоящите методи за прогнозиране на протеиновата структура бяха строго сравнени. Имайте предвид обаче, че Shortle обърква методите за нишки, които се занимават с корелации на остатъци по двойки в структурата на протеина, с HMM, които не го правят.

20. Браун М, Хюи Р, Крог А, Миан И.С., Сьоландер К, Хауслер Д:
Използването на сместа на Дирихле преди извличане на скрити модели на Марков за протеинови семейства.
Сборник доклади от Първата международна конференция за интелигентни системи за молекулярна биология. Редактирано от Хънтър Л, Сърлс Д, Шавлик Дж. Менло Парк. AAAI Press, 1993, 47.55.

21. Карплюс К:
Оценка на регулаторите за оценка на разпределението на аминокиселините.
Сборник доклади от Третата международна конференция за интелигентни системи в молекулярната биология, редактиран от Ролингс С, Кларк Д, Алтман Р, Хънтър Л, Ленгауер Т, Водак С. Менло Парк. AAAI Press, 1995, 188 196.

22. Балди П:
Матрици на заместване и скрити модели на Марков.
J Comput Biol 1995, 2: 487 × 491.

23. Murzin A, Brenner SE, Hubbard T, Chothia C:
SCOP: структурна класификация на база данни за протеини за изследване на последователности и структури.
J Mol Biol 1995, 247: 536-540.

24. Krogh A , Mian IS , Haussler D :
Скрит модел на Марков, който открива гени в ДНК на E. coli.
Nucleic Acids Res 1994, 22: 4768-4778.
Това е хубава илюстрация на силата на HMM методите за интегриране на различни видове информация в един вероятностен модел. Генният модел на Krogh включва статистическо описание на местата за свързване на рибозоми, стартови и стоп кодони, използване на кодони и междугенни повтарящи се елементи.

25. Asai K , Hayamizu S , Handa KI :
Прогнозиране на вторичната структура на протеина чрез скрития модел на Марков.
Comput Appl Biosci 1993, 9: 141 × 146.

26. Lange K, Boehnke M, Cox DR, Lunetta KI:
Статистически методи за полиплоидно радиационно хибридно картиране.
Genome Res 1995, 5: 136 × 150.

27. Еди С.Р., Дърбин Р.:
Анализ на последователността на РНК, използвайки ковариационни модели.
Nucleic Acids Res 1994, 22: 2079-2088.

28. Haussler D, Sakakibara Y, Brown M:
Стохастични безконтекстни граматики за моделиране на tRNA.
Nucleic Acids Res 1994, 22: 5112-5120.

29. Berger B , Wilson DB , Wolf E , Tonchev T , Milla M , Kim PS :
Предсказване на намотани намотки чрез използване на корелации на остатъци по двойки.
Proc Natl Acad Sci USA 1995, 92: 8259 8263.
Значението на вземането под внимание на корелациите на остатъците по двойки при анализа на структурата на протеиновата последователност е противоречиво. Ако корелацията по двойки е относително маловажна, HMM могат да бъдат толкова добри, колкото и по-сложните методи за "нишоване" за обратно нагъване на протеини за част от изчислителните разходи. Към днешна дата тази статия е един от малкото аргументи за важността на моделирането на корелации на остатъци по двойки, които намирам за убедителни. Подходът на Berger et al е просто случайно поле на Марков, въпреки че те не го наричат ​​изрично такова в статията.

30. White JV, Muchnik I, Smith TF:
Modeling protein cores with Markov random fields.
Math Biosci 1994, 124: 149 179.

31. Chomsky N :
Three models for the description of language.
IRE Transactions in Information Theory 1956, 2:

32. Searls DB :
The linguistics of DNA.
Am Sci 1992, 80: 579 591.

33. Tatusov RL , Altschul SF , Koonin EV :
Detection of conserved segments in proteins: Iterative scanning of sequence databases with alignment blocks.
Proc Natl Acad Sci USA 1994, 91: 12091 12095.


Application on Biological sequences

Let’s consider a set of functionally related DNA sequences. Our objective is to characterise them as a “family”, and consequently identify other sequences that might belong to the same family.

We start by creating a multiple sequence alignment to highlight conserved positions:

It is possible to express this set of sequences as a regular expression. The family pattern for this set of sequences is:

Each position in the regular expression represents the nucleotides in the chain. Multiple options for each position are gathered in a bracket: thus, the first element could equally be an A or a T, the second one a C or G, and so on. The element indicated with a * represents a gap area: only the A is not bracketed, because it is the only possible option of that position.

The regular expression is useful because it allows us to spot the pattern of this family of sequences in a visual and simple compact view. However, the regular expression is not an adequate method when establishing whether other sequences are part of this family.

As an example, let’s consider two new sequences 1 and 2:

Both sequences fit the regular expression given above and, based on that alone, they could be considered part of the family. However, we can see that the first sequence is formed by the nucleotides occurring the fewest times in the multiple sequence alignment, while the second is formed by those most common. Indeed, in the first position, the T is present only once in the multiple sequence alignment, while A in all other sequences, similarly for the in the second position, the G only once and C, for all remaining sequences.

We need a way to measure the “distance” between a new sequence and the original set of family sequences. To solve this problem, we can use the MC and HMM:


LESSON PLAN

The class session takes place in a room with one large table, or tables suitable for sub-groups. Lecture slides are projected on the board. Students have access to computers (laptops).

Students in Bio 4342 are required to read 'What is a hidden Markov model?' by Sean Eddy (3) prior to class. The paper is relatively short and is well-designed for non-CS readers.

The lesson plan is presented as a flowchart (Figure 2). Class starts with a brief introductory lecture followed by discussions and collaborative work.


Фигура 2. Timeline for Introduction to Hidden Markov Models Class Activities.

The lecture on HMM fundamentals is aimed at giving students a basic intuition for how ab initio gene finders identify genes within a genomic sequence. The lecturer introduces the types of problems that an HMM is designed to solve, as well as the different components of an HMM, including transition probabilities, emission probabilities, and state machines.

There are various ways to make students confortable with the probabilistic nature of the HMM. We include two PowerPoint presentations that were used as the HMM introductory lecture at Washington University. Both presentations were designed for students with similar background knowledge. One of the presentations (by Zane Goodwin) focuses primarily on the material from the Eddy paper (S1, S3). Because the students were assigned to read the Eddy paper before class, the instructor can assume that the students are already familiar with the HMM 'toy' model diagram. This pre-reading enables the instructor to spend more time on explaining how different elements of the system work. This approach also teaches students to be more confident when reading conceptual scientific publications. The second presentation (by Zongtai Qi) provides broader background information on HMMs, using weather prediction (a common choice) to introduce the concepts of hidden states and state transition probabilities before turning to the splice site prediction model. This presentation also provides a detailed explanation of the components in the 'toy' HMM model and the probability calculations for each state path (S4).

A critical aspect of the introduction is developing an understanding of how the state path probabilities are calculated. Dr. Weisstein uses a six nucleotide-long DNA sequence as an example to illustrate the states, transition and emission probabilities, and the probability associated with each state path in order to identify the most probable state path. All calculations are done manually on the board with active student participation (lecture video recording is available at Genomics Education Partnership website http://gep.wustl.edu/media/weisstein-hmm-lecture). The close interactions between the instructor and students help ensure the success of each student when they are 'playing' with the simple HMM example subsequently using the Excel workbook (S6, S10).

Students are then introduced to the Excel workbook. For ease of demonstration, the workbook begins by analyzing a very short sequence before re-creating Eddy's full, 26-bp model. The first sheet in the workbook, appropriately named "Simple Model," demonstrates the calculations involved in using the parameters of the HMM to determine the most likely splice site location (Figure 3). The user enters a short DNA sequence and sets the model parameters in the Excel worksheet, which uses these values to compute the likelihood of each potential 5' splice site location. The workbook and step-by-step instructions are provided in the S5. Based on the reflections from the Bio 4342 students at Washington University in St. Louis, we suggest that the instructor starts this activity with the Excel spreadsheet projected on the board and walk through the first worksheet, perhaps stopping at cells that are most crucial to creating the predictions. It would also be beneficial to make students aware that the homework contains questions that are based on the Excel workbook дейност.


Фигура 3. The Excel workbook “Hidden Markov Model” illustrates the mathematical workings of an HMM, using Eddy’s (2004) example of locating the 5’ splice site within a DNA sequence.

After completing the exercises associated with the "Simple Model" as a group, students move to the "Full Model" sheet, which uses the exact sequence and parameters as the Eddy publication (3) at this point students are expected to be working mostly individually.


Hidden Markov Model - Biology

Markov Models are conceptually not difficult to understand, but because they are heavily based on a statistical approach, it's hard to separate them from the underlying math. This page is an attempt to simplify Markov Models and Hidden Markov Models , without using any mathematical formulas.

Brief overview of a Model

A Markov Model , in the context of Molecular Genetics is nothing more than a series of probabilities which tell you how likely a particular sequence is to have descended from a particular "Ancestral" sequence, or vice versa, what the most probable "Ancestral" sequence is. Tada. Now you know what a Markov Model is. However, that takes most of the elegance of the process and puts it out of it's misery. The beauty of the model is that, among many other things, it can create it's own "Ancestral" sequence and set of rules.

A Markov Model (MM) can be thought of as a board game, albeit not a particularly fun board game and certainly not one I'd pull out on a lazy sunday evening, but a board game of sorts. Somewhat like a cross between snakes and ladders (since the squares are often connected to non adjacent squares) and a really weird version or trivial pursuit, where each square you land on gives you an answer instead of asking a question. However, very much different from either of those games, usually the best strategy is to stay on the same square for long periods of time.

The rules of the Markov Model Game:

1. Each square will give you a letter. (In the case of DNA, you only have a 4 letter alphabet to work with, ACTG. For proteins, with a 20 letter alphabet, you have a slightly more complex model to deal with.) Each square will give out the letters in different proportions. (Some squares will give As and C's most of the time, or some will just give out G's all the time.. but, most importantly, no two squares are the same.)
1а. Each letter has a number (or score) between 1 and 0 attached to it.
1б. At the end of the game, you multiply all of those numbers together to obtain your final score. (It's hard to keep ALL the math out of it)

2. The longer you stay on one square, the better your model is. Hence
2а. Each time you move from one square to another, you are penalized.

3. There are two squares which you can go to at any time, the delete square and the insert square, with little or no penalty attached, however they do not give you a letter and thus, no number is generated either.

The goal of the Markov Model Game.

The object of the Markov Model Game is to take any given sequence and find how likely it is to have come from your "Ancestral" sequence, that is, to obtain the highest possible score, while raking up the fewest possible penalties. Alternately, you can use a single sequence, and determine how well it fits your model. And that is exactly what we'll try to do with an example.

A really simple version of the game would have two squares, and would start with the sequence:

The two squares in this game would be:

In Square 1, you get A's and T's nearly all of the time, but you can get the Rare C or G.

In Square 2, you get C's and G's nearly all of the time, but you can get the Rare A or T.

given this example, you can tell that the best strategy for playing this round would be to stay on the first square until you've reached the 15th letter, then move over to the 2nd square. As far as the first C in the sequence (11th letter) is concerned, moving to square 2 and then back would have incurred an additional 2 moving penalties (call that strategy A), whereas staying on Square 1 and accepting a low score for that letter (strategy B) is much more likely to help you win the round.

Here's where the game becomes REALLY weird. Hidden Markov Models (HMMs) can be hidden to different degrees (1) depending on what you aren't allowed to see. A true Hidden Markov Model arises when you aren't allowed to know what squares a player took to win the game. however, you are allowed to know the sequence of letters that were emitted as they won the game. Yet, the path that the player took to get those letters can't be seen. This is really starting to stretch the model, but that would essentially be like playing the board game in the dark, while the board moves around. ok.. that's really not getting anywhere. Perhaps it's more like having someone else play the game for you, but won't tell you what square they're putting the game piece on. but you get the point. That may sound rather odd.. after all why would you want someone else to play a game for you, especially when they won't tell you what's going on?

Well, if we know what the board looks like, but not the path, we can use the theory of a Hidden Markov Model to: (2)

Problem #1: Given an observed set of letters, what's the best possible score you can obtain?
Problem #2: Given an observed set of letters, what's the best possible path you can travel?
Problem #3: How can we create a better board to play a specific game?

Unfortunately, like any board game.. how can you improve on a best seller? In fact, there is no known method to solve problem #3 mathematically, although small modifications can be found, there is no way to ever find the best possible game for any particular round. As far as I can tell, this isn't impossible, it's just that no one knows how to do it. There is always room to improve.

Regardless of what we don't know or what we want to find out, there are always some common elements to a Hidden Markov Model . We might not know all or any of them, but they the pieces that are included with the HMM game.

1. In order to do anything productive, you must know the number of squares
2. You also need to know the size of the alphabet your game uses. (DNA uses 4, Proteins use 20 or so..)
3. There is also a probability of moving from one square to the next on any given move.. consider these the dice of the game.
4. As well, there is a probability of any given square emitting a particular. a second set of dice.
5. And, last but not least, you need to know how everything starts. This is rather like monopoly, where the rule sheets tell you how much money each player gets. Although, for this game, you just need to know which square says GO.

Various types of Hidden Markov Models

An interesting consequence of Markov Models comes from the fact that you can design different boards to play on. From any one square, you don't necessarily have to be able to get to any other square and you can make paths between any two squares one directional. Imagine a four square model, where the squares are places in a box shape (yes, I do mean a square, but I don't want to make it any more confusing than it already is), and you can go from any square to any other square.

1 2
3 4

First imagine a game where you can move from any square to any other square.. this is the most "complex" case, despite being easiest to explain.

Now, to create a second game, use the same configuration, but this time you can't move diagonally.

A third game would have you start on square 1 and only move to numbers that are greater than the number that you're on. (for example.. in the order 1, 3, 4.) Obviously you'd have to stop on square 4.

A fourth game would have you only move clockwise on the squares.. 1, 2, 3, 4, 1, 2, 3. etc.

By now, you get the idea. There are an incredible number of games you can create with only 4 squares. And, naturally, you can increase the number of squares, thus increasing the number of games even further.

At any rate, you now have an endless number of games you can play on a lazy sunday afternoon. as I said before, Markov Models wouldn't be my choice of games. I'd prefer a good game of hearts or Silly Bridge or even Trivial Pursuit, but this should be good food for thought. Trivial pursuit has 73 squares, imagine how many Markov Models you could make out of that. Happy Gaming.

2. Rabiner, Lawrence R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition . Proceedings of the IEEE, vol. 77, No. 2, February 1989. P 257-286

Krough, et al. Hidden Markov Models in Computational Biology, Applications to Protein Modeling . J. Mol. Biol. (1994) 235, 1501-1531


Hidden Markov Model - Biology

All articles published by MDPI are made immediately available worldwide under an open access license. No special permission is required to reuse all or part of the article published by MDPI, including figures and tables. For articles published under an open access Creative Common CC BY license, any part of the article may be reused without permission provided that the original article is clearly cited.

Feature Papers represent the most advanced research with significant potential for high impact in the field. Feature Papers are submitted upon individual invitation or recommendation by the scientific editors and undergo peer review prior to publication.

The Feature Paper can be either an original research article, a substantial novel research study that often involves several techniques or approaches, or a comprehensive review paper with concise and precise updates on the latest progress in the field that systematically reviews the most exciting advances in scientific literature. This type of paper provides an outlook on future directions of research or possible applications.

Editor’s Choice articles are based on recommendations by the scientific editors of MDPI journals from around the world. Editors select a small number of articles recently published in the journal that they believe will be particularly interesting to authors, or important in this field. The aim is to provide a snapshot of some of the most exciting work published in the various research areas of the journal.


Гледай видеото: Using Markov models in health economic evaluation (Юни 2022).


Коментари:

  1. Weardhyll

    Според мен грешиш. Мога да защитя позицията. Пиши ми на ЛС.

  2. Dennis

    Ти си сгрешен. Нека обсъдим. Пишете ми в PM, ще поговорим.

  3. Miller

    This remarkable idea is just about

  4. Reymond

    Какво за луда мисъл?

  5. Mezikinos

    It is compliant, the very useful piece

  6. Fanous

    Благодаря за обяснението. Не знаех това.



Напишете съобщение