Информация

Колко валидни са термините GO (генна онтология)?

Колко валидни са термините GO (генна онтология)?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Търся документи, които да определят количествено валидността на онтологии като GO.

Аз съм сравнително нов в използването на термини за анотации и често чувам неща като „анотацията е разхвърляна“ и „GO е добра, но не е перфектна“. Така че бих искал да намеря документи, които дават числа за това колко разхвърлян е.

Търся отговори от всички експерти, които имат усещане за "качеството" на термините GO (както и да искате да го определите количествено). Например, каква част от термините са просто грешни? По-изчислителните части от мен искат да обобщят GO (или други онтологии) с няколко описателни статистики за валидиране. напр. "GO термините имат 80% точност и R^2 от 0,6."

Бих искал да видя още няколко примера, подобни на този документ, които показват, че добра част от GO онтологията може да бъде възстановена от самото начало от независими данни. Това изглежда като един от начините да се потвърди качеството на GO. Те включват следния ред за липсата на валидиране на GO в общата литература: „... проблемите [с последователност и пристрастия] са трудни за оценка поради липсата на какъвто и да е окончателен златен стандарт за строгото валидиране на GO“.


Има доста статии (1,2 и т.н.), които са изследвали това, мисля, че тази статия свърши чудесна работа, за да даде визуално представяне на спецификата, надеждността и покритието:


също тази статия забеляза следното:

В сравнение с електронните анотации, не е изненадващо, че курираните анотации имат значително по-ниско средно покритие (фиг. 8, вертикални линии). Всъщност основната привлекателност на електронните анотации е именно, че те се мащабират ефективно към големи количества данни. Но по отношение на надеждността и противно на настоящите вярвания, подбраните анотации, които използват доказателства, различни от експерименти от първичната литература, не се представят по-добре от електронните анотации (фиг. 8, хоризонтални линии, фиг. S9 в текст S1). Всъщност наблюдавахме по-висока надеждност за електронните анотации, отколкото за подбраните анотации (0,52 срещу 0,33). фигурният удар е фигура 8 от статията

Не знам дали просто се интересувате от надеждността на GO или търсите друг вид йерархичен метод за анотация, но напр. за ензимите има и EC номера. Мога да продължа да цитирам статията, но бих предложил да прочетете статията, от която използвах фигурите (Качество на изчислените по изчисления генни онтологични анотации). Второ, тази статия е по-нова и тук беше направено нещо подобно. Наред с други неща, те също сравняват изчислителната анотация от 2008 г. с ръчната анотация през 2010 г. за същия набор от термини GO:

Така че бих препоръчал също да прочетете Какво, къде, как и защо на генната онтология – пример за биоинформатици. Тази статия и предишната спомената статия ще ви дадат добра представа за термините на GO.


Ръчно подбрани

Увеличете общия брой редове, показвани на тази страница, като използвате падащото меню, разположено под таблицата, или използвайте превъртането на страницата в горния десен ъгъл на таблицата, за да прегледате страниците на таблицата, използвайте стрелките вдясно от заглавката на колона, за да сортирате по това колона филтрирайте таблицата, като използвате полето "Филтър" в горната част на таблицата.

ген Квалификация Генна онтология Термин Аспект Разширение за анотации Доказателство Метод Източник Присвоено на Справка

Високопроизводителна

Увеличете общия брой редове, показвани на тази страница, като използвате падащото меню, разположено под таблицата, или използвайте превъртането на страницата в горния десен ъгъл на таблицата, за да прегледате страниците на таблицата, използвайте стрелките вдясно от заглавката на колона, за да сортирате по това колона филтрирайте таблицата, като използвате полето "Филтър" в горната част на таблицата.

ген Квалификация Генна онтология Термин Аспект Разширение за анотации Доказателство Метод Източник Присвоено на Справка

Изчислителна

Увеличете общия брой редове, показвани на тази страница, като използвате падащото меню, разположено под таблицата, или използвайте превъртането на страницата в горния десен ъгъл на таблицата, за да прегледате страниците на таблицата, използвайте стрелките вдясно от заглавката на колона, за да сортирате по това колона филтрирайте таблицата с помощта на полето "Филтър" в горната част на таблицата.


Съвет 1: Познайте източника на GO анотациите, които използвате

Сайтът GO има най-изчерпателните и актуални набори от анотации (http://www.geneontology.org/GO.downloads.annotations.shtml). Всички пояснения са подкрепени с доказателства и информация за източника. Стотици анотации на GO се добавят ежедневно към базата данни на GO от над 15 основни участващи групи. Поясненията се съдържат и във външни инструменти и приложения, въпреки че те може да не се актуализират често. Ако разчитате на външни инструменти за предоставяне на GO ресурси за вашия анализ на данни, тогава трябва да знаете колко изчерпателни и актуални са анотациите на GO и онтологичните представяния, които използвате. На сайта GO са изброени най-новите дати на подаване и повечето файлове се актуализират ежеседмично. Нито един от файловете на сайта на GO не е по-стар от една година от последното подаване.


Резултати

Анализирахме два параметъра. Първо, разгледахме степента на промените в структурата на GO и в анотациите на GO между 2004 и 2015 г., като сравнихме броя на онтологичните термини и връзки, броя на анотациите на GO за човешкия геном и броя на анотираните човешки гени. След това анализирахме ефектите от тези промени върху значимостта на p-стойностите за обогатените GO термини и върху цялостната последователност на резултатите от анализа за обогатяване на GO (Фиг. 1).

Преглед на методите. Ние анализирахме (1) промени във входните променливи на анализите за обогатяване на GO и (2) как тези промени повлияха на резултатите от анализа на обогатяването с течение на времето.

Количествено определяне на промените в GO през 2004–2015 г

Първо анализирахме степента на промените между 2004 и 2015 г. в генната онтология, GO анотациите и човешките гени. Сравнихме броя на онтологичните термини и връзки, както и броя на анотациите, описващи човешкия геном. През 11-те години между февруари 2004 г. и януари 2015 г. броят на термините в GO се е увеличил с 2,5 пъти (от 16 139 на 40 810 допълнителна фигура 1A), а броят на термините на GO, използвани за анотация на човешки гени, се е увеличил с 3,8 пъти (от 2,972 до 11,403 Допълнителна фигура и 1B). През същия период броят на връзките между термините се е увеличил с 3,5 пъти (от 21 998 на 78 078 допълнителна фигура 1А). В онтологиите на биологичния процес и молекулярната функция, които са най-информативните онтологии за анализи на обогатяване, увеличението се дължи главно на 64 935 нови връзки и 23 249 нови термини GO. В същото време 6 833 връзки бяха изтрити и 2 356 термина и 553 релации бяха съпоставени с нови термини и връзки (допълнителна фигура 1C). Освен това, броят на анотациите се е увеличил с 6,3 пъти (19 616 през 2004 г. до 109 162 през 2015 г., фиг. 2А). Следователно, делът на протеин-кодиращите човешки гени с поне една GO анотация се е увеличил от 32% на 65%.

Развитие на анотацията на генната онтология, човешки геном, 2004 до 2015 г. (А) Брой анотации на GO и тяхното разпределение между лошо характеризирани (сини) и добре характеризирани (златни) човешки гени във времето. (Б) Състояние на GO анотацията на човешкия геном (2004 срещу 2015). Гените се класифицират според статуса на анотацията в нехарактеризирани (черни) срещу лошо характеризирани (сини) срещу добре характеризирани (златни). Бяха преброени само термини, подходящи за резултатите от анализа на обогатяване (с изключение на: IEA, ND и клетъчен компонент). ° С) Сравнението на средното информационно съдържание (IC) на лошо характеризирани спрямо добре характеризирани човешки гени през 2015 г. показва, че средният IC за гени с повече анотации е по-висок (p = 4e-229). Същата разлика се наблюдава през 2004 г. (p = 2e-19, допълнителна фигура 4).

След това тествахме прагове между 5 и 15 анотации на ген, за да дефинираме добре характеризирани гени. Независимо от прага, използван за дефиниране на добре характеризирани гени, открихме, че въпреки увеличаването на броя на анотираните гени, разпределението на анотациите остава изкривено (допълнителна фигура 2 и допълнителна таблица 1). Въз основа на тези резултати произволно дефинирахме добре характеризирани гени като тези с >10 GO анотации и лошо характеризирани гени като тези с ≤10 анотации. При този праг само 16% от кодиращите протеини човешки гени през 2015 г. са имали повече от 10 анотации всяка (58% от анотациите на GO), докато 49% от гените, кодиращи протеини, са имали 10 или по-малко анотации (42% от анотациите на GO Фиг. 2A,B). Освен това открихме, че 9,2% от гените, кодиращи протеини, представляват 44% от анотациите на GO, когато се използва по-строг праг от ≥15 GO анотации, докато 38% от гените, кодиращи протеини, представляват 83% от анотациите на GO, когато се използва снизходителен праг за >5 GO анотации. Важно е, че една трета от кодиращите протеини човешки гени все още нямат анотации. Това отклонение се запази дори когато в анализа бяха включени електронно изведени анотации, където 69% от анотациите бяха за 27% от човешките гени (допълнителна фигура 3). Възможно е някои от тези гени да нямат анотации, тъй като кураторите все още не са прегледали съответната литература. Въпреки това, широко разпространената практика за формиране на нови хипотези, базирани на анализи за обогатяване и подбор на добре проучени гени с много анотации за по-нататъшно изследване — и следователно публикуване — също е отговорна за това изкривяване 25 . Например, беше показано, че 11-генов подпис диагностицира сепсис 2 до 5 дни преди клиничната диагноза 26 и се представя по-добре от настоящите клинични тестове 27 . За съжаление, 7 гена имаха <10 документи, свързани с тях в базата данни на NCBI Entrez Gene. За разлика от това, >7,700 публикации са свързани с туморния супресор TP53 в Entrez Gene. Това несъответствие ясно показва необходимостта от подобряване на функционалната анотация на човешкия геном.

Ние също така измерихме отклонение чрез оценка на разликата в средното информационно съдържание (IC) на анотациите за по-малко и по-обстойно проучени гени. IC на термина GO определя количествено спецификата на термина в контекста на целия набор от анотации. Очаква се термините, обозначаващи много гени, да бъдат общи и следователно да имат нисък IC. Термините, обозначаващи само няколко гена, са специфични и имат висок IC. Тъй като броят на анотациите за даден термин се разпространява до всички негови родителски термини, термините от високо ниво винаги имат по-нисък IC от техните по-специфични дъщерни термини. Изчислихме средния IC за по-малко и по-обстойно проучени гени, за да определим количествено дали това увеличение на анотацията също представлява увеличение на нова информация (т.е. точни и специфични термини с висок IC) или излишна информация (например добавяне само на общи термини с нисък IC). Установихме, че средният IC на задълбочено проучените гени е по-висок от средния IC на по-малко проучените гени (p = 4e-229 Фиг. 2C, допълнителна фигура 4), което показва, че задълбочено изследваните гени имат специфични и подробни анотации, които липсват в повечето от по-малко проучените гени. Взети заедно, тези резултати илюстрират, че въпреки голямото увеличение на генната онтология и GO анотациите на човешките гени между 2004 и 2015 г., има значително пристрастие към малък набор от гени, което от своя страна може да окаже значително влияние върху анализа на обогатяването на GO, неговата последователност над време и в крайна сметка върху интерпретацията на молекулярните данни.

Развитието на GO влияе върху последователността на резултатите от анализа за обогатяване

За да оценим как промените в GO и неговите анотации влияят на интерпретацията на списък с диференциално експресирани гени, ние събрахме профили на експресия на целия геном от повече от 23 000 човешки проби в 377 независими набора от данни от 92 заболявания. След това, за всяко заболяване, ние приложихме рамка за многокохортен анализ, за ​​да идентифицираме генните сигнатури на болестта. Доказано е, че тази рамка 28 идентифицира възпроизводими генни сигнатури 29 в множество независими кохорти при различни болестни състояния, включително бактериални и вирусни инфекции, трансплантация на органи и рак за идентифициране на диагностични и прогностични сигнатури на заболяването, нови цели за лекарства и повторно използване на одобрени от FDA лекарства 26 ,29,30,31,32,33,34 . След това направихме анализ на обогатяване на GO чрез традиционни статистически методи за свръхпредставяне за всеки сигнатур на ген на заболяването, произвеждайки набор от обогатени GO термини. Повторихме този анализ, използвайки всички комбинации от исторически версии на генната онтология и версии на GO анотации по година и наблюдавахме промените в p-стойността във времето. Освен това, ние изчислихме последователността на резултатите от анализа за обогатяване на GO за дадено заболяване с течение на времето, използвайки индекса на Jaccard 24 като мярка за припокриване между два набора от обогатени GO термини, за да определим количествено промените в резултатите с развитието на GO. Избрахме индекса на Jaccard пред други показатели, като подхода на заровете, поради неговата устойчивост към ниско припокриване между набори, както и към промени в размерите на наборите, като и двете е много вероятно да се появят в нашия анализ. Резултатът за последователност от 0 показва, че два резултата от анализа за обогатяване са напълно различни, докато резултат 1 показва, че и двата анализа са произвели един и същ набор от обогатени термини. Използвахме този резултат, за да проучим промените в резултатите от обогатяването в пълния набор от сигнатури на гени на болестта, като използвахме версията на анотацията и онтологията от март 2015 г. като наша справка.

Първо, сравнихме всеки сигнатур на заболяването между различни версии на онтологията, като запазихме версията на анотацията постоянна до януари 2015 г. (най-новата анотация, независима от нашата справка). Наблюдавахме увеличение на средната последователност от 0,27 през 2004 г. до 1 през 2015 г. (допълнителна фигура 5A). Тази голяма разлика отразява значителното преструктуриране на GO през последното десетилетие. Устойчивостта на тенденцията също така предполага наличието на малки промени в структурата на GO, които са стабилни и се разпространяват всяка година.

След това променихме версията на анотацията, като запазихме версията на онтологията постоянна до януари 2015 г. и наблюдавахме ниска последователност до 2010 г. (среден диапазон на последователност: 0,038 до 0,1), последвано от постоянно увеличение до 2015 г. (допълнителна фигура 5B). Наблюдавахме същите тенденции при включването на електронни анотации (допълнителна фигура 5C, D). Увеличаването на дела на добре характеризираните гени е силно свързано с консистенцията (R (корелация на Пиърсън) = 0,984 Допълнителна фигура 6). Открихме подобни резултати при отделните сигнатури на заболяването (Допълнителна фигура 7A,D). Например, анализирахме генни сигнатури за грипна инфекция 34, както и рак на панкреаса и недребноклетъчния белодробен рак и наблюдавахме тенденции в съответствие с нашите общи резултати. Взети заедно, тези резултати предполагат, че промените в GO и нейните анотации имат съществен ефект върху резултатите от анализите за обогатяване, което от своя страна може да доведе до различни интерпретации за един и същ експеримент в зависимост от това кои версии на GO и GO анотацията са били използвани за анализ.

Еволюцията на GO влияе върху значимостта на p-стойността на обогатените GO термини

След това анализирахме ефектите от годишните актуализации на GO и GO анотации върху значимостта на p-стойностите за обогатени GO термини, за да наблюдаваме общите тенденции за специфични заболявания. По този начин променихме и онтологията, и анотациите GO заедно. За този тест наблюдавахме промените в p-стойността за всички термини на биологичния процес, които бяха счетени за значими от поне една версия на GO за три заболявания: грип, недребноклетъчен рак на белия дроб и рак на панкреаса (Фиг. 3). За сигнатурата на грипния ген предположихме, че детските термини на онтологията се разклоняват процес на имунната система или отговор на стимул ще бъде статистически значим, тъй като стимулът, индуциран от грипния вирус, предизвиква имунен отговор в гостоприемника чрез транскрипционна промяна на грипните сигнатурни гени. Въпреки това, анализът на нашия набор от гени за грипни сигнатури върна най-много 15 термина с p-стойности < 0,05 преди 2011 г. и нито един от значимите термини не беше дъщерни термини на тези клонове (Фиг. 3А). Има две причини за липсата на значимост: (1) терминът процес на имунната система беше добавен към GO през септември 2006 г. и (2) не бяха отбелязани достатъчно гени с термините в този клон. Въпреки това от 2012 г. много термини, свързани с имунната система и стимулите, станаха значими.

Значение на термините на биологичния процес GO във времето с годишни актуализации на версията GO (година на версията GO = година на версията на GO анотацията). Развитие на значимостта на р-стойността при анализа на обогатяването на GO. Наборите от термини в различни версии на GO са показани за подгрупи от значително обогатени термини на биологичен процес (p-стойност < 0,05 в поне една версия на GO) при три представителни заболявания: (А) грип, (Б) недребноклетъчен рак на белия дроб и (° С) рак на панкреаса. Термините, принадлежащи към избрани клонове от най-високо ниво в онтологията на биологичния процес, са обозначени в цвят (напр. клетъчен процес във виолетово).

По същия начин, за генните сигнатури на рак на белия дроб и панкреаса, ние предположихме, че термините в клетъчен процес клон ще бъде статистически значим, тъй като събитията, свързани с клетъчния цикъл, са от съществено значение за оцеляването на рака (Фиг. 3B,C: лилаво). За разлика от грипа, анализът за обогатяване на GO на сигнатурите на рака нямаше точка на пречупване, след която термините от клетъчен процес клон стана значителен. Вместо това, за сигнатурите на раковите гени, наблюдавахме чести промени между значителни и незначителни p-стойности за отделните GO термини, което показва, че резултатите от обогатяването за сигнатури на рак са нестабилни във времето. Тези резултати отново показват, че различните версии на GO и неговите анотации могат да осигурят различни интерпретации на един и същ експеримент.

Развитието на GO влияе върху интерпретацията на резултатите от анализа на обогатяването

Проучихме как интерпретацията на сигнатура на заболяването ще се промени с еволюцията на GO, като използвахме същите три сигнатура на заболяването, както по-горе. За всеки подпис направихме анализи за обогатяване, използвайки всяко възможно сдвояване на версии на онтология и анотация от 2004 г. насам и идентифицирахме значително обогатени GO термини. В допълнение, ние изчислихме броя на гените, които бяха анотирани с термин от интерес, включително всички детски термини, в сигнатурата на заболяването и референтния генен набор, използван за изчисляване на p-стойности във времето. И накрая, изчислихме IC на GO термин, който представлява интерес, за да видим дали отклонението - количествено измерено чрез IC - може да повлияе на интерпретацията на анализите.

За да проверим колко добре различните версии на GO представляват настоящите познания, ние изследвахме установените механизми на заболяването, които се очакваше да бъдат идентифицирани при анализи на избраните заболявания. Първо, анализирахме резултатите от грипна инфекция. От 1981 г. е известно, че при инфекция гостоприемникът създава защитна реакция, като произвежда интерферон-гама 35, който от своя страна активира стимулирани с интерферон гени. Затова очаквахме срока отговор на интерферон-гама да бъдат значими в нашия анализ. Терминът обаче се обогати едва когато използвахме версии на GO, направени от 2012 г. (фиг. 4А). Редица фактори допринесоха за това положение. Първо, терминът отговор на интерферон-гама не съществуваше в GO до март 2008 г. Второ, след като терминът беше въведен, той беше анотиран с много малко гени (фиг. 4B): до 2011 г. само 15 гена бяха анотирани с този термин, от които само два бяха включени в 967 гена от нашата сигнатура за грипна инфекция. Следователно, IC за термина е висок (>7.5) до 2011 г., което показва, че той е бил използван за анотиране на няколко гена (фиг. 4C). Като броя на гените, отбелязани с отговор на интерферон-гама се увеличава до 87 през 2012 г., нейният IC намалява до 5,6. Това увеличение на анотациите и гените за отговор на интерферон-гама вероятно се дължи на предпочитанията за изследване, тъй като съвпада с повишен изследователски интерес към грипната инфекция след пандемията от грип H1N1 през 2009 г. Търсене в PubMed разкри, че през 2008 г. са публикувани 2824 статии, свързани с грипа. Този брой се е увеличил до 5 586 през 2010 г. Разумно е да се предположи, че са били необходими две години, за да бъде отразена тази увеличена изследователска продукция в анотациите на GO, когато съответните термини правилно показаха статистическа значимост за генния сигнатур. Тези наблюдения подчертават как преди 2012 г. експерименталните данни за грип може да са били тълкувани погрешно или по-лошо, смятани за неубедителни и изхвърлени.

Ефект на версията на онтологията и анотацията върху последователността и значимостта на резултатите от анализа за обогатяване на GO. (А) Ефект при грип за термина GO отговор на интерферон-гама. (Б) Брой човешки гени, анотирани с термина GO отговор на интерферон-гама (включително всички детски термини) в набора от гени за грип спрямо фона. (° С) Сравнение на развитието на р-стойността и информационното съдържание (IC) с годишни актуализации на анотациите GO и GO (година на версията GO = година на версията на анотацията на GO) за отговор на интерферон-гама при грип. (д) GO термин обогатяване значение за клетъчен цикъл при недребноклетъчен рак на белия дроб (вижте допълнителна фигура 8 за рак на панкреаса). (Е) Брой човешки гени, анотирани с термина GO клетъчен цикъл (включително детски термини) в генни набори на панкреаса и недребноклетъчен рак на белия дроб спрямо фона (човешки геном). (Ф) Сравнение на р-стойността на обогатяването и разработките на IC с годишни актуализации на GO и GO анотации за клетъчен цикъл при рак на панкреаса и недребноклетъчен рак на белия дроб.

Наблюдавахме подобни резултати, когато анализирахме термина клетъчен цикъл в два сигнатура за рак. Ролята на нерегулирания клетъчен цикъл при рак е добре установена от 60-те години на миналия век 36 . Терминът клетъчен цикъл съществува в GO от март 2001 г. и 386 човешки гена бяха анотирани с термина (или всякакви детски термини) през 2004 г. Въпреки това, клетъчен цикъл не е значимо за нито един от сигнатурите на раковия ген до 2008 г. (фиг. 4D, допълнителна фигура 8), или до анотациите от 2007 г., ако са включени електронни анотации. Въпреки това, за разлика от отговор на интерферон-гама, клетъчен цикъл е по-общ термин. Неговият IC от 2004 до 2010 г. беше 6,5 (диапазон: 6,3 до 6,7), който спадна до 4,6 през 2011 г., тъй като броят на гените, анотирани с този термин или някой от неговите детски термини, се увеличи от 379 на 587 през 2011 г. и остава постоянен от след това (фиг. 4Е). Тъй като повече гени бяха анотирани с клетъчен цикъл, наблюдавахме повишаване на значимостта на термина (фиг. 4Е). Интересното е, че докато терминът продължава да бъде статистически значим за подписа на рак на панкреаса, той не е значим за сигнатурата за рак на белия дроб (Фиг. 4F). Тази тенденция не беше засегната дори когато бяха взети предвид електронните анотации. Тези резултати отново илюстрират как интерпретацията на генен набор може да се промени с еволюцията на GO и неговите анотации.


Въведение

Днешните високопроизводителни експерименти измерват експресията на хиляди гени едновременно с помощта на микрочипове, RNA-Seq или различни протеомични подходи. Експериментите с ChIP-on-chip или ChIP-Seq се използват за определяне на модела на свързване на ДНК в целия геном на специфичен протеин, който може да засегне голям брой гени. Новите геноми се секвенират с все по-нарастващи темпове и техните гени се характеризират с базиран на хомология трансфер на анотация. За да се интерпретират резултатите от подобни експерименти, се използва статистическо тестване за свръх- и недостатъчно представяне на генни функционални категории [1]. Формалността и структурата, заедно с обширното ръчно управление, направиха генната онтология (GO) [2] предпочитан речник в тези анализи. Съществуват множество уеб сървъри, които да подпомогнат тази задача, включително, но не само: L2L [3], FatiGO [4], GORilla [5] или agriGO [6].

Тъй като високопроизводителните техники стават по-евтини и по-точни, те откриват дори леки промени в генната експресия или други измерени свойства. Списъците на съответните гени ще нарастват по размер, както и получените списъци с термини GO. Освен това, излишъкът в получения набор от термини GO обърква тълкуването и увеличава възприемания брой на биологично релевантните резултати. Това често се случва при анализиране на термини във връзка родител-дете, напр. родителският термин „GO:0009058 биосинтетичен процес“ напълно обхваща неговия дъщерен термин „GO:0008610 липиден биосинтетичен процес“. В списък с термини, обогатени със свръхекспресирани гени, ако детският термин има високо статистически значимо обогатяване, родителският термин може да изглежда значително обогатен само като последица от включването на всички гени от детския термин.

По този начин възниква необходимост от софтуер, който да допълни гореспоменатите сървъри, които тестват за обогатяване на GO категория, като се започне от техния изход и предоставя възможност за обобщаване и визуализиране на тези данни. Доколкото ни е известно, инструменти, които биха помогнали на изследователите при интерпретацията на дългосрочни списъци на GO са оскъдни, въпреки че някои уеб сървъри са направили стъпка в тази посока, напр. GORilla [5] предлага визуализация на обогатените GO категории, насложени върху стандартната GO графична структура. Съвсем наскоро беше предоставен софтуер, наречен RedundancyMiner [7], който се опитва да се справи по-пряко с проблемите на интерпретируемостта в списъците с термини GO, ние разглеждаме неговите характеристики по-подробно в раздела Резултати и дискусия по-долу.

В същия дух изследователите могат да се опитат да опростят дългосрочните списъци на GO, като заменят пълната генна онтология с „GO Slims“, съкратени версии на генната онтология. GO slims обаче са ограничени до общи (високо ниво) термини GO, които обикновено са по-малко интересни от по-фините термини – тези, които са премахнати от GO slims. По този начин проблемът с премахването на излишните GO термини не се решава лесно чрез премахване на потомците (или предците) на GO термините по този начин. Сложната структура на GO гарантира решение, което взема предвид близостта на термините в графиката на GO, количествено изразена с GO термина „семантично сходство“ мерки [8].

Внедрихме изчислителен подход, който (а) обобщава дълги GO списъци чрез намаляване на функционалните излишъци и (б) визуализира останалите GO термини в двуизмерни графики, интерактивни графики, дървета или облаци от етикети. И етапът на обобщаване, и стъпката на визуализация се основават на концепцията за семантично сходство на термина GO, разгледана в [8]. По-специално се поддържат няколко общи мерки за семантично сходство [9], които използват подхода на „най-информативния общ предшественик“. Внедряването е свободно достъпно като REVIGO Web сървър на адрес http://revigo.irb.hr/.


Консорциумът по генна онтология: Генна онтология: инструмент за обединяване на биологията. Нат Женет. 2000, 25: 25-29. 10.1038/75556.

Скунка Н, Алтенхоф А, Десимоз С: Качество на анотациите на генната онтология, изведени чрез изчисление. PLoS Компютърна биол. 2012, 8: e1002533-10.1371/journal.pcbi.1002533.

Blake JA, Dolan M, Drabkin H, Hill DP, Li N, Sitnikov D, Bridges S, Burgess S, Buza T, McCarthy F, Peddinti D, Pillai L, Carbon S, Dietze H, Ireland A, Lewis SE, Mungall CJ , Gaudet P, Chrisholm RL, Fey P, Kibbe WA, Basu S, Siegele DA, McIntosh BK, Renfro DP, Zweifel AE, Hu JC, Brown NH, Tweedie S, Alam-Faruque Y: Анотации и ресурси на генната онтология. Нуклеинови киселини Res. 2013, 41 (Издаване на база данни): D530-D535.

Balakrishnan R, Harris MA, Huntley R, Van Auken K, Cherry JM: Ръководство за най-добри практики за ръчна анотация на генната онтология (GO). База данни. 2013, 2013: bat054-

Dimmer EC, Huntley RP, Alam-Faruque Y, Sawford T, O'Donovan C, Martin MJ, Bely B, Browne P, Mun Chan W, Eberhardt R, Gardner M, Laiho K, Legge D, Magrane M, Pichler K, Poggioli D, Sehra H, Auchincloss A, Axelsen K, Blatter MC, Boutet E, Braconi-Quintaje S, Breuza L, Bridge A, Coudert E, Estreicher A, Famiglietti L, Ferro-Rojas S, Feuermann M, Gos A: The UniProt-GO база данни с анотации през 2011 г. Nucleic Acids Res. 2011, 40 (Издание на база данни): D565-D570.

Rhee SY, Wood V, Dolinski K, Draghici S: Използване и злоупотреба с анотациите на генната онтология. Nat Rev Genet. 2008, 9: 509-515. 10.1038/nrg2363.

Du Plessis L, Skunca N, Dessimoz C: Какво, къде, как и защо на генната онтология – начален курс за биоинформатици. Кратка биоинформация. 2011, 12: 723-735. 10.1093/bib/bbr002.

Блейк JA: Десет бързи съвета за използване на генната онтология. PLoS Компютърна биол. 2013, 9: e1003343-10.1371/journal.pcbi.1003343.

Burge S, Kelly E, Lonsdale D, Mutowo-Muellenet P, McAnulla C, Mitchell A, Sangrador-Vegas A, Yong S-Y, Mulder N, Hunter S: Ръчна GO анотация на прогнозни протеинови сигнатури: подходът InterPro към GO курирането. База данни (Оксфорд). 2012, 2012: bar068-

: UniProt-GOA Последни бележки към файла с анотации. [http://www.ebi.ac.uk/GOA]

Khodiyar VK, Hill DP, Howe D, Berardini TZ, Tweedie S, Talmud PJ, Breckenridge R, Bhattarcharya S, Riley P, Scambler P, Lovering RC: Представянето на развитието на сърцето в генната онтология. Dev Biol. 2011, 354: 9-17. 10.1016/j.ydbio.2011.03.011.

Alam-Faruque Y, Dimmer EC, Huntley RP, O'Donovan C, Scambler P, Apweiler R: Инициативата за анотиране на онтология на бъбречните гени. Органогенеза. 2010, 6: 71-75. 10.4161/org.6.2.11294.

UniProt-GOA Gene Ontology браузър QuickGO. http://www.ebi.ac.uk/QuickGO]

Alam-Faruque Y, Huntley RP, Khodiyar VK, Camon EB, Dimmer EC, Sawford T, Martin MJ, O'Donovan C, Talmud PJ, Scambler P, Apweiler R, Lovering RC: Въздействието на фокусираната генна онтология куриране на специфични бозайници системи. PLoS One. 2011, 6: e27541-10.1371/journal.pone.0027541.

Groß A, Hartung M, Prüfer K, Kelso J, Rahm E: Въздействие на еволюцията на онтологията върху функционалните анализи. Биоинформатика. 2012, 28: 2671-2677. 10.1093/биоинформатика/bts498.

Mutowo-Meullenet P, Huntley RP, Dimmer EC, Alam-Faruque Y, Sawford T, Jesus Martin M, O'Donovan C, Apweiler R: Използване на анотация на генната онтология за разбиране на протеома на пероксизома при хората. База данни (Оксфорд). 2013, 2013: bas062-

Uhlen M, Oksvold P, Fagerberg L, Lundberg E, Jonasson K, Forsberg M, Zwahlen M, Kampf C, Wester K, Hober S, Wernerus H, Björling L, Ponten F: Към основан на знания човешки протеинов атлас. Nat Biotechnol. 2010, 28: 1248-1250. 10.1038/nbt1210-1248.

Merle A, Rosenfelder H, Schupp I, del Val C, Arlt D, Hahne F, Bechtel S, Simpson J, Hofmann O, Hide W, Glatting KH, Huber W, Pepperkok R, Poustka A, Wiemann S: Базата данни LIFEdb в 2006. Нуклеинови киселини Res. 2006, 34 (Издание на база данни): D415-D418.

Schnoes AM, Ream DC, Thorman AW, Babbitt PC, Friedberg I: Отклонения в експерименталните анотации на протеиновата функция и техният ефект върху нашето разбиране за пространството на протеиновата функция. PLoS Компютърна биол. 2013, 9: e1003063-10.1371/journal.pcbi.1003063.

Clark JI D n, Dimmer EC, Mungall CJ: Формализиране на ограничения, базирани на таксони, за откриване на несъответствия в развитието на анотацията и онтологията. BMC Биоинформатика. 2010, 11: 530-10.1186/1471-2105-11-530.

Barrell D, Dimmer E, Huntley RP, Binns D, O’Donovan C, Apweiler R: Базата данни на GOA през 2009 г. – интегриран ресурс за анотация на генната онтология. Нуклеинови киселини Res. 2009, 37 (Издание на база данни): D396-D403.


Разбирането на ефектите от вирусната инфекция обикновено се фокусира върху специфични взаимодействия вирус-гостоприемник, като тъканен тропизъм, имунни отговори и хистопатология. Въпреки това, моделирането на вирусната патогенеза изисква информация за функциите на генните продукти както от вируса, така и от гостоприемника, и как тези продукти взаимодействат. Recent developments in the functional annotation of genomes using Gene Ontology (GO) and in modeling functional interactions among gene products, together with an increased interest in systems biology, provide an excellent opportunity to generate global interaction models for viral infection. Here, we review how the GO is being used to model viral pathogenesis, with a focus on animal viruses.

Ние използваме бисквитки, за да помогнем да предоставим и подобрим нашите услуги и да персонализираме съдържанието и рекламите. Продължавайки, вие се съгласявате с използване на бисквитки .


From Chris Mungall, 8/19/2011:

The taxon checks are run weekly, and the reports deposited here:

Note that this service will be subsumed into a more comprehensive annotation QC service (apologies if you weren't at the USC meeting, where this was demoed). This is, in general, the plan for many of the ad-hoc scripts and cron reports we perform now. I will send an email to the GOC list next week describing the roll-out process for this.

For the QC checks, the idea is to push the checking as far upstream as possible. A weekly report is too reactive. This could be done at the time of submission. Even better, the annotation tool could use the central web service at the time of annotation.


G-SESAME Gene Semantic Similarity Analysis and Measurement Tools

G-SESAME is a set of on-line tools to measure the semantic similarities of Gene Ontology (GO) terms and the functional similarities of gene products, and to discover biomedical knowledge through GO database. These tools are originally based on the G-SESAME paper in 2007. They were developed using MariaDB, PHP and hosted by an Apache Web server running on a Linux operating system (CentOS 7). New methods taking into account the statistical distribution of the GO database are implemented as a new features. Other state-of-the-art methods were also implemented to allow researchers to choose the best methods on their own needs.

Visualization techniques are provided in these tools to allow users to inspect the locations of the GO terms within the GO graph and to visually determine the semantic similarity. A batch command interface is also provided for users to execute the tools to measure the semantic similarity of a group of GO terms or functional similarities of a group of genes. Web based APIs are also provided for advanced users.

G-SESAME tools have been used more than 82.2 million times by researchers from 1002 organizations between October 2006 and March 2018 according to our web log records.. G-SESAME is currently using the gene ontology database published by the gene ontology consortium in Dec, 2016.


Авторски приноси

Conceptualization: A.J.B., E.A.T., A.L.T. Methodology: A.J.B. Formal analysis: A.J.B., E.A.T. Investigation: A.J.B. Writing - original draft: A.J.B., A.L.T. Writing - review & editing: A.J.B., E.A.T., A.L.T. Funding acquisition: A.J.B., A.L.T.

This research was supported by the National Science Foundation (Division of Integrative Organismal Systems) through a Doctoral Dissertation Improvement Grant (IOS-1311512) to A.J.B. and A.L.T.

Наличност на данни

Data are publicly available at NCBI SRA (P. fuscatus: PRJNA287145 and P. metricus: PRJNA287152), DDBJ/EMBL/GenBank (P. fuscatus: GDFS00000000.1 and P. metricus: GDHQ00000000.1) and NCBI GEO (P. fuscatus: GSE70964 and P. metricus: GSE70963).


Гледай видеото: Алин Савелий Онтология нового мира (Август 2022).