Информация

Има ли начин да се разбере дали генът е функционален за индивид само с референтна последователност и последователност на гена на индивида?

Има ли начин да се разбере дали генът е функционален за индивид само с референтна последователност и последователност на гена на индивида?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Имам генна последователност от един тон индивиди в рамките на подвид от cdna и ncbi IDed последователност също. Има ли някакъв начин да се каже, използвайки само последователността, че генът на индивида не функционира или е само частично функционален?


Като цяло, не. Може да има конкретни случаи, в които можете, например ако има стоп кодон, или мутация с изместване на рамката в началото, или някой друг е видял вашия точен вариант и експериментално е доказал, че той няма функция.

Но като цяло не можете да предвидите функция от в силико само данни.


Възможно е да се получи прогноза за промяната, причинена от мутация с помощта на програми като Sift или polyphen (само за човешки протеини), но това са само груби оценки


Не знам нивото ви на знания, така че това може да ви се стори много очевидно, но...

  • Превеждането му в шестте кадъра ви дава някои намеци. Ако последователността се е дегенерирала и е пълна със стоп кодон, тогава тя е нефункционална.

  • Подравнете последователностите с Mega или AliView или каквото и да било, след което ги преведете. Ако във вашата последователност има мутация с изместване на рамката, тя става много видима в подравняването и има вероятност последователността вече да не функционира.

  • Намерете информация за домейна на протеина в Pfam и разгледайте отблизо подравняванията във функционалния домейн. Ако иначе запазените остатъци са мутирани, това трябва да бие звънец. (Тъй като всичките ви последователности ще бъдат много подобни една на друга, може да искате да добавите някои последователности от протеин от други видове, така че да можете да намерите по-лесно активните остатъци в рамките на домейна)


GOToolBox: функционален анализ на генни набори от данни, базиран на генната онтология

Разработихме методи и инструменти, базирани на ресурса на генната онтология (GO), позволяващи идентифицирането на статистически прекалено или недостатъчно представени термини в набор от генни данни, групиране на функционално свързани гени в набор и извличане на гени, споделящи анотации със заявка ген. GO анотациите също могат да бъдат ограничени до тънка йерархия или дадено ниво на онтологията. Изходните кодове са достъпни при поискване и се разпространяват под лиценза на GPL.


Заден план

Генетичната вариация не се ограничава до единични нуклеотидни полиморфизми или малки инсерции и делеции, но се простира и до (големи) структурни вариации. Тези структурни вариации включват вариации на броя на копията (CNVs) и вариации на присъствие/отсъствие (PAVs), които могат да причинят значителни вариации в съдържанието на гена между отделните геноми [1, 2]. Сравнителният анализ на множество геноми от един и същ филогенетичен клас позволява идентифицирането на PAV, които са свързани с фенотипни черти. В случай на културни видове е възможно идентифицирането на PAVs, лежащи в основата на специфични агрономически характеристики, които се срещат само в един или няколко вида [3,4,5]. Тъй като стават достъпни по-силно съседни геномни последователности, пангеномите са подходящи за описване и изследване на разнообразието от генен набор на биологичен клад, напр. вид, род или по-висок [6, 7].

Смята се, че гените на пангенома са разделени на ядро ​​и незаменим генен набор, като последният също често се нарича „аксесоар“ в литературата. Основните гени се срещат във всички изследвани геноми, докато незаменимите гени се срещат само в един или няколко генома [8]. В изследванията на еукариотния пангеном основните и незаменими гени се идентифицират най-вече въз основа на сходството на последователностите, напр. използвайки GET_HOMOLOGUES-EST Марков клъстериране [9], клъстериране на семейството на OrthoMCL [10] или BLASTN [11]. Понякога се използва трета категория „условно незаменими“ гени [12] или гените могат да бъдат класифицирани като „облак“, „обвивка“, „меко ядро“ и „ядро“ [13] или дори като „ядро“, „ softcore“, „незаменим“ и „частен“ [14]. Тази отделна класификация обаче не се основава на биологичната неизползваемост на гените и разчита на едно или множество произволни граници. Някои проучвания считат гените за „ядро“, ако тези гени се срещат в поне 90% от изследваните геноми [11] в други проучвания, само гени, които се намират във всички геноми, са част от основния геном [10]. В допълнение, групите на зависимости могат да повлияят на незаменимостта на определени гени. Трябва да се има предвид възможността два гена да бъдат „заменени“ от определен брой други гени. Някои гени, напр. семейство гени, може да са необходими в специфична пропорция и следователно са само условно незаменими [12]. Освен това сглобките от геноми или транскриптоми може да са непълни, което води до изкуствено липсващи гени [15]. Един от начините да се заобиколи това е да се разчита само на висококачествени референтни геномни последователности, като по този начин се избягват допълнителни сглобки, които са потенциални източници на грешки.

Тук представяме QUOD – биоинформационен инструмент за количествено определяне на неизползваемостта на гените. Ан A. thaliana набор от данни от около 1000 екземпляра беше използван за изчисляване на оценка за неизползваемост на ген, получена от покритието на всички гени в дадените геноми. Този резултат беше потвърден чрез сравнение на оценките на BUSCO и функционалното изследване на гени с високи резултати за разпределяне. Нашият инструмент е лесен за използване за всички видове растителни видове. QUOD разширява отделната класификация на гените като „основни“ и „незаменими“ въз основа на произволен праг до непрекъснат резултат за неизползваемост.


Генетични разстройства

Генетичните нарушения могат да възникнат по много причини. Генетичните разстройства често се описват по отношение на хромозомата, която съдържа гена, който е променен при хора, които имат заболяването. Ако генът е в една от първите 22 двойки хромозоми, наречени автозоми, генетичното разстройство се нарича автозомно състояние. Ако генът е на Х хромозомата, заболяването се нарича Х-свързано.

Генетичните разстройства също са групирани по начина, по който протичат в семействата. Разстройствата могат да бъдат доминиращи или рецесивни, в зависимост от това как причиняват състояния и как протичат в семействата.

Доминантен

Доминантните заболявания могат да бъдат причинени само от едно копие на ген с ДНК мутация. Ако единият родител има заболяването, всяко дете има 50% шанс да наследи мутиралия ген.

Рецесивен

При рецесивни заболявания и двете копия на гена трябва да имат ДНК мутация, за да се разболеят от едно от тези заболявания. Ако и двамата родители имат по едно копие на мутиралия ген, всяко дете има 25% шанс да има заболяването, въпреки че нито един от родителите го няма. В такива случаи всеки родител се нарича носител на болестта. Те могат да предадат болестта на децата си, но самите нямат болестта.


Резултати

Откриване на аберантна генна експресия в множество транскриптомни фенотипове

Ние количествено определихме три транскрипционни фенотипа за всеки ген, за да уловим широк спектър от функционални ефекти, причинени от регулаторни генетични варианти. Накратко, за да идентифицираме отклоненията на израза (eOutliers), ние генерирахме З резултати от коригирани данни за експресия на тъкан, за да се определи дали даден ген в индивид има изключително висока или ниска експресия (фиг. S1) (15, 16). За идентифициране на гени с прекомерен алелен дисбаланс [алелено-специфична експресия (ASE) outliers (aseOutliers)], ние използвахме ANEVA-DOT (анализ на вариация на експресията – тест за отклонение на дозата, фиг. S2 и S3) (16, 17). Този метод използва оценки на генетичните вариации в дозата на всеки ген в популацията, за да идентифицира гени, за които индивидът има хетерозиготен вариант с необичайно силен ефект върху генната регулация (17). Отклоненията на сплайсинг (sOutliers) бяха открити с помощта на SPOT (откриване на отклонения от сплайсинг), подход, въведен тук, който отговаря на Дирихле-Мултиномиално разпределение директно към броя на четенията, разделени в алтернативно сплайсирани екзон-екзонни връзки за всеки ген. След това SPOT идентифицира индивиди, които се отклоняват значително от очакванията въз основа на това подходящо разпределение (фиг. S4 до S6) (16). Всеки от трите метода беше приложен във всички GTEx проби. Индивидът се нарича мултитъканен отклонение за даден ген, ако неговата средна статистика на отклонение във всички измерени тъкани надвишава избран праг (фиг. 1А) (16). Използвайки този мултитъканен подход за всеки фенотип, ние открихме, че всеки индивид има медиана от четири гена eOutlier, четири aseOutlier и пет sOutlier.

(А) Данните за RNA-seq при 838 индивида бяха комбинирани в 49 тъкани и използвани за идентифициране на споделена тъканна експресия, ASE и алтернативни отклонения на сплайсинг. (Б) Относителен риск от нови (не в gnomAD), сингълтон, двоен, редки (MAF <1%) и нискочестотни (MAF 1 до 5%) варианти в прозорец от 10 kb около гените с отклонения във всички типове данни в сравнение с необичайни индивиди за същите гени. Отклоненията се дефинират като тези със стойности >3 SDs от средната стойност (|медиана З| > 3) или, еквивалентно, медиана П < 0,0027. Лентите представляват 95% доверителен интервал. (° С) Присвояване на всеки отклонение на неговия най-последователен близък RV, относителният риск за различни категории RVs попада в рамките на 10 kb от всеки тип извънредно значение. Вмъкнатият панел показва обогатяване за подмножество от категории варианти в log(2)-трансформиран г-осова скала за по-добра видимост. (д) Пропорция на отклоненията при даден праг, които имат близък RV в дадена категория. eOutlier |средна З резултати| бяха преобразувани в П стойности, използвайки функцията на кумулативната плътност на вероятността за нормалното разпределение. TE, преместваем елемент INV, инверсия BND, край на прекъсване DEL, изтриване DUP, дублиране. (Е) Пропорция на RV в дадена категория, които водят до отклонение при a П-праг на стойност от 0,0027 за различните типове.

Гените с аберантна експресия, ASE и сплайсинг са обогатени за функционално различни RVs

Ние наблюдавахме, че многотъканните отклонения за всеки от трите транскриптомни фенотипа са значително по-склонни да носят RV (MAF <1%) в генното тяло или ±10 kb, отколкото индивиди без отклонения, оценени сред 714 индивида с европейски произход. Тези обогатения са прогресивно по-изразени за по-редки варианти и са по-силни за структурни варианти (SVs), отколкото за еднонуклеотидни варианти (SNVs) и индели (фиг. 1B). Тези тенденции не зависят от специфичния избор на прага, използван за дефиниране на отклонения (фиг. S7 и S8).

Открихме само 35 случая, в които отделен ген е многотъканен отклонение и за трите транскрипционни фенотипа. Всички, с изключение на един, имаха близък RV и повечето бяха отбелязани като варианти на снаждане. Сред гените, които са отклонения за два транскрипционни фенотипа в индивид (н = 465), най-голямото припокриване се случи между aseOutliers и eOutliers (н = 319 фиг. S9A). Открихме, че aseOutliers със скромна експресия се променя (1 < |средна З| < 3) показа по-силно обогатяване за близките RVs от тези без промяна в експресията (фиг. S9), подчертавайки важна полза от комбинирането на тези фенотипове за откриване на различни RV ефекти. Открихме, че гените, за които не са идентифицирани отделни индивиди, са обогатени за термините на биологичния процес на генната онтология, свързани със сензорното възприятие и откриването на химически стимули за всички видове извънредни (фиг. S10) (16), което е в съответствие с обогатяването, наблюдавано за гени, които нямат локуси на количествени черти на cis-експресия (eQTL), открити в GTEx (18).

Ние открихме, че различните видове генетични варианти допринасят за отклоненията за трите молекулярни фенотипа, въпреки че редките варианти на донори на снаждане са обогатени близо до всички видове отклонения (фиг. 1C). Най-големите разлики в обогатяването на вариантния тип сред трите типа outlier са вариации на броя на копията (CNV) и дублирания, които са почти изключително свързани с eOutliers, и варианти на акцептор на снаждане, които са обогатени значително повече в sOutliers (фиг. S11).

За всички фенотипове, делът на отклоненията с близък RV от всяка категория се увеличава с прага строгост (фиг. 1D). За eOutliers, aseOutliers и sOutliers, при най-строгия праг на средния отклонение П < 1,1 × 10 –7, повечето индивиди са носители на поне един RV в близост до външния ген (82 до 94%). При по-нататъшно разглеждане на RVs с функционални анотации (от анотациите, изброени на фиг. 1C), открихме, че недостатъчно изразените eOutliers са най-интерпретируеми, като 88% от свързаните с отклонения RVs имат допълнителна функционална анотация, докато aseOutliers имат най-нисък дял при 56% (фиг. 1D). Този анализ дава по-нататъшна представа за очакванията за причинно-следствени типове RV, когато се наблюдава извънреден ефект от специфична величина при индивид.

Обратно, голяма част от гените с близки редки генетични варианти не се появяват като отклонения, дори за най-предсказуемите класове, като варианти със загуба на функция. Най-големият дял от вариантите, водещи до някакво извънредно състояние, са редки варианти на донор и акцептор на снаждане, от които само 7,2 и 6,8%, съответно, доведоха до по-голямо (фиг. 1E и фиг. S11). Като цяло, докато някои транскриптомични ефекти може да са пропуснати, ниската честота, с която RVs от тези класове са довели до големи промени в транскриптома, засилва полезността от включване на функционални данни във вариантна интерпретация дори за специфични вариантни класове, които вече се използват в клиничната интерпретация.

Геномната позиция на RVs прогнозира въздействието върху експресията

Въпреки че основно оценихме RVs, които се срещат или в рамките на един отклонен ген, или в 10-kb заобикалящ прозорец, генната регулация може да се случи на по-големи разстояния (19, 20). Тъй като наблюдавахме най-силното обогатяване на вариантите с най-ниска честота, ние пресичахме сингълтонни варианти [(SVs), т.е. тези, които се появяват само веднъж в GTEx и SNVs и/или indels, които не се появяват в базата данни за агрегиране на генома (gnomAD) (21)] с прозорци с дължина от 200 kb, с изключение на други прозорци и нагоре по веригата от извънредни гени и сравнява тяхната честота в извънредни спрямо неотклоняващи индивиди. Обогатенията на SNV отпадат бързо на по-големи разстояния от гена, но остават слабо обогатени за eOutliers до 200 kb. Същото важи и за редките индели, с обогатяване на 200 kb само за Soutliers. SVs остават обогатени на много по-дълги разстояния, като са обогатени 2,33 пъти до 800 kb до 1 Mb нагоре и до 600 kb надолу по веригата на генното тяло (фиг. 2А и фиг. S12A).

(А) Относителен риск от SNVs и indels (не се срещат в gnomAD) и SVs (единични в GTEx) на различни разстояния нагоре по веригата на извънредните гени (изключително за бинове) в различните типове данни. (Б) Пропорция на eOutliers с TSS RVs в промоторни мотиви в рамките на 1000 bp. Под и над кошчетата се дефинират със средна стойност З резултатен праг от 3, а контролите са всички индивиди със средна стойност З резултат <3 за същия набор от извънредни гени. (° С) Графична обобщаваща позиционна номенклатура спрямо наблюдаваните донорни и акцепторни места на снаждане. (д) Относителен риск (г-ос) на Soutlier (среден клъстер LeafCutter П < 1 × 10 -5 ) RV се намира на определена позиция спрямо мястото на снаждане (х-axis) в сравнение с неотклоняващи се RVs. Изчисляването на относителния риск беше направено отделно за донорни и акцепторни места на снаждане. (Е) Независими матрици на теглото на позицията, показващи мутационни спектри на Soutlier (среден клъстер LeafCutter П < 1 × 10 -5 ) RVs в позиции по отношение на местата на снаждане с отрицателно използване на кръстовището (т.е. местата на снаждане, използвани по-малко при отделни индивиди, отколкото при неотклоняващи се). (Ф) Използването на кръстовище на мястото на снаждане е естественият регистър на частта от показанията в клъстер LeafCutter, съпоставящ се с мястото на снаждане от интерес в SOutlier (среден клъстер LeafCutter П < 1 × 10 -5 ) проби по отношение на фракцията в проби, които не са отделени, агрегирани в тъканите чрез вземане на медианата (16). Използване на кръстовище (г-ос) на най-близките места на снаждане до RVs, които се намират в рамките на полипиримидинов тракт (A – 5, A – 35), свързани с вида на варианта (х-ос).

RVs в промоторните региони преди това са били свързани с експресия на отклонение (5, 15). За да разширим тези наблюдения и да оценим видовете сайтове за свързване на транскрипционния фактор (TF), които биха могли да доведат до отклонения, ние тествахме обогатяване на проксимални варианти на редкия начален сайт на транскрипция (TSS) в специфични TF мотиви близо до под- и свръх-eOutliers. За under-eOutliers видяхме обогатяване на варианти в GABP, TF, който активира гени, които контролират клетъчния цикъл, диференциацията и други критични функции (22). За свръх-eOutliers видяхме обогатяване на RVs, пресичащи се E2F4 мотив, TF, който е докладван като транскрипционен репресор (23). И в under- и over-eOutliers видяхме RVs YY1, който може да действа като активатор или репресор, в зависимост от контекста (24) и е свързано с GABP в корегулаторни мрежи (фиг. 2B и фиг. S12B) (25). По този начин, тези естествено срещащи се RV смущения могат да предоставят информация за това как специфични TFs могат силно да регулират нагоре или надолу своите целеви гени.

RVs могат да засегнат множество гени и да доведат до ново сливане на гени

Наблюдавахме, че RVs могат също да повлияят на множество гени в индивид. Открихме силно обогатяване на мултигенните ефекти сред eOutliers и, в по-малка степен, aseOutliers (фиг. S13). Както се очакваше, не видяхме обогатяване за близките по-далечни двойки, които са по-малко обект на корегулация (26). В рамките на прозорец от 100 kb, съседните eOutlier гени са били 70 пъти по-чести, отколкото би се очаквало случайно, ако се изчертават двойки извънредни на случаен принцип. Те също така бяха значително обогатени за редки CNV, дупликации и TSS варианти в близост до един или и двата гена в сравнение с индивиди, които са имали извънредна експресия, но само за един от гените (фиг. S13). Ние също така открихме, че редки SV обогатения присъстват в близост до eOutliers, независимо дали SV припокрива самия ген (фиг. S14). Наблюдавахме 27 примера за редки SVs, включително делеции, дупликации и прекъсвания, свързани с eOutliers в поне два гена в един и същи индивид (фиг. S15 и таблица S1). За един от тях наблюдавахме доказателства за фузионен транскрипт в резултат на делеция, обхващаща края на гена SPTBN1 и TSS на EML6. Това изтриване доведе до недостатъчна експресия на SPTBN1 (медиана З резултат = –4,67) и свръхекспресия на EML6 (медиана З резултат = 8,12) в сравнение с всички други индивиди. Подкрепяйки наличието на нов транскрипт за сливане на зародишна линия, ние открихме доказателства за специфичен транскрипт, обхващащ SPTBN1 и EML6 в множество тъкани за индивида с делеция (фиг. S16). И за двата гена този индивид също показва по-голям сигнал (средно SPOT П = 0,0005 за EML6 и 0,0035 за SPTBN1). Идентифицирането на фузионни транскрипти е от особен интерес при диагностицирането и прогнозата на рака (2730), и както EML гените, така и SPTBN1 преди са били замесени в свързани с рак сливания (31, 32).

RVs в сплайсинг консенсусна последователност задвижване на сплайсинг отклонения

Предишни проучвания показват, че RVs нарушават местата на снаждане, водят до извънредни алтернативни модели на снаждане (33, 34). Използвахме Soutlier повиквания, направени за всеки клъстер LeafCutter (16, 35), за да се оцени по-точно обогатяването на свързаните със сплайсинга варианти. Наблюдавахме изключително обогатяване на RVs в близост до места за снаждане в Soutliers. Soutlier е 333 пъти по-вероятно от неотклонен да приюти RV в рамките на 2-bp прозорец около мястото на снаждане (фиг. S17A) (16), със затихване на сигнала на по-големи разстояния, но все още обогатен на разстояние до 100 bp (относителен риск = 7,43). За да получим обогатяване на разделителната способност на базовата двойка, ние изчислихме относителния риск от по-големи RVs, разположени на специфични позиции спрямо наблюдаваните места на снаждане на донор и акцептор (16). Десет позиции в близост до мястото на снаждане показват значително обогатяване на RVs в Soutliers в сравнение с контролите (фиг. 2, C и D). Тези позиции отговарят точно на позиции, за които също е доказано, че са нетолерантни към мутации поради запазената им роля в сплайсинга (ще наричаме тези позиции консенсусната последователност на сплайсинг) (34). Сред най-обогатените позиции в консенсусната последователност на снаждането бяха четирите основни позиции на мястото на снаждане (D + 1, D + 2, A – 2, A – 1) (36), което показва среден относителен риск от 195.

SOutliers допълнително улавя транскрипционните последствия както за варианти, които нарушават референтна консенсусна последователност за сплайсинг, така и за тези, които създават нова консенсусна последователност за сплайсинг. Индивидите с по-изключителни варианти, при които редкият алел се отклонява от консенсусната последователност на сплайсинг, показват намалено използване на свързване на мястото на снаждане близо до варианта, докато индивидите с варианти, в които редкият алел създава консенсусна последователност на сплайсинг, показват повишено използване на свързване на мястото на снаждане близо до варианта спрямо неотклонения (фиг. 2E и фиг. S17B и S18) (16). Видяхме свързан модел на обогатяване след разделяне на анотирани и нови (неанотирани) места на снаждане (фиг. S19). Soutliers също бяха обогатени за RVs, разположени в полипиримидиновия тракт (PPT), силно запазен регион, богат на пиримидин,

5 до 35 bp нагоре от акцепторните места на снаждане (37). RV е 6,25 пъти по-вероятно да бъде разположен в PPT близо до Soutlier в сравнение с неизлизащ. Извънредностите с RV, които променят позицията в PPT от пиримидин на пурин (т.е. нарушават съществуващ PPT), показват намалено използване на свързване на мястото на снаждане близо до варианта, докато обратното е вярно за варианти, които променят позицията в PPT от пурин до пиримидин (фиг. 2F и фиг. S20).

RVs в тъканно-специфични регулаторни региони могат да доведат до тъканно-специфична експресия

Въпреки че мултитъканните отклонения предлагат подобрена мощност за откриване на RV ефекти, ние също така оценихме RVs от отклонения, открити в отделни тъкани. Измерванията на една тъкан са обект на по-големи вариации от повторните измервания в тъканите, но са представителни за повечето експериментални проекти. Първо, направихме анализ на репликацията при всички индивиди с налични данни за трите метода, за да оценим степента, до която статусът на отклонения, открит в една тъкан на индивид, се репликира в други тъкани (16). Средно открихме, че статусът на eOutlier, aseOutlier и sOutlier в тъкан за откриване е открит в тестова тъкан съответно 5.1, 10.7 и 8.7% от времето (фиг. 3A и фиг. S21). Това е в съответствие с други констатации, че измерванията на ASE са по-последователни в тъканите (18). Като се имат предвид клинично достъпните тъкани, а именно цяла кръв, фибробласти и лимфобластоидни клетки, ако вземем предвид отклоненията, наблюдавани за ген в поне две от тези тъкани в един и същи индивид, видяхме средни скорости на репликация във всички останали тъкани от 14,1, 20,9 и 15,0% за eOutliers, aseOutliers и sOutliers, съответно (фиг. S22). Както по-високата скорост на репликация за aseOutliers, така и увеличаването на репликацията на outlier в недостъпни тъкани при разглеждане на повече от едно достъпно измерване са информативни за анализа на функционални данни от лесно достъпни тъкани, за да се разберат болестните състояния, които са най-подходящи за други тъкани.

(А) Средна репликация на отклонения, идентифицирани за тъкан във всяка друга тъкан за всеки тип отклонение. (Б) Оценка на относителната рискова точка за близките редки SNV за отклонения във всички тъкани поотделно. (° С) Относителен риск обогатяване за вероятно генно разрушаване на RVs в близост до еднотъканни отклонения при праг от |З| > 4 (еквивалентно SPOT или ANEVA-DOT П < 0,000063), с една точка за тъкан. (д) Разпределение на броя на тъканите с аберантна експресия, лежащи в основата на отклоненията на експресията, дефинирани чрез медиана З резултат (eOutliers) или разстояние Махаланобис П стойност (корелация). (Е) Относителен риск от корелационни отклонения, задвижвани от една тъкан, дефинирани като значителни корелационни отклонения, за които се наблюдава промяна в експресията на степента, посочена от цвета на точката, само в една тъкан (16) носещ RV в подобрители, анотирани към тази тъкан в рамките на прозорец от 500 kb на външния ген. Несъответстващи се определят като всички тъканно-специфични подобрители, независимо от външната тъкан.

След това оценихме способността на отделните тъкани от всеки метод да приоритизират RVs в близост до гени с отклонения. Еднотъканните aseOutliers бяха най-обогатени за близките RVs, следвани от sOutliers и след това eOutliers, през всички гранични прагове на outlier (фиг. 3B и фиг. S21 и S23A). Ние също така наблюдавахме обогатяване на варианти, които вероятно предизвикват безсмислено медиирано разпадане между еднотъканни eOutliers, aseOutliers и sOutliers (фиг. 3C и фиг. S23B). Освен това открихме, че еднотъканните SOutliers все още показват силно обогатяване на RVs в консенсусната последователност на сплайсинг и PPT (фиг. S24).

С изключение на редки SVs, които по-специално са били обогатени при сравними прагове с многотъканните eOutliers, еднотъканните eOutliers показват далеч по-слабо обогатяване в сравнение с многотъканните отклонения за близките редки SNVs и indels във всички прагове (фиг. S25). За да подобрим откриването на специфични за тъканите отклонения, ние използвахме широчината на наличните данни за тъканите и използвахме наблюдаваните модели на корелация между тъканите, за да открием отклонения, които се отклоняват от очакваната ковариация на експресията в подгрупа от тъкани (16). Подобен подход е приложен за идентифициране на функционални RVs въз основа на корелацията на експресията между гените в една тъкан (5). Открихме, че отклоненията, идентифицирани с помощта на този подход, често се движат от промени в експресията в една или няколко тъкани в сравнение с мултитъканни eOutliers, базирани на медиана З резултати (фиг. 3D). Корелационните тъканно-специфични отклонения също бяха обогатени за близките RVs в 10-kb прозорец около гена (фиг. S26C). Въпреки това, тези отклонения също бяха обогатени за RVs в подобрители, които бяха активни в тъканта(ите), задвижващи ефекта на отклонението (таблица S2), както е определено от една тъкан З резултат и в рамките на прозорец от 500 kb около гена (фиг. 3Е). По-специално, тези тъканно-специфични отклонения бяха изчерпани за редки вариации в подобрители, отбелязани в други, несравними тъкани.

Приоритизиране на RV чрез интегриране на геномни анотации с различни лични транскриптомични сигнали

За да включим различни транскриптомни сигнали в метод за приоритизиране на RVs, ние разработихме Watershed, неконтролиран вероятностен графичен модел, който интегрира информация от геномни анотации на личен геном (таблица S3) с множество сигнали от съвпадащ личен транскриптом. Watershed предоставя резултати, които могат да се използват за тълкуване на персонален геном или за каталогизиране на потенциално въздействащи редки алели, като количествено определя задната вероятност даден вариант да има функционален ефект върху всеки транскриптомен фенотип въз основа както на секвениране на целия геном (WGS), така и на РНК-секвениране ( RNA-seq) сигнали (фиг. 4А). Моделът на Watershed може да бъде адаптиран към всяка налична колекция от молекулярни фенотипове, включително различни анализи, различни тъкани или различни получени сигнали. Освен това Watershed автоматично научава теглата на ръбовете на произволното поле на Марков (MRF), отразяващи силата на връзката между различните включени тъкани или фенотипове, които заедно позволяват на модела да предскаже точно функционалните ефекти.

(А) Графична обобщаваща плоча за обозначаване на модела Watershed, когато се прилага към три медианни извънредни сигнала (изразяване, ASE и снаждане). (Б) Симетрична топлинна карта, показваща научените параметри (тегла) на ръба на водораздела между двойки извънредни сигнали след обучение Watershed на три средни извънредни сигнала. (° С) Делът на RVs с апостериорна вероятност на Watershed >0.9 (вдясно) и с GAM вероятност, по-голяма от праг, зададен да съответства на броя на вариантите на Watershed за всеки отклонен сигнал (вляво), които водят до отклонение при медиана П-праг на стойност от 0,0027 за три извънредни сигнала (цвят). Моделите на водосбора и GAM бяха оценени върху издържани двойки индивиди. (д) Криви на прецизно припомняне, сравняващи производителността на Watershed, RIVER и GAM (цветове), използвайки издържани двойки индивиди за три средни извънредни сигнала. (Е) Симетрична топлинна карта, показваща научени параметри (тегла) на ръба на тъкан-Watershed между двойки сигнали за отклонение на тъканите след обучение на тъкан-Watershed върху eOutliers в отделни тъкани. Картирането на цвета на тъканта към името на тъканта може да се намери на фиг. S21D. (Ф) Площ под кривите на прецизно извикване [AUC(PR) г-ос] в една тъкан между тъкан-GAM, тъкан-РЕКА и тъкан-Watershed (х-axis), когато се прилага към отклонения в отделни тъкани и в трите извънредни сигнала (цвят). Прецизните криви на припомняне във всяка тъкан бяха генерирани с помощта на издържани двойки индивиди.

Първо приложихме Watershed към данните на GTEx v8, използвайки трите извънредни сигнала, разгледани тук, експресия, ASE и сплайсинг (фиг. 4A) (16), за които всеки първо е агрегиран чрез вземане на медианата в тъканите за съответния индивид. В съгласие със съществуващите доказателства за прилика между сигналите с отклонения (фиг. S9), научените параметри на ръба на водораздела бяха най-силни между ASE и експресията, последвани от ASE и сплайсинг, но строго положителни за всички двойки сигнали с отклонение (т.е., всеки извънреден сигнал беше информативна за всички други сигнали (фиг. 4В). За да оценим нашия модел, използвахме задържани двойки индивиди, които споделят една и съща RV, като правим прогнози за водосбора в първия индивид и оценяваме тези прогнози, използвайки статуса на втория индивид като етикет (15, 16). Водоразделът превъзхожда методите, базирани само на геномна последователност [нашият модел на геномна анотация (GAM) и комбинирано зависимо от анотация изчерпване (CADD) Фиг. 4C и фиг. S27] (38, 39). Ние също така сравнихме представянето на Watershed с RIVER [РНК-информиран вариантен ефект върху регулацията (15)], опростяване на модела на водосбора, в който всеки извънреден сигнал се третира независимо. Открихме, че изричното моделиране на връзката между различните молекулярни фенотипове осигурява повишаване на производителността за Watershed (фиг. 4D, фиг. S28 и S29 и таблица S4) (16). Ние забелязахме, че дори най-предсказуемите геномни анотации водят само до eOutliers, aseOutliers и sOutliers съответно 2.8, 7.9 и 14.3% от времето (фиг. 1E и 4C). Въпреки това, интегрирането на транскриптомични сигнали с геномни анотации от Watershed (при заден праг от 0,9) открива SNV, които водят до eOutliers, aseOutliers и sOutliers с по-голяма честота съответно 11.1, 33.3 и 71.4% от времето (фиг.4C, фиг. . S30).

Освен това разширихме рамката на Watershed, за да приоритизираме вариантите въз основа на тяхното предвидено специфично за тъканите въздействие. Обучихме три модела „тъкан-Watershed” (по един за всеки от експресия, ASE и сплайсинг поотделно), в които всеки модел разглежда ефектите във всички тъкани заедно, споделяйки информация в MRF и в крайна сметка извежда 49 специфични за тъканите резултата за всеки RV (фиг. S29 и S31) (16). Наблюдавахме, че параметрите, научени за всеки от трите модела на тъкан-Watershed, наподобяват известни модели на тъканно сходство (фиг. 4E и фиг. S32) (18). Освен това, използвайки задържани индивиди, моделът на тъкан-Watershed превъзхожда модела RIVER, при който всяка тъкан се третира напълно независимо (П = 2.00 × 10 −5 , П = 2,00 × 10 −5 и П = 5.90 × 10 −3 for expression, ASE, and splicing, respectively one-sided binomial test Fig. 4F and figs. S33 and S34) and a collapsed RIVER model trained with single median outlier statistics (П = 0.0577, П = 0.251, and П = 0.00128 for expression, ASE, and spicing, respectively one-sided binomial test figs. S35 and 36). Critically, integrative models that incorporated transcriptomic signal and genomic annotations from a single tissue still outperformed methods based only on genome sequence annotations (Fig. 4F), supporting the benefit of collecting even a single RNA-seq sample to improve personal genome interpretation.

Replication and experimental validation of predicted RV transcriptome effects

We first assessed the replication of “candidate causal RVs” previously identified by the SardiNIA Project (6), using GTEx Watershed prioritization. Of five SardiNIA candidate causal RVs that were also present in a GTEx individual, four had high (>0.7) GTEx Watershed expression posterior probabilities (table S5). Next, we tested replication of GTEx RVs, prioritized by Watershed, in an independent cohort evaluating 97 whole-genome and matched transcriptome samples from the Amish Study of Major Affective Disorders (ASMAD) (40). We evaluated GTEx RVs also present in this cohort at any frequency, quantifying eOutlier, aseOutlier, and sOutlier signal in each ASMAD individual harboring one of the GTEx variants (16). For all three phenotypes, ASMAD individuals with variants having high (>0.8) Watershed posterior probability based on GTEx data had significantly more extreme outlier signals at nearby genes compared with individuals with variants having low (<0.01) GTEx Watershed posterior probability (expression: П = 2.729 × 10 −6 , ASE: П = 2.86 × 10 −3 , and splicing: П = 5.86 × 10 −13 Wilcoxon rank-sum test fig. S37). Every variant with a high GTEx Watershed splicing posterior probability (>0.8) resulted in an sOutlier (П ≤ 0.01) in the ASMAD cohort. Furthermore, ASMAD individuals with variants having high (>0.8) GTEx Watershed posterior probability had significantly larger outlier signals relative to equal size sets of variants prioritized by GAM (expression: П = 0.00129, ASE: П = 0.0287, and splicing: П = 0.00058 Wilcoxon rank-sum test fig. S37). Overall, RVs prioritized by Watershed using GTEx data displayed evidence of functional effects in ASMAD individuals.

We further applied both a massively parallel reporter assay (MPRA) and a CRISPR-Cas9 assay to assess the impact of Watershed-prioritized RVs. We experimentally tested the regulatory effects of 52 variants with moderate Watershed expression posterior (≥0.5) and 98 variants with low Watershed expression posterior (<0.5) using MPRA (16). We observed increased effect sizes for RVs with high Watershed expression posterior relative to variants with low expression posterior (П = 0.025 one-sided Wilcoxon rank-sum test fig. S38 and table S6). Next, we assessed the functional effects of 20 variants by editing them into inducible-Cas9 293T cell lines. These included 14 rare stop-gained variants and six non-eQTL common variants as negative controls. Of the 14 rare stop-gained variants, 13 had expression or ASE Watershed posterior >0.8, with the remaining variant [previously tested in (41)] having a posterior of 0.22. All control variants had Watershed posteriors <0.03. Of the 13 variants with a Watershed posterior >0.8, 12 showed a significant decrease in expression of the rare allele (П < 0.05, Bonferroni corrected fig. S39 and table S7) (16).

Aberrant expression informs RV trait associations

We found that each individual had a median of three eOutliers, aseOutliers, and sOutliers (median outlier П < 0.0027) with a nearby RV. When filtering by moderate Watershed posterior probability (>0.5) of affecting expression, ASE, or splicing, individuals had a median of 17 genes with RVs predicted to affect expression, 27 predicted to affect ASE, and nine predicted to affect splicing (Fig. 5A). From the set of outlier calls, we found multiple instances of RVs influencing well-known and well-studied genes, including APOE и FAAH (table S8). In particular, for APOE, which has been associated with numerous neurological diseases and psychiatric disorders (42), we found two aseOutlier individuals both carrying a rare, missense variant, rs563571689, with ASE Watershed posteriors >0.95, not previously reported. За FAAH, which has been linked to pain sensitivity in numerous contexts (43, 44), we found two eOutlier individuals with a rare 5′ untranslated region variant, rs200388505, with ASE and expression Watershed posteriors >0.9.

(А) Distribution of the number of outlier genes, outlier genes with a nearby RV, and genes with a high Watershed posterior variant per data type. We added one to all values so that individuals with 0 are included. (Б) Distribution of effect sizes, transformed to a percentile, for the set of GTEx RVs that appear in UKBB and are not outlier variants, those that are outlier variants, and those outlier variants that fall in colocalizing genes for the matched trait across 34 traits. Percentiles were calculated on the set of rare GTEx variants that overlap UKBB. The set of genes was restricted to those with at least one outlier individual in any data type and a nearby variant included in the test set (4787 variants and 1323 genes). П values were calculated from a one-sided Wilcoxon rank-sum test. (° С) Proportion of variants filtered by Watershed posterior that fell in the top 25% of effect sizes for a colocalized trait (red) and the proportion of randomly selected variants of an equal number that also fall in these regions over 1000 iterations (black). (д) Manhattan plot (top) across chromosome 9 for asthma in the UKBB, filtered for non–low-confidence variants, with two high-Watershed variants, rs149045797 and rs146597587, shown in pink and the lead colocalized variant, rs3939286, shown in blue. The variants’ effect size ranks were similarly high for both self-reported and diagnosed asthma, but the summary statistics are shown for asthma diagnosis here. The UKBB MAF versus absolute value of the effect size for all variants within 10 kb of the Watershed variant is also shown (bottom). (Е) Manhattan plot across chromosome 22 for self-reported high cholesterol in the UKBB, filtered to remove low confidence variants, with the high-Watershed variant rs564796245 shown in pink. The UKBB MAF versus absolute value of the effect size for all variants within 10 kb of the Watershed variant is also shown (bottom).

To assess whether identified rare functional variants from GTEx associate with traits, we intersected this set with variants present in the UKBB (12). We focused on a subset of 34 traits for which GWAS association for a UKBB trait had evidence of colocalizations with eQTLs and/or alternative splicing QTLs (sQTLs) in any tissue (table S9) (16, 45). GTEx has demonstrated that genes with RV associations for a trait are strongly enriched for their eQTLs colocalizing with GWAS signals for the same trait (18), indicating that QTL evidence can be used to guide RV analysis. Furthermore, RVs near GTEx outliers had larger trait association effect sizes than background RVs near the same set of genes in the UKBB data (П = 3.51 × 10 −9 one-sided Wilcoxon rank-sum test), with a shift in median effect size percentile from 46 to 53%. Notably, outlier variants that fell in or nearby genes with an eQTL or sQTL colocalization had even larger effect sizes (median effect size percentile 88%) than nonoutlier variants (П = 1.93 × 10 −5 one-sided Wilcoxon rank-sum test) or outlier variants falling near any gene not matched to a colocalizing trait (П = 4.88 × 10 −5 one-sided Wilcoxon rank-sum test Fig. 5B).

Although most variants tested in UKBB had low Watershed posterior probabilities of affecting the transcriptome (fig. S40A), we hypothesized that filtering for those variants that do have high posteriors would yield variants in the upper end of the effect size distribution for a given trait. For each variant tested in UKBB, we took the maximum Watershed posterior per variant and compared this with a genomic annotation-defined metric, CADD (38, 39). We found that Watershed posteriors were a better predictor of variant effect size than CADD scores for the same set of RVs in a linear model (Table 1). Across different Watershed posterior thresholds, we found that the proportion of variants falling in the top 25% of RV effect sizes in colocalized regions exceeded the proportion expected by chance (Fig. 5C). Whereas filtering by CADD score did return some high effect size variants, this proportion declined at the highest thresholds (fig. S40D). Furthermore, there was very little overlap between variants with high Watershed posteriors and high CADD variants (fig. S40D), with CADD variants more likely to occur in coding regions and Watershed variants more frequent in noncoding regions (fig. S40D). Thus, the approaches largely identified distinct and complementary sets of variants for these traits.

Shown are the coefficient estimates and 95% confidence intervals from separate linear models with variant effect size percentile as the response and CADD score or Watershed posterior (scaled to have a mean of 0 and an SD of 1 so that values are of comparable range) as the predictor for all tested variants in colocalized regions (н = 5277).

We identified 33 rare GTEx variant trait combinations in which the variant had a Watershed posterior >0.5 and fell in the top 25% of variants by effect size for the given trait (table S10). We highlight two such examples, for asthma and high cholesterol (Fig. 5, D and E), showing that although RVs usually do not have the frequency to obtain genome-wide significant П values, when they are prioritized by the probability of affecting expression, we could identify those with greater estimated effect sizes on the trait (table S11). In the case of asthma, the RV effect sizes in UKBB were three times greater than the lead colocalized variant. These variants included rs146597587, which is a high-confidence loss-of-function splice acceptor with an overall gnomAD AF of 0.0019, and rs149045797, an intronic variant with a frequency of 0.0019, both of which were associated with the gene IL33, the expression of which has been implicated in asthma (46, 47). Previous work has identified the protective association between rs146597587 and asthma (48, 49), and we found that this is potentially mediated by outlier allelic expression of IL33 leading to moderate decreases in total expression, with median З scores ranging from –1.08 to –1.77 in individuals with the variant, and median single-tissue З scores across the six individuals exceeding –2 in 10 tissues. An asthma association had also been reported recently for the other high Watershed asthma-associated variant rs149045797 and was in perfect linkage disequilibrium with rs146597587 (50). An additional high Watershed variant, rs564796245, an intronic variant in TTC38 with a gnomAD AF of 0.0003, had a high effect size for self-reported high cholesterol in the UKBB but was not previously reported. We were able to test this variant against four related blood lipids traits in the MVP (51). We found that for these traits, which included high-density lipoprotein (HDL), low-density lipoprotein, total cholesterol, and triglycerides, among rare (gnomAD AF <0.1%) variants within a 250-kb window of rs564796245, this variant was in the top 5% of variants by effect size for HDL specifically, it was in the top 1% (fig. S41). We also assessed this variant’s association with the same four traits in the JHS (14), an African American cohort in which four individuals carried the RV. Here, we found that the direction of effect was consistent with MVP and UKBB for all four traits (tables S11 and S12), and the variant fell in the top 28th to 38th percentile of all rare (gnomAD AF <0.1%) variants in this region (fig. S42). Only four of the variants tested in UKBB had Watershed posterior probabilities >0.9 for colocalized genes, but of those, three showed high effect sizes for a relevant trait (table S10).


What do the new ‘gay genes’ tell us about sexual orientation?

Didn’t we already know there were “gay genes”?
We have known for decades that sexual orientation is partly heritable in men, thanks to studies of families in which some people are straight and some people are gay. In 1993, genetic variations in a region on the X chromosome in men were linked to whether they were heterosexual or homosexual, and in 1995, a region on chromosome 8 was identified. Both findings were confirmed in a study of gay and straight brothers in 2014. However, these studies didn’t home in on any specific genes on this chromosome.

What’s new about the latest study?
For the first time, individual genes have been identified that may influence how sexual orientation develops in boys and men, both in the womb and during life. Alan Sanders at North Shore University, Illinois, and his team pinpointed these genes by comparing DNA from 1077 gay and 1231 straight men. They scanned the men’s entire genomes, looking for single-letter differences in their DNA sequences. This enabled them to home in on two genes whose variants seem to be linked to sexual orientation.

What genes did they find and what do they do?
One of the genes, which sits on chromosome 13, is active in a part of the brain called the diencephalon. Interestingly, this brain region contains the hypothalamus, which was identified in 1991 as differing in size between gay and straight men. This was discovered by neuroscientist Simon LeVay, who says he is excited that the gene discovery seems to fit with what he found.

Реклама

Other research has found that this gene, called SLITRK6, is active in the hypothalamus of male mice fetuses a few days before they are born. “This is thought to be a crucial time for sexual differentiation in this part of the brain,” says LeVay. “So this particular finding is a potential link between the neuroanatomy and molecular genetics of sexual orientation.

What is the other gene?
This gene is found on chromosome 14 and is mainly active in the thyroid, but also the brain. Наречен TSHR, it makes a type of receptor protein that recognises and binds to a hormone that stimulates the thyroid. In this way, the gene plays an important role in controlling thyroid function.

The fact that TSHR seems to be involved in sexual orientation fits with evidence that thyroid function seems to be linked to sexuality. Например, TSHR function is disrupted in a genetic condition called Grave’s disease, which causes the thyroid gland to become over-active, accelerating metabolism and leading to weight-loss. Grave’s disease is more common in gay than straight men, and some research suggests that gay men tend to be thinner – which might possibly be a result of thyroid overdrive.

Are all men who have the “gay” variants of these genes gay?
No, says Sanders, because many other factors play a role, including the environment. “There are probably multiple genes involved, each with a fairly low effect,” he says. “There will be men who have the form of gene that increases the chance of being gay, but they won’t be gay.”

Because many genes and other factors seem likely to play a role in sexual orientation, this may explain why some people are bisexual or see sexual orientation as a spectrum.

What about women who are gay? Are there “lesbian genes”?
Our biological understanding of homosexuality in women lags behind. Some researchers say this is partly because women who have sex with women tend to be more fluid in their sexual orientation.

There have been studies suggesting that there is a genetic element to homosexuality in women, but more research has been done in men, says Sanders.

Why should we care about the genetics of being gay?
The latest findings open the prospect to identifying the whole pathway of genes involved in both homosexual and heterosexual orientation, says Dean Hamer at the US National Institutes of Health, who led the study that pinpointed chromosome X back in 1993. “It adds yet more evidence that sexual orientation is not a ‘lifestyle choice’. But the real significance is that it takes us one step closer to understanding the origins of one of the most fascinating and important features of human beings.”

Journal reference: Nature Scientific Reports, DOI: 10.1038/s41598-017-15736-4


Препратки

Edwards Stacey L, Beesley J, French Juliet D, Dunning Alison M. Beyond GWASs: illuminating the dark road from association to function. Am J Hum Genet. 201393(5):779–97.

Cavalli M, Pan G, Nord H, et al. Allele-specific transcription factor binding to common and rare variants associated with disease and gene expression. Hum Genet. 2016135:485–97.

MacArthur J, Bowler E, Cerezo M, et al. The new NHGRI-EBI catalog of published genome-wide association studies (GWAS catalog). Нуклеинови киселини Res. 201745(D1):D896–901.

The ENCODE Project C. An integrated encyclopedia of DNA elements in the human genome. природата. 2012489(7414):57–74.

Maurano MT, Humbert R, Rynes E, et al. Systematic localization of common disease-associated variation in regulatory DNA. наука. 2012337(6099):1190–5.

Younesy H, Möller T, Heravi-Moussavi A, et al. ALEA: a toolbox for allele-specific epigenomics analysis. Биоинформатика. 201430(8):1172–4.

Yang XD, Xiang DX, Yang YY. Role of E3 ubiquitin ligases in insulin resistance. Diabetes Obes Metab. 201618(8):747–54.

Marfella R, D’Amico M, Di Filippo C, et al. The possible role of the ubiquitin proteasome system in the development of atherosclerosis in diabetes. Cardiovasc Diabetol. 20076:35.

Magee N, Zhang Y. Role of early growth response 1 in liver metabolism and liver cancer. Hepatoma Res. 20173(11):268.

Gokey NG, Lopez-Anido C, Gillian-Daniel AL, Svaren J. Early growth response 1 (Egr1) regulates cholesterol biosynthetic gene expression. J Biol Chem. 2011286(34):29501–10.

Shen N, Yu X, Pan F-Y, Gao X, Xue B, Li C-J. An early response transcription factor, Egr-1, enhances insulin resistance in type 2 diabetes with chronic hyperinsulinism. J Biol Chem. 2011286(16):14508–15.

Wang F, Kuang Y, Salem N, Anderson PW, Lee Z. Cross-species hybridization of woodchuck hepatitis viral infection-induced woodchuck hepatocellular carcinoma using human, rat and mouse oligonucleotide microarrays. J Gastroenterol Hepatol. 200924(4):605–17.

Pollak NM, Hoffman M, Goldberg IJ, Drosatos K. Krüppel-like factors: crippling and uncrippling metabolic pathways. JACC. 20183(1):132–56.

Kumadaki S, Karasawa T, Matsuzaka T, et al. Inhibition of ubiquitin ligase F-box and WD repeat domain-containing 7α (Fbw7α) causes hepatosteatosis through Krüppel-like factor 5 (KLF5)/peroxisome proliferator-activated receptor γ2 (PPARγ2) pathway but not SREBP-1c protein in mice. J Biol Chem. 2011286(47):40835–46.

Bernon C, Carré Y, Kuokkanen E, et al. Overexpression of Man2C1 leads to protein underglycosylation and upregulation of endoplasmic reticulum-associated degradation pathway. Glycobiology. 201121(3):363–75.

Andersson R, Gebhard C, Miguel-Escalada I, et al. An atlas of active enhancers across human cell types and tissues. природата. 2014507:455.

Hynds RE, Vladimirou E, Janes SM. The secret lives of cancer cell lines. Dis Model Mech. 201811(11):dmm037366.

Brodt P. Role of the microenvironment in liver metastasis: from pre- to prometastatic niches. Clin Cancer Res. 201622(24):5971.

McGranahan N, Rosenthal R, Hiley CT, et al. Allele-specific HLA loss and immune escape in lung cancer evolution. клетка. 2017171(6):1259–71 e11.

Kassel R, Cruise MW, Iezzoni JC, Taylor NA, Pruett TL, Hahn YS. Chronically inflamed livers up-regulate expression of inhibitory B7 family members. Hepatology. 200950(5):1625–37.

Amiot L, Vu N, Samson M. Biology of the immunomodulatory molecule HLA-G in human liver diseases. J Hepatol. 201562(6):1430–7.

Kundaje A. A comprehensive collection of signal artifact blacklist regions in the human genome. 2013. ENCODE [hg19-blacklist-READMEdoc - EBI] Available online at: https://sites.google.com/site/anshulkundaje/projects/blacklists.

Boyle AP, Hong EL, Hariharan M, et al. Annotation of functional variation in personal genomes using RegulomeDB. Геном Res. 201222(9):1790–7.

Ernst J, Kellis M. ChromHMM: automating chromatin state discovery and characterization. Nat Методи. 20129(3):215–6.


The Gene for Big Brains

Scientists, led by Max Planck Institute’s Wieland Huttner, have identified a gene that triggers a human embryo to grow the vast supply of brain cells that largely forms the foundation for our braininess.1 The same gene is found in modern humans, Neanderthals, and Denisovans. Called ARHGAP11B, Huttner says this is “the first human-specific gene where we could show that it contributes to the pool of basal brain stem cells and can trigger a folding of the neocortex. In that way, we managed to take the next step in tracing evolution.”2

Searching for the link between this human gene and the genes of our supposed ape cousins, Marta Florio and colleagues on a team led by Huttner report in Science Advances that the nucleotide sequence in human-specific ARHGAP11B differs from a similar gene in apes by just one nucleotide.3 A nucleotide is the equivalent of a letter in the genetic language. That difference in spelling might well be the genetic basis for one of the greatest physical differences between apes and humans.

Florio’s team genetically engineered a form of ARHGAP11B with a spelling error. They believe this misspelled human gene is the ancestral form of ARHGAP11B because it is spelled like a similar gene in the chimpanzee, which they firmly believe to be the human’s cousin. When tested on mouse embryos,4 this “ancestral” gene was unable to trigger proliferation of basal progenitor cells. (Basal progenitor cells are the cells that differentiate into neurons as embryonic development continues.) This simple spelling error nips any big-brained potential in the bud. Therefore, Florio’s team concludes that the ability of the human ARHGAP11B gene to stimulate stem cell production in a human embryo’s brain evolved “from a change that is tiny on a genomic scale but substantial in its functional and evolutionary consequences.”5


Keep this in mind

Gene sequencing is already contributing to the development of better, more targeted, and potentially safer medicines. Its use to inform treatment decisions, reduce the use of less effective treatments, and possibly reduce the risk of relapse or provide functional cures is revolutionary.

In the future, we may see more blurring of the lines separating gene-sequencing system manufacturers like Illumina, drug developers like Novartis, and genetic services companies like Guardant. We're already seeing collaborations that cut across these individual market segments, such as Grail, a company spun out of Illumina that's using gene sequencing to develop next-generation cancer tests that could catch disease at its earliest stage. Since these companies may wind up competing more aggressively with one another in the future, investors will want to keep close tabs on this market.


Considering interactions between genes, environments, biology, and social context

Kristen Jacobson received her Ph.D. in Human Development and Family Studies from the Pennsylvania State University in 1999. She spent a year as a postdoctoral scholar in psychiatric genetics under the direction of Dr. Kenneth Kendler at the Virginia Institute for Psychiatric and Behavioral Genetics, where she later served as faculty from 2000-2005. Dr. Jacobson is currently an Assistant Professor of Psychiatry at the University of Chicago, and serves as the Associate Director for Twin Projects and the Associate Director of the Clinical Neuroscience and Psychopharmacology Research Unit. Dr. Jacobson is a collaborator on a number of twin studies of children, adolescents, and adults, and is currently conducting a multidisciplinary, multi-level study of adolescent development, From Neighborhoods to Neurons and Beyond, funded by an NIH New Innovator Award . She is editor of a special issue of Behavior Genetics entitled Pathways between Genes, Brain, and Behavior (expected publication January, 2010). New areas of research involve pilot studies of epigenetics in both mice and humans.

Bronfenbrenner’s bioecological model (Bronfenbrenner & Ceci, 1994) highlights the need to consider interactions between individual, family, peer, school, and community characteristics in understanding individual differences in human development. In order to obtain a complete understanding of the processes involved in individual differences, multidisciplinary studies that measure risk and protective factors at multiple levels of analysis are required. With recent advances in human molecular genetics, the need to integrate environmental measures into genomic studies is of even greater importance. While the mapping of the human genome and the corresponding availability of genome-wide association analysis (GWAS) techniques has led to a flurry of research activity trying to discover “genes for” particular disorders and traits, a significant body of research, both historic as well as quite recent, cautions that efforts to uncover specific genetic variants that ignore the effects of social and contextual environments in genetic studies of individual differences in human behavior and traits may be futile. This essay briefly reviews some of the most interesting work regarding the interplay of genes and environments on individual differences in human development.

природата срещу Nurture

For years, behavioral genetic studies using twin or adoptive samples have been considered the gold standard for assessing the joint effects of nature and nurture in accounting for individual differences in human behaviors and traits. Decades of behavioral genetic research have demonstrated the importance of genetically-influenced characteristics on individual differences in child, adolescent, and adult behaviors and traits. At the same time, behavioral genetic studies have revealed that generally over half of the variation in individual behaviors and traits is due to environmental factors, typically environmental factors that are unique across people within the same family or that have different effects on behavior (i.e., nonshared environmental influence).

Genetic influence has been found on “environmental” measures, suggesting the presence of gene à environment correlations. Gene à environment correlations arise because exposure to certain risk and protective environments is not random, but rather is influenced by inherited characteristics of the individual, and also because children “inherit” both genes and environments from their parents. The role of genes and environments in mediating pathways between risk and behavior is complex, however. For example, recent quasi-longitudinal work using twins to understand the relationship between peer group deviance and adolescent problem behavior found that while genetic factors accounted for most of the relationship between earlier problem behavior and later peer group deviance (consistent with genetic characteristics of an individual relating to peer selection), the relationship between prior peer group deviance and later problem behavior was largely environmentally mediated (consistent with peer influence effects (Kendler, Jacobson, Myers, & Eaves, 2008).

природата и Nurture

While the nature versus nurture debate may have attenuated in recent years with consensus from many fields regarding the importance of both genes and environments, other areas of research have further identified interactions between nature and nurture as important components of individual differences. A host of adoption studies in the 1980s and 1990s have shown that genetic liability to antisocial behavior (as indexed through biological parent psychopathology and substance abuse) is only associated with the development of adult criminality and aggression under adverse adoptive environmental conditions, indicating that neither nature nor nurture was sufficient in and of itself to cause pathology (Cadoret, Yates, Troughton, Woodworth, & Stewart, 1995 Cloninger & Gottesman, 1987).

Alternatively, gene X environment (gXe) interactions may be implicated when the relative importance of genetic influence on behaviors and traits as measured through standard twin designs varies across social and ecological context. For example, a study by Rowe, Almeida, and Jacobson (1999) integrated genetically-informative regression models within a hierarchical linear modeling design to show that levels of parental warmth, measured at the aggregate school level, moderated the heritability (i.e., proportion of individual differences due to genetic factors) of adolescent aggression. Heritabilities of delinquent behavior are increased among adolescents living in families with high rates of dysfunction (Button, Scourfield, Martin, Purcell, & McGuffin, 2005), while the heritability of adolescent smoking decreases with higher levels of parental monitoring (Dick et al., 2007). Family and personal religiosity has been shown to decrease the importance of genetic variance on adolescent substance use behaviors (Koopmans, Slutske, Heath, Neale, & Boomsma, 1999 Timberlake et al., 2006), and urban-rural differences in the heritability of adolescent alcohol use were found to be mediated by contextual factors such as alcohol sales and neighborhood migration (Dick, Rose, Viken, Kapiro, & Koskenvuo, 2001). These latter areas of research may be of particular importance in generalizing results from prior twin studies to minority individuals or individuals in socially and economically disadvantaged environments, as most large-scale twin registries are based on primarily middle-class, Caucasian or Asian samples.

More recently, attention has turned to using measured genotypes and measured environments to investigate ”classic” gXe interactions for a number of important behaviors. Caspi et al.(2002) have elucidated an important and highly replicated (Kim-Cohen et al., 2006) gXe interaction using measured genotype (MAO-A gene) and environmental risk (child abuse) variables, demonstrating that the relationship between child maltreatment and various indices of aggressive and antisocial behavior is attenuated among individuals with the high MAO-A activity genotype.

Another highly replicated interaction has been found between a serotonin transporter gene (5-HTTPLR) and stressful life events in predicting depression (Canli & Lesch, 2007). Further studies have found interactions between the 5-HTTPLR genotype and socioeconomic status (SES) for aggression in preadolescents (Nobile et al., 2007), between the 5-HTTPLR genotype and lab-induced stress for lab measures of aggression in adult males (Verona, Joiner, Johnson, & Bender, 2006) and between life stress and the 5-HTTPLR genotype for individual differences in amygdala activation (Canli et al., 2006). There is also emerging evidence for environmental modification of dopaminergic genes related to impulsivity and aggression, with studies finding significant interactions among the DRD4-7 repeat polymorphism and caregiver quality in predicting higher levels of aggression and impulsive traits in infants and preschoolers (Bakermans-Kranenburg & van Ijzendoorn, 2006 Sheese, Voelker, Rothbart, & Posner, 2007), and interactions between SES and the DRD4 gene for aggression in pre-adolescents (Nobile et al., 2007). Thus, genes implicated in multiple neurotransmitter pathways work in conjunction with a host of social and environmental experiences to alter individual differences across multiple behaviors and traits.

Additional Gene-Environment Interplay

While the above section concerns statistical interactions between genes and environments which may represent genetic sensitivity to environmental stressors, or, alternatively, environmental exacerbation of genetic effects, another potentially important avenue for research concerns the dynamic interplay between genes and environments, that is, genetic influence on среди and environmental influences on genes. By now, it is fairly common knowledge that when measures of family environment are treated as ‘phenotypes’ in traditional behavioral genetic models, significant genetic influences on these measures are often detected (Plomin & Bergeman, 1991). Decades of behavioral genetic studies have provided considerable evidence for significant genetic influence for measures such as various dimensions of parenting, indices of SES such as income and educational level, social support, and stressful life events (see Kendler & Baker [2007] for a recent review). What has been slower to develop, however, is the notion that environmental influences and experiences can have profound effects on genetic influence. While the underlying DNA structure and sequence individuals are born with does not change over time, a newer area of research in epigenetics is beginning to identify factors that may alter gene expression and function across the lifespan.

Epigenetics, defined formally as changes in gene expression caused by mechanisms other than changes in the underlying DNA sequence, offers an exciting new frontier in the study of human psychiatric and medical diseases, and psychological behaviors and traits. Epigenetic mechanisms include DNA methylation and chromatin remodeling, the latter via post-translational modifications (e.g. methylation, acetylation, phosphorylation and ubiquitylation) to histone proteins which form the scaffold for the DNA helix. Although some epigenetic processes are essential to organism function (e.g., differentiation of cells in the developing embryo during morphogenesis), other epigenetic processes can have major adverse effects on health and behavioral outcomes. While some epigenetic changes only occur within the course of one individual organism's lifetime, animal models suggest that other epigenetic changes can be inherited from one generation to the next (see Champagne [2008] for a review), contributing, in part, to the heritability of behavioral traits and psychiatric disease.

However, a growing field of research suggests that environmental experiences, particularly those related to stress, have the capacity to alter biological and genetic mechanisms associated with increased risk of problem behavior. Again, the notion that environmental experience can change biological processes has important historical precedence. Harlow’s seminal deprivation studies of non-human primates have shown that disruptions in early rearing environments have the capacity to disrupt psychobiological regulatory functions, leading to behavioral changes. Other important animal research has begun to identify the precise mechanisms by which social environmental factors can alter epigenetic programming. Relatively recent research using animal models offers an elegant demonstration of how early environmental stressors can alter neurobiological responsivity to future stressful conditioning (Meaney, 2001). Meaney’s model highlights how individual differences in maternal behaviors can cause regulatory changes in the corticotropin releasing hormone (CRH) system at the level of the central nucleus of the amygdala, and how these changes relate further to changes in adrenocortical and autonomic effects of later stressful events. Importantly, his work suggests that these effects can be altered through intervention (Weaver et al., 2005). Differences in early maternal care have also been associated with differences in methylation of the glucocorticoid receptor gene promoter in the hippocampus (Meaney & Szyf, 2005). Most critically, a recent comparison of post-mortem brain tissue from a sample of patients with a history of child abuse and/or neglect and who died by suicide indicated DNA hypermethylation of the rRNA promoter region in the hippocampus relative to controls who experienced sudden, accidental death (McGowan et al., 2008), supporting the hypothesis that epigenetic changes due to social and environmental experiences are related to behavioral traits.

Other studies of monozygotic twins have identified variations in DNA methylation levels in certain target gene promoter regions. Because identical twins share identical genomes and experience many of the same family environmental factors, this indicates that environmental experiences that are not shared among children in the same family have an important causal role in gene expression, and may further be related to behavioral differences among identical twin pairs. Importantly, within-pair differences in DNA methylation and histone acetylation patterns were increased in older twin pairs, especially those who had different lifestyles and had spent fewer years of their lives together, strongly supporting epigenetic processes as a part of nonshared environmental influence on individual differences (Fraga et al., 2005). This suggests that epigenetic processes represent a fundamental gene-environment interface in the development and ongoing plasticity of the human brain.

Заключения

While there is no doubt that genetic studies of individual behaviors and traits will increase our understanding of both normal human variation and pathological disorders, there is increasing recognition that the interplay between genes and environments is remarkably complex. Not only are both genes and environments important for both normal and abnormal human development, but genes and environments operate interactively to produce both risk and resilience to specific behavioral and psychiatric disorders. More importantly, emerging lines of research from epigenetics suggest that not only can nature alter nurture, but nurture, in turn, has the power to modify nature. Thus, genomic studies that incorporate a range of social and environmental influences will further our understanding of the complex dance between nature and nurture in human development.

Bakermans-Kranenburg, M. J., & van Ijzendoorn, M. H. (2006). Gene-environment interaction of the dopamine d4 receptor (drd4) and observed maternal insensitivity predicting externalizing behavior in preschoolers. Dev Psychobiol, 48(5), 406-409.

Bronfenbrenner, U., & Ceci, S. J. (1994). Nature-nurture reconceptualized in developmental perspective: A bioecological model. Psychol Rev, 101(4), 568-586.

Button, T. M., Scourfield, J., Martin, N., Purcell, S., & McGuffin, P. (2005). Family dysfunction interacts with genes in the causation of antisocial symptoms. Behav Genet, 35(2), 115-120.

Cadoret, R. J., Yates, W. R., Troughton, E., Woodworth, G., & Stewart, M. A. (1995). Genetic-environmental interaction in the genesis of aggressivity and conduct disorders. Arch Gen Psychiatry, 52(11), 916-924.

Canli, T., & Lesch, K.-P. (2007). Long story short: The serotonin transporter in emotion regulation and social cognition. Nat Neurosci, 10(9), 1103.

Canli, T., Q. M., Omura, K., Congdon, E., Haas, B.W., Amin, Z., Herrmann, M.J., et al. (2006). Neural correlates of epigenesis. Proc Natl Acad Sci, 103, 16033-16038.

Caspi, A., McClay, J., Moffitt, T. E., Mill, J., Martin, J., Craig, I. W., et al. (2002). Role of genotype in the cycle of violence in maltreated children. наука, 297(5582), 851-854.

Champagne, F. A. (2008). Epigenetic mechanisms and the transgenerational effects of maternal care. Front Neuroendocrinol, 29(3), 386-397.

Cloninger, C. R., & Gottesman, I. (1987). Genetic and environmental factors in antisocial behavior disorder. In S. A. Mednick, T. E. Moffitt & S. A. Stack (Eds.), The causes of crime: New biological approaches (pp. 99-102). Cambridge: Cambridge University Press.

Dick, D. M., Rose, R. J., Viken, R. J., Kaprio, J., & Koskenvuo, M. (2001). Exploring gene-environment interactions: Socioregional moderation of alcohol use. J Abnorm Psychol, 110(4), 625-632.

Dick, D. M., Viken, R., Purcell, S., Kaprio, J., Pulkkinen, L., & Rose, R. J. (2007). Parental monitoring moderates the importance of genetic and environmental influences on adolescent smoking. J Abnorm Psychol, 116(1), 213-218.

Fraga, M. F., Ballestar, E., Paz, M. F., Ropero, S., Setien, F., Ballestar, M. L., et al. (2005). Epigenetic differences arise during the lifetime of monozygotic twins. Proc Natl Acad Sci U S A, 102(30), 10604-10609.

Kendler, K. S., & Baker, J. H. (2007). Genetic influences on measures of the environment: A systematic review. Psychol Med, 37(5), 615-626.

Kendler, K. S., Jacobson, K., Myers, J. M., & Eaves, L. J. (2008). A genetically informative developmental study of the relationship between conduct disorder and peer deviance in males. Psychol Med, 38(7), 1001-1011.

Kim-Cohen, J., Caspi, A., Taylor, A., Williams, B., Newcombe, R., Craig, I. W., et al. (2006). MAOA, maltreatment, and gene-environment interaction predicting children's mental health: New evidence and a meta-analysis. Mol Psychiatry, 11(10), 903-913.

Koopmans, J. R., Slutske, W. S., Heath, A. C., Neale, M. C., & Boomsma, D. I. (1999). The genetics of smoking initiation and quantity smoked in dutch adolescent and young adult twins. Behav Genet, 29(6), 383-393.

McGowan, P. O., Sasaki, A., Huang, T. C., Unterberger, A., Suderman, M., Ernst, C., et al. (2008). Promoter-wide hypermethylation of the ribosomal rna gene promoter in the suicide brain. PLoS ONE, 3(5), e2085.

Meaney, M. J. (2001). Maternal care, gene expression, and the transmission of individual differences in stress reactivity across generations. Annu Rev Neurosci, 24, 1161-1192.

Meaney, M. J., & Szyf, M. (2005). Maternal care as a model for experience-dependent chromatin plasticity? Trends Neurosci, 28(9), 456-463.

Nobile, M., Giorda, R., Marino, C., Carlet, O., Pastore, V., Vanzin, L., et al. (2007). Socioeconomic status mediates the genetic contribution of the dopamine receptor d4 and serotonin transporter linked promoter region polymorphisms to externalization in preadolescence. Development and Psychopathology, 19(4), 1147-1160.

Plomin, R., & Bergeman, C. S. (1991). The nature of nurture: Genetic influence on "environmental" measures. Behavioral & Brain Sciences, 14, 373-427.

Rowe, D. C., Almeida, D. M., & Jacobson, K. C. (1999). School context and genetic influences on aggression in adolesceence. Psychological Science, 10, 277-280.

Sheese, B., Voelker, P., Rothbart, M., & Posner, M. (2007). Parenting quality interacts with genetic variation in dopamine receptor d4 to influence temperament in early childhood. Developmental Psychopathology, 19, 1039-1046.

Timberlake, D. S., Rhee, S. H., Haberstick, B. C., Hopfer, C., Ehringer, M., Lessem, J. M., et al. (2006). The moderating effects of religiosity on the genetic and environmental determinants of smoking initiation. Nicotine Tob Res, 8(1), 123-133.

Verona, E., Joiner, T. E., Johnson, F., & Bender, T. W. (2006). Gender specific gene-environment interactions on laboratory-assessed aggression. Biol Psychol, 71(1), 33-41.

Weaver, I. C., Champagne, F. A., Brown, S. E., Dymov, S., Sharma, S., Meaney, M. J., et al. (2005). Reversal of maternal programming of stress responses in adult offspring through methyl supplementation: Altering epigenetic marking later in life. J Neurosci, 25(47), 11045-11054.


Гледай видеото: 1 3 Структура гена (Август 2022).