Информация

4.7: Сравнителен анализ на генома - Биология

4.7: Сравнителен анализ на генома - Биология


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Паралогични гени

  • Гените, които са сходни поради произход от общ прародител, са хомоложни.
  • Хомоложните гени, които са се отклонили след видообразуването са ортологичен.
  • Хомоложните гени, които са се отклонили след дублирането са паралогично.

Човек може да идентифицира паралогично групи на гени, кодиращи протеини с подобна, но не идентична функция във вид, например ABC транспортери: 80 члена в Е. coli

Основните протеоми се различават малко по размер

Протеом: всички протеини, кодирани в генома

За да изчислите основния протеом:

Пребройте всяка група паралогични протеини само веднъж

Брой различни протеинови семейства във всеки организъм

ВидовеБрой гениОсновен протеом
Хемофилус17091425
Дрожди62414383
червей184249453
Летя136018065

Фигура 4.22.Малка промяна в размера на основния протеом при еукариотите

Основните протеоми са запазени

  • Много от протеините в основните протеоми се споделят между еукариотите
  • 30% от гените на мухите имат ортолози в червея
  • 20% от гените на мухите имат ортолози както в червеи, така и в дрожди
  • 50% от гените на мухи имат вероятни ортолози при бозайници

Функцията на протеините в мухите (и червеи и дрожди) осигурява силни показатели за функцията при хората. Мухите имат ортолози на 177 от 289 човешки болестни гена

Фигура 4.23. Функционални категории в еукариотните протеоми

Фигура 4.24. Разпределение на хомолозите на предвидените човешки протеини

Запазени сегменти в човешкия и мишия геном

Фигура 4.25. Региони на човешки хромозоми, хомоложни на региони на миши хромозоми (обозначени с цветовете). Например, почти цялата човешка хромозома 20 е хомоложна на регион на миша хромозома 2 и почти цялата човешка хромозома 17 е хомоложна на регион на миша хромозома 11. По-често сегментите от дадена човешка хромозома са хомоложни на различни мишки хромозоми. Хромозомите от мишка имат повече пренареждания спрямо хората, отколкото хромозомите от много бозайници, но хомоложните връзки са все още очевидни.

ХРОМОЗОМИ и ХРОМАТИН

Хромозомите са цитологичен пакет за гени. Геномите са много по-дълги от клетъчното отделение, което заемат размери на отделение дължина на ДНК

  • Фаг Т4: [0,065 пъти 0,10 ,mm 55, mm = 170, kb]
  • E. coli: [1,7 пъти 0,65, mm ,1,3, mm = 4,6 пъти 10^3, kb]
  • Ядро (човешко): [6 mm , диам. 1.8, m = 6 по 10^6, kb]

Определение: Съотношение на опаковката

[ ext{Коефициент на опаковане} = dfrac{ ext{дължина на ДНК}}{ ext{дължина на единицата, която го съдържа}}.]

Най-малката човешка хромозома съдържа около

[46 пъти 10^6, bp = 14 000, mm = 1,4, cm , ДНК.]

Когато се кондензира за митоза, тази хромозома е около. 2 мм дължина. Следователно съотношението на опаковката е около 7000!

Примки, матрица и хромозомно скеле

Когато ДНК се освободи от митотиченхромозоми чрез премахване на повечето протеини, дълъг бримки от ДНК се виждат, произлизащи от a централно скеле което прилича на остатъците от хромозомата.

Фигура 4.26: ЕМ анализът на непокътнати ядра показва мрежа от влакна, наречена a матрица.

Биохимични препарати, използващи сол и детергент за отстраняване на протеини и нуклеаза за отстраняване на по-голямата част от ДНК, оставя "матрица" или "скеле" препарат. Подобни ДНК последователности се намират в тези препарати; тези последователности се наричат области на прикрепване на матрица = MARs (или области на закрепване на скеле = SAR). Те са склонни да бъдат богати на A+T и имат места за разцепване от топоизомераза II. Топоизомераза II е един от основните компоненти на матриксния препарат; но съставът на матрицата все още се нуждае от допълнително проучване.

Тъй като е прикрепен в основата към матрицата, всеки контур е отделен топологичен домен и може да натрупва супернамотки от ДНК.

От измерените размери на бримките и изчисления, базирани на количеството изрязване, необходимо за отпускане на ДНК в примките, оценяваме, че средният размер на тези цикли е около 100 kb (85 kb въз основа на честотата на изрязване за релаксация).

Някои доказателства предполагат, че репликацията и евентуално известен транскрипционен контрол може да се упражнява в основите на бримките.

Интерфазен хроматин и митотични хромозоми

По време на интерфазата, тоест между митотичните деления, силно кондензираният митотичен хромозомисе разпространява през ядрото, за да се образува хроматин. Интерфазният хроматин не е много гъсто опакован в по-голямата част от ядрото (еухроматин). В някои региони е много гъсто опакован, сравним с митотична хромозома (хетерохроматин).

И интерфазният хроматин, и митотичните хромозоми са направени от 30 nm влакно. Митотичната хромозома е много по-навита от интерфазните хромозоми.

Повечето транскрипции се извършват в еухроматин.

  • Конститутивен хетерохроматин = неекспресирани региони, които са кондензирани (компактни) във всички клетки (например центромерни прости повторения)
  • Факултативен хетерохроматин = неактивен само в някои клетъчни линии, активен в други.

Един пример за хетерохроматин е неактивната Х хромозома при женски бозайници. Изборът на коя Х хромозома да се инактивира е случаен в различни клетъчни линии, което води до мозаечни фенотипове за някои Х-свързани черти. Например, една генетична детерминанта на цвета на козината при котки е Х-свързана и неравномерното оцветяване на калико котките е резултат от това произволно инактивиране на една от Х хромозомите, което води до липса на експресия на тази детерминанта в някои, но не всички косми. клетки.

Цитологично видими ленти в хромозомите

G ивици и R ивици в митотични хромозоми на бозайници (Фигура 4.27)

Гимза-тъмните (G) ленти обикновено са богати на A+T, с голям брой L1 повторения.

Лентите на Giemsa-light обикновено са по-богати на G+C, с много малко L1 повторения и много Alu повторения.

(R лентите са приблизително същите като светлинните ленти по Гимза. Те се визуализират чрез различна подготвителна процедура, така че да се види „обратната страна“ на изображенията, оцветени по Гимза.)

Т лентите са в непосредствена близост до теломерите, не се оцветяват с Giemsa и са изключително богати на G+C, с много гени и безброй Alu повторения.

Функционалното значение на тези ленти все още е в процес на активно изследване.

Човек може локализирайтеа ген към определен регион на хромозома от в situхибридизация с радиоактивна или, сега по-често, флуоресцентна сонда за гена. Областта на хибридизация се определя чрез едновременно гледане на оцветения модел на ленти и модела на хибридизация. Много разпределения на митотични хромозоми се разглеждат и оценяват и генът е локализиран в хромозомната област със значително по-голяма честота на хибридизационен сигнал, отколкото тази, наблюдавана за останалите хромозоми.

Друг често срещан метод за картографирането на местоположението на гените е чрез хибридизация с ДНК, изолирана от панел от соматични клетъчни хибриди, всяка хибридна клетка, носеща малка подгрупа от, например, човешки хромозоми на фона на хамстер. Някои хибридни клетки носят счупени човешки хромозоми, което позволява още по-прецизна локализация (вж. Фигура 1.8.2, "серия J-1").

Политенните хромозоми се виждат в няколко дрозофилни тъкани

Те съдържат много копия на хромозомите, разположени една до друга в регистъра. Така повечето хромозомни региони са високо усилени в тези тъкани. Хромозомните петна разкриват характерен лентов модел, който е в основата на цитологичната карта. Цитологичната карта (на политени ленти), комбинирана с генетичната карта, дава a цитогенетична карта, което е прекрасно ръководство за генома на Drosophila. Човек може да локализира ген в определен регион чрез in situ хибридизация (всъщност техниката е изобретена чрез дрозофилаполитени хромоми.

Множество гени на лента на хромозоми на бозайници

Фигура 4.27 дава изглед на човешка хромозома 11 при няколко различни нива на разделителна способност. Регионът 11p15 има много интересни гени, включително гени, чиито продукти регулират клетъчния растеж (HRAS), определяне и диференциране на мускулни клетки (MYOD), въглехидратен метаболизъм (INS) и минерален метаболизъм (PTH). b-глобиновият ген (HBB) и нейните тясно свързани роднини също са в този регион. Изглед с по-висока разделителна способност на 11p15, базиран на компилация от генетично и физическо картографиране (Cytogenetics and Cell Genetics, 1995) е показан до класическата идеограма (образец на ленти). Това е в мащаб от милиони базови двойки и човек може да започне да усеща генна плътност в този регион. Интересното е, че варира доста, с гъстите на гените подленти близо до теломерите; те могат да съответстват на Т-лентите, обсъдени по-горе. Други гени изглежда са по-широко разделени. Например, всеки от b-подобните глобинови гени е отделен на около 5 до 8 kb един от друг (вижте картата на YAC или изкуствената хромозома на дрожди, носеща b-подобните глобинови гени) и този генен клъстер е около 1000 kb (т.е. 1 Mb) от най-близките гени на картата. Въпреки това, по-нататъшното картографиране вероятно ще открие много други гени в този регион. Сега още повече информация е достъпна на уебсайтовете, споменати по-рано.

Фигура 4.27.

Връзката между разстоянията на рекомбинация и физическите разстояния варира значително между организмите. При човека един сантиМорган (или cM) съответства на приблизително 1 Mb, докато при дрождите 1 cM съответства на около 2 kb и тази стойност варира най-малко 10 пъти по протежение на различните дрождени хромозоми. Това е резултат от различните честоти на рекомбинация по протежение на хромозомите.

Специализирани области на хромозомите

Центромер: регион, отговорен за сегрегацията на хромозомите при митоза и мейоза. Центромерата е стегната област (обикновено) към център на хромозомата (въпреки че може да се намира в края, както при миши хромозоми.) Съдържа кинетохор, влакнеста област към която микротубули се прикрепят докато теглят хромозомата към единия полюс на делящата се клетка. ДНК последователностите в този регион са много повтарящи се прости последователностидрозофила, единицата на повторението е дълга около 25 bp, повторена стотици пъти). Специфични протеини са в центромера и сега се изследват интензивно.

теломера: образува краищата на линейната ДНК молекула, която изгражда хромозомата. Теломерите се състоят от хиляди повторения на CCCTAA в човека. Варианти на тази последователност се срещат в теломерите при други видове. Теломерите се образуват от теломераза; този ензим катализира синтеза на повече краища при всеки кръг на репликация, за да стабилизира линейните молекули.

Основните протеини в хроматина са хистони

Състав на хроматина: Различни биохимични методи са достъпни за изолиране на хроматин от ядра. Химичният анализ на хроматина разкрива протеини и ДНК, като най-разпространените протеини са хистони. Сложен набор от по-малко изобилни хистони се наричат ​​нехистонови хромозомни протеини.

Хистоните и ДНК присъстват в равни маси.

Масово съотношение ДНК: хистони: нехистонови протеини: РНК = 1: 1: 1: 0,1

Хистони са малки, основни (положително заредени), силно запазени протеини. Те се свързват един с друг, за да образуват специфични комплекси, около които се увива ДНК, за да се образува нуклеозоми. Нуклеозомите са основна повтаряща се единица на хроматина.

Има 5 хистона, 4 в ядрото на нуклеозомата и един извън ядрото.

H3, H4: Богата на Arg, най-запазена последователност ü

ý CORE Хистони

H2A, H2B: Леко богати на Lys, сравнително запазениþ

H1: много богат на Lys, най-променлива последователност между видовете.

Рентгенови дифракционни изследвания на хистоновите комплекси и нуклеозомното ядро ​​са предоставили подробна представа за това как хистоните взаимодействат помежду си и с ДНК в тази основна единица от структурата на хроматина.

Ключова справка: "Кристална структура на частицата на нуклеозомната сърцевина с разделителна способност 2,8 Å" от Luger, K. Mader, A., Richmond, R.K., Sargent, D.F. и Ричмънд, T.J. в природата 389: 251-260 (1997)

Взаимодействия на хистони чрез хистоновата гънка

Основните хистони имат силно положително заредена амино-терминална опашка, а по-голямата част от останалата част от протеина образува а-спирален домен. Всеки основен хистон има най-малко 3 a-спирали.

Фигура 4.28

a-спиралната област образува характеристика хистонова гънка, при което по-късите a1 и a3 спирали са перпендикулярни на по-дългата спирала a2. А-спиралите са разделени от две бримки, L1 и L2. Хистоновата гънка е домейнът на димеризация между двойки хистони, медиира образуването на хетеродимери с форма на полумесец H3-H4 и H2A-H2B. Мотивите на хистонната гънка на партньорите в двойка са антипаралелни, така че L1 бримката на единия е в съседство с L2 бримката на другия.

Фигура 4.29

Структура, много подобна на хистоновата гънка, сега се наблюдава в други ядрени протеини, като някои субединици на TFIID, ключов компонент в общата транскрипционна машина на еукариотите. Той също така служи като димеризационен домен за тези протеини.

Два H3-H4 хетеродимера се свързват заедно, за да образуват тетрамер.

Нуклеозомите са субединиците на хроматиновото влакно

Най-разширеното хроматиново влакно е с диаметър около 10 nm. Състои се от поредица от хистон-ДНК комплекси, наречени нуклеозоми.

Основните доказателства за това заключение са:

  1. Наблюденията на това 10 nm влакно в електронния микроскоп показаха серия от тела, които приличаха на мъниста на връв. Сега разпознаваме зърната като нуклеозомни ядра и низ като свързващ елемент между тях.
  2. Смилането на ДНК в хроматин или ядра с микрококова нуклеаза освобождава серия от продукти, които съдържат ДНК с дискретни дължини. Когато ДНК от продуктите на разграждането на микрококова нуклеаза се пусне върху агарозен гел, беше установено, че тя представлява серия от фрагменти от 200 bp, 400 bp, 600 bp, 800 bp и т.н., т.е. интегрални кратни на 200 bp. Това показва, че разцепването от тази нуклеаза, която има много малка специфичност на последователността, е ограничено до отделни области в хроматина. Тези области на разцепване са линкерите.
  3. Физическите изследвания, включващи както данни за неутронна дифракция, така и данни за електронна дифракция на влакна и най-скоро рентгенова дифракция на кристали, предоставиха по-подробна структурна информация.

2. В нуклеозомни ядро се състои от октамер от хистони със 146 bp дуплексна ДНК, увита около него в 1,65 много тесни завъртания. Октамерът на хистоните всъщност е тетрамер H32H42 по централната ос, ограден от два H2A-H2B димера (по един във всеки край на ядрото.

Фигура 4.30. Схематични изгледи на нуклеозомното ядро

10 nm влакното се състои от низ от нуклеозомни ядра, свързани с линкерна ДНК. Дължината на линкерната ДНК варира между тъканите в организма и между видовете, но общата стойност е около 60 bp. В нуклеозома е ядро плюс линкери по този начин съдържа около 200 bp ДНК.

Фигура 4.31. Поредица от нуклеозоми

Подробна структура на нуклеозомното ядро.

Път на ДНК и плътно опаковане

146 bp ДНК е обвита около хистоновия октамер в 1,65 завъртания на плоска, лява тороидална суперспирала. По този начин 14 завоя или "завъртания" на ДНК са в 1,65 суперспирални завои, представящи 14 главни и 14 малки вдлъбнатини към хистоновия октамер. Панкреатична ДНКаза I ще разцепи ДНК на повърхността на сърцевината на около всеки 10 bp, когато всяко усукване на ДНК е изложено на повърхността.

ДНК суперспирала има среден радиус от 41,8 Å и стъпка от 23,9 Å. Това е много плътно обвиване на ДНК около хистоните в ядрото - имайте предвид, че дуплексната ДНК на един завой е само на няколко Å от ДНК на следващия завой! ДНК не е равномерно огъната в тази суперспирала. Докато ДНК се обвива около хистоните, главните и след това малките канали се компресират, но не по еднакъв начин за всички обрати на ДНК. Богатата на G+C ДНК благоприятства компресията на главния жлеб, докато богатата на A+T ДНК благоприятства малката компресия на бразда. Това е важна характеристика в транслационното позициониране на нуклеозомите и може също да повлияе на афинитета на различни ДНК към хистони в нуклеозомите.

ДНК фосфатите имат висока подвижност, когато не контактуват с хистони; ДНК фосфатите, обърнати към разтворителя, са много по-подвижни, отколкото се наблюдава при други протеин-ДНК комплекси.

Фигура 4.32. Напречен разрез на нуклеозомното ядро, показващ хистонови хетеродимери и контакти с ДНК. Това изображение съответства на протеините и ДНК в около половината от нуклеозомата.

Левостранните тороидални супернамотки на ДНК в нуклеозомните ядра са еквивалент на дясна, следователно отрицателна супернамотка. Така ДНК в нуклеозомите е ефективно подвита.

Фигура 4.33.

Хистони в ядрото на нуклеозомната частица

Протеиновият октамер е съставен от четири димера (2 двойки H2A-H2B и 2 двойки H3-H4), които взаимодействат чрез "хистонната гънка". Двете двойки H3-H4 взаимодействат чрез сноп с 4 спирала, образуван между двата H3 протеина, за да направят H32H42 тетрамер. Всяка двойка H2A-H2B взаимодейства с тетрамера H32H42 чрез втори 4-спирален сноп между H2B и H4 хистонови гънки.

Регионите на хистоновата гънка на тетрамера H32H42 се свързват с центъра на ДНК, покривайки общо около 6 усуквания на ДНК, или 3 усуквания на ДНК на H3-H4 димер. Тези от димерите H2A-H2B покриват сравнимо количество ДНК, 3 завъртания на димер. Допълнителни спирални области се простират от регионите на хистоновата гънка и са неразделна част от основния протеин в рамките на ДНК суперспирала.

Взаимодействия хистон-ДНК в ядрената частица.

Доменът на хистоновата гънка на хетеродимерите (H3-H4 и H2A-H2B) свързва 2,5 завъртания на двойната спирала на ДНК, генерирайки 140˚ огъване. Взаимодействието с ДНК се осъществява на два типа места:

  1. Примките L1 плюс L2 в тясно заострените краища на всеки хетеродимер образуват подобно място за свързване на ДНК за всяка хистонова двойка. Примките L1-L2 взаимодействат с ДНК във всеки край на 2,5 оборота на ДНК.
  2. a1 спиралите на всеки партньор в двойка образуват изпъкналата повърхност в центъра на ДНК свързващото място. Основните взаимодействия са Н-връзките между аминокиселините и фосфат гръбнака на ДНК (има малка специфичност на последователността за свързване на хистон-ДНК). Има обаче някои изключения, като хидрофобен контакт между H3Leu65 и 5-метила в тимина. Странична верига Arg от хистонова гънка навлиза в малкия жлеб при 10 от 14 пъти, когато е изправена пред хистоновия октамер. Останалите 4 случая имат странични вериги на Arg от опашните региони, проникващи в малкия жлеб.

Хистонови опашки

Хистоновите N- и С-термиални опашки съставляват около 28% от масата на основните хистонови протеини и се виждат над около 1/3 от общата им дължина в картата на електронната плътност - т.е., че голяма част от тяхната дължина е относително неподвижна в структурата.

Опашките на H3 и H2B преминават през канали в суперспирала на ДНК, създадена от 2 съпоставени малки вдлъбнатини. Един сегмент на опашката H4 прави силен междучастица връзка, вероятно свързана със структурата на нуклеозомите от по-висок ред.

Най-много N-терминални области на хистонните опашки не са силно подредени в рентгеновата кристална структура. Тези региони се простират от нуклеозомното ядро ​​и следователно могат да бъдат включени междучастица взаимодействия. Местата за ацетилиране и деацетилиране на специфични лизини са в тези сегменти на опашките, които излизат от сърцевината. Пост-транслационни модификации като ацетилиране са замесени в "ремоделиране на хроматин", за да се позволи или подпомогне свързването на транскрипционния фактор. Изглежда вероятно тези модификации да влияят на взаимодействията между нуклеозомните ядра, но не променят структурата на ядрената частица.

Външни връзки

  • Някои отлични ресурси са достъпни в целия свят уебза визуализиране и по-нататъшно изследване на структурата на хроматина и неговото участие в ядрените процеси.
  • Дмитрий Прус поддържа сайт с много добри изображения, включително динамичен, стъпка по стъпка изглед на нуклезомното ядро, започващо с домейните на хистоновата гънка и завършващо с пълно ядро, с ДНК. www.average.org/~pruss/nucleosome.html
  • Друг добър сайт е от J.R. Bone: rampages.onramp.net/~jrbone/chrom.html

Структура на хроматина от по-висок порядък

  1. 10 nm влакното, съставено от нуклеозомни ядра и спейсери, е сгънато в структури от по-висок порядък за голяма част от ДНК в хроматина. Всъщност 10 nm влакното с вид на зърна върху струна в електронния микроскоп е приготвено при много ниски концентрации на сол и не съдържа хистон H1.
  2. В присъствието на H1 и при по-физиологични концентрации на сол, хроматинът образува 30 nm влакно. Точната структура на това влакно остава предмет на значителен дебат и не може да се постанови възможността за множествена структура в това влакно.
  3. Един разумен модел е, че 10 nm влакното се навива около себе си, за да генерира a соленоид с диаметър 30 ​​nm, с 6 нуклеозоми на завъртане на соленоида.

Хистон H1 се свързва с външната повърхност на нуклеозомното ядро, взаимодействайки в точките на влизане и излизане на ДНК. H1 молекулите могат да бъдат омрежени една с друга с химически реагенти, което показва, че H1 протеините също взаимодействат един с друг. Взаимодействията между H1 протеини, всеки от които е свързан с нуклеозомно ядро, може да бъде една от силите, движещи образуването на 30 nm влакно.

Фигура 4.34. Модел за едно завъртане на соленоида в 30 nm влакно.

4. Всяко ниво на структура на хроматина произвежда по-компактно подреждане на ДНК. Това може да се опише чрез съотношение на опаковане, което е дължината на ДНК в разширено състояние, разделена на дължината на ДНК в по-компактното състояние.

За 10 nm влакно съотношението на опаковане е около 7, т.е. има 7 mm ДНК на mm хроматиново влакно. Съотношението на опаковане в ядрото е по-високо (виж проблемите), но това не включва допълнителната, по-малко уплътнена ДНК в спейсера. В 30 nm влакно съотношението на опаковане е около 40, т.е. има 40 mm ДНК на mm хроматиново влакно.

5. 30 nm влакното вероятно е основната съставка както на интерфазния хроматин, така и на митотичните хромозоми. Може да се уплътнява допълнително чрез допълнителни намотки и контури. Един от ключовите въпроси в генната регулация е естеството на хромиращите влакна в транскрипционно активния еухроматин. Това 10 nm влакно ли е? 30 nm влакно? някаква модификация на последното? или дори някаква структура от по-висок порядък? Това са теми за текущи изследвания.


Сравнителен геномен и транскриптомен анализ на диатомея, Skeletonema costatum, разкрива еволюцията на гените за вреден цъфтеж на водорасли

Диатомеите играят голяма роля във фиксирането на въглерода с около 20% от цялата фиксация в света. Въпреки това, вредният цъфтеж на водорасли, известен като червен прилив, е основен проблем в околната среда и рибарската индустрия. Въпреки че досега са провеждани интензивни проучвания, молекулярният механизъм зад вредния цъфтеж на водорасли не е напълно разбран. Има две основни диатомеи, които са секвенирани, но повече диатомеи трябва да бъдат изследвани на ниво на целия геном и са необходими еволюционни изследвания на генома, за да се разбере пейзажът на молекулярния механизъм на вредния цъфтеж на водорасли.

Резултати

Тук секвенирахме генома на Skeletonema costatum, който е доминиращият диатом в Япония, причиняващ вреден цъфтеж на водорасли, и също така извърши анализ на РНК-секвениране за условия, при които често се появяват вредни цъфтежи на водорасли. Като резултати открихме, че както еволюционните геномни, така и сравнителните транскриптомни изследвания разкриват гени за реакция на оксидативен стрес и отговорът към цитокинин е ключ за пролиферацията на диатомеите.

Заключения

Диатомеите, причиняващи вреден цъфтеж на водорасли, са придобили множество копия на гени, свързани с реакцията на оксидативен стрес и реакцията към цитокинин и са получили способност за интензивна генна експресия в цъфтежа.


Изследване на сравнителната геномика

В тази статия ще обсъдим изучаването на сравнителната геномика.

Всички гени на един организъм не са функционални. При различните групи организми процентът на функционалните гени варира. Например при бактериите 3-5 гена са нефункционални, докато при хората 97 % гени са нефункционални. Освен това нивото на еволюционно запазване на микробните протеини е доста еднакво с 70% от генните продукти.

Всеки от секвенираните геноми има хомолози в отдалечени геноми. По този начин функцията на много от тези гени може да бъде предвидена чрез сравняване на различни геноми и чрез прехвърляне на функционална анотация на протеини от по-добре проучени организми към техните ортолози от по-малко проучени организми.

Въз основа на горните факти, изследването на сравнителната геномика се оказа мощен подход за постигане на по-добро разбиране на геномите и впоследствие на биологията на съответните организми. Напоследък някои от генома на микроорганизмите, т.е. Haemophilus influenzae, Mycoplasma genitalium, Methanococcus jannaschii, Saccharomyces cerevisiae, Escherichia coli. Bacillus subtilis са напълно секвенирани.

Изчислителният анализ на пълни геноми изисква база данни (хранилище на генната структура на организмите), която съхранява геномна информация и инструменти за биоинформация. За изследване на напълно секвенирани геноми е необходим анализ на нуклеинови киселини, протеини и др. Днес дори анализът на протеинови набори също се оказа инструмент за изследване на анализа на генома.

По този начин е възможно да се знае чрез сравняване на различни геноми и чрез прехвърляне на функционална анотация на протеини от по-добре проучени организми към техните ортолози [т.е. гени, които са свързани чрез вертикален еволюционен произход (“същият” ген при различни видове)] за разлика от паралози (т.е. гени, свързани чрез дублиране в генома) от по-малко проучени организми.

Това прави сравнителната геномика мощен подход за постигане на по-добро разбиране на геномите, а впоследствие и на биологията на съответните организми.

Бази данни за сравнителна геномика:

Световната мрежа (www) е достъпна за всеки, използвайки Интернет.

Тази база данни дава in­formation за протеините, техните триизмерни структури, ензимни модели, PROSITE модели, Pfam домейни, BLOCKS и SCOP домейни, както и PIR ключови думи и PIR супер семейства.

Клъстерите от групи ортолози (COGs) са приложими за опростяване на еволюционните изследвания на пълни геноми и подобряване на функционалните назначения на отделните протеини. Състои се от -2800 запазени семейства протеини от всеки от секвенираните геноми.

Той съдържа ортологични набори от протеини от поне три филогенетични линии, за които се предполага, че са еволюирали от индивидуален протеин на предците. Функциите на ортолозите са еднакви във всички организми.

Семействата на протеини в базата данни на COGs са разделени на 17 функционални групи, които включват група от нехарактеризирани, но запазени протеини, както и група протеини, за които само общо функционално назначение изглежда подходящо.

В базата данни на COGs поради съхраняване на разнообразни данни за протеини, търсенето на сходство също дава известна информация за тези протеини, които нямат ясна информация в базите данни. Базите данни също действат като инструмент за сравнителен анализ на пълни геноми.

Киото Енциклопедия на гените и геномите (KEGG) Центрове за клетъчния метаболизъм е предложена от Kaneshisa и Goto (2000). За секвенирания (геномен) организъм е даден изчерпателен набор от диаграми на метаболитни пътища, общи и специфични. При това ензимите, идентифицирани в конкретен организъм, са цветно кодирани, така че човек лесно може да проследи пътищата.

Той също така осигурява ензимите, кодирани за ортологичните гени. Тези гени, ако са разположени в съседство един до друг, образуват като оперони, например може да се направи сравнение между два пълни генома, в които гените са разположени относително близо или съседни (с по пет гена). Този сайт е полезен за получаване на информация за анализ на метаболизма в различни организми.

Базата данни за микробния геном (MBGD) се намира в университета в Токио, Япония. Тази база данни помага за търсене на микробни геноми. MBGD приема няколко последователности наведнъж (-2000 остатъка) за търсене спрямо цялата налична пълна геномика, показва цветно кодирани функции на откритите хомолози и тяхното местоположение върху кръгова геномна карта. Тази база данни също така дава информация относно функциите, напр. разграждане на въглеводороди или биосинтез на нуклеотиди и др.

Подобно на KEGG, WIT (“Какво има” база данни) дава информация относно метаболитната реконструкция за напълно секвенирани геноми. Характеристиките на WIT са да осигурят последователност от реакции между две бифуркации, освен че включват протеини от много частично секвенирани геноми. Тези характеристики на WIT предоставят много повече информация за последователностите на едни и същи протеини/ензими, получени/от различни организми.

Подгрупи по биоинформатика:

Биоинформатиката има повече подгрупи, т.е. мрежи, база данни за последователности и теории за подравняване, филогенетичен анализ, прогнози за вторична структура и ДНК анализ, биомолекулярни структури, динамика и функция, протеинови мотиви, моделиращ анализ на 3-D структури на макромолекули, приложения в откриването на синтетични молекули за топлина, човешки заболявания и молекулярни механизми, свързани с генната регулация и др.

Стъпки на формиране на последователността:

Инструментът на биоинформатиката осигурява анализ на информация за последователността.

Този процес включва:

и Идентифициране на гените в последователностите на ДНК от различни организми.

ii. Разработване на методи за изследване на структурата и структурата и/или функциите на новоидентифицирани последователности и съответните структурни РНК последователности.

iii. Идентифициране на семейства от свързани последователности и разработване на модели.

iv. Подравняване на подобни последователности и генериране на филогенетични дървета за изследване на еволюционните връзки.

За познаване на биологичните и биофизичните знания е необходимо преобразуване на информацията за последователността. Информацията за биологичната последователност може да дешифрира структурните, функционалните и еволюционните улики, кодирани на езиците на биологичните последователности. Декодирането на езиците може да бъде разложено на изречения (протеини), думи (мотиви) и букви (аминокиселини), а кодът може да се разглежда на различни от тези нива.

Една промяна на една буква в рамките на една дума понякога може да промени нейното значение, например верижен кодон за глутаминова киселина (GAA) към валин (GUA) при хомозиготни индивиди. Тази малка разлика води до промяна от нормално здравословно състояние към фатална сърповидноклетъчна анемия.

Основни изисквания:

Следват някои от изискванията:

а. Биологични изследвания в мрежата.

б. Анализ на последователността, подравняване по двойки и търсене в база данни.

° С. Множество подравнявания на последователности, дървета и профили.

д. Визуализация на протеинови структури и изчисляване на структурни свойства.

д. Предсказване на протеинова структура и функция от последователност.

е. Инструменти за геномика и протеомика.

Добре познатите пакети (софтуер) за анализ на ДНК и протеинова последователност включват Staden и Gene world (за ДНК и протеинова последователност), Gene Thesarus (достъп до публични данни и интеграция с патентовани данни), Lasergene (за анализ на кодиране, съвпадение на сайта на модела, структура и сравнителен анализ, анализ на рестрикционния сайт, проектиране на PGR праймер и сонда, редактиране на последователности, сглобяване и анализ и т.н.), CINEMA (пакетът предоставя средства за идентифициране на мотиви с помощта на BLAST), EMBOSS (използвайки анализ на модела на нуклеотидна последователност, анализ на използването на кодон, ген инструменти за идентификация, идентификация на протеинов мотив и бързо търсене в база данни с модел на последователност), EGCG (за сглобяване на фрагменти, картографиране на анализ на множество последователности, анализ на нуклеотидни и протеинови последователности за разпознаване на образци и др.).

Биологичните данни и съхранението на информация са дадени по-долу в Таблица 27.12:

Класификация на базите данни:

Базите данни са общо класифицирани в две категории: бази данни за последователности (включват както протеини, така и последователности на нуклеинова киселина) и структурни бази данни (включват само бази данни за протеини).

Освен това той също е класифициран в три категории:

Primary databases contain information of the sequence or structure alone of either protein or nucleic acid e.g. PIR or protein sequences, GenBank and DDBJ for genome sequences. Secondary databases contain derived informations from the primary databases, for example informations on conserved sequence, signature sequence and active site residues of protein families by using SCOP, eMOTIF, etc.

The composite database is obviating the need to search multiple resources. The SCOP is structural classification of proteins in which the proteins are classified into hierarchical levels such as classes, folds, superfamilies.

Comparative Modelling or Homology Modelling:

It is useful in aligning two sequences to identify segments that share similarity. It later identifies the structure of desired protein. After predicting the structure of the homology, rigid body assembly approach is applied for assembling the structure that represents the core loop regions, side chains, etc. In sediment matching procedure, coordinates are calculated from approximate position of conserved atoms of the templates.

The alignment of the sequence of interest with one or more structural templates can be used to derive a set of distance constraints which gives informations on distance geometry or retrained energy minimization or retained molecular dynamics to obtain the structure.

It is a technique to match a sequence with a protein shape in the absence of any substantial sequence identity to proteins of known structure, whereas comparative modelling requires protein sequences.

Threading is followed by scoring, that creates a profile for each site or using a potential based pair wise interaction. Potential energy functions may be obtained from ab initio quantum mechanical calculations or from thermodynamic, spectroscopic or crystallographic method or by combination method.

(б) Sequence analysis:

In order to understand the protein/nucleic acid structure and evolution, the analysis of their sequence data is required. The sequence analysis is the detection of homologus (orthologus: same function, different species) or paralogus (different but related functions within one organism) relationships by means of routine database searches.

Some of the important resources are outlined in the following:


Comparative Genome Analysis and Global Phylogeny of the Toxin Variant Clostridium difficile PCR Ribotype 017 Reveals the Evolution of Two Independent Sublineages

The diarrheal pathogen Clostridium difficile consists of at least six distinct evolutionary lineages. The RT017 lineage is anomalous, as strains only express toxin B, compared to strains from other lineages that produce toxins A and B and, occasionally, binary toxin. Historically, RT017 initially was reported in Asia but now has been reported worldwide. We used whole-genome sequencing and phylogenetic analysis to investigate the patterns of global spread and population structure of 277 RT017 isolates from animal and human origins from six continents, isolated between 1990 and 2013. We reveal two distinct evenly split sublineages (SL1 and SL2) of C. difficile RT017 that contain multiple independent clonal expansions. All 24 animal isolates were contained within SL1 along with human isolates, suggesting potential transmission between animals and humans. Genetic analyses revealed an overrepresentation of antibiotic resistance genes. Phylogeographic analyses show a North American origin for RT017, as has been found for the recently emerged epidemic RT027 lineage. Despite having only one toxin, RT017 strains have evolved in parallel from at least two independent sources and can readily transmit between continents.

Ключови думи: Clostridium difficile SNPs antibiotic resistance evolution phylogenetics phylogeny ribotype 017 sequencing.

Copyright © 2017 Cairns et al.

Фигури

Maximum-likelihood phylogenetic analysis of 277…

Maximum-likelihood phylogenetic analysis of 277 global RT017 isolates based on core genome SNPs…

Maximum-likelihood phylogenetic analysis of 277…

Maximum-likelihood phylogenetic analysis of 277 global RT017 isolates based on core genome SNPs…

Bayesian evolutionary analysis of 277…

Bayesian evolutionary analysis of 277 global RT017 isolates based on core genome SNPs…

Maximum-likelihood phylogenetic analysis of the…

Maximum-likelihood phylogenetic analysis of the global RT017 isolates based on core genome SNPs…

Global transmission events inferred from…

Global transmission events inferred from Bayesian evolutionary analysis of RT017. From the geotemporal…


Заключения

The isolation and genome sequencing of six L. brevis strains combined with thirteen additional, publicly available L. brevis genomes allowed a comparative genome analysis of the L. brevis видове. The deduced pan-genome of these L. brevis isolates appears to be in a closed state, indicating that the representatives used in this study are sufficient to describe the genetic diversity of the taxon. Throughout evolution, it appears that L. brevis strains specified and differentiated one from another by acquiring plasmids and prophages, despite for the presence of CRISPR-Cas and R/M systems which may have limited such foreign DNA invasion events. These latter systems are of relevance for future functional investigations that may necessitate the development of DNA transfer and/or mutagenesis tools. L. brevis strains represent a significant threat for the brewing industry being the most common cause of beer spoilage however, this spoiling ability is strain specific. The comparative genome analysis performed here highlights that L. brevis strains with the ability to grow in beer possess a higher number of CDSs in their overall chromosomal sequences. This observation suggests a link to evolution and adaptation to beer in which the strain would have acquired novel genes and functions in order to adapt and survive in the harsh environment that beer represents. The role(s) of the “acquired” or beer-specific CDSs revealed that almost a quarter of these are linked to oxido-reduction reactions, possibly playing a role in the response to oxidative stress. Another 22% are linked to transcription regulation, 21% encode cell surface proteins while 14% are encoding membrane transport related proteins and possibly associated to harmful compound extrusion encountered by the L. brevis strains when surviving and growing in beer. Additional genetic diversification of these L. brevis strains is expected to have occurred through plasmid acquisition that also likely contributes to beer adaptation. The plasmid content analysis of the different L. brevis beer-spoiler strains highlighted the presence of unique proteins shared among these strains. These proteins are mostly hypothetical proteins while approximately 30% are linked to membrane transport, and cell-wall synthesis. These observations demonstrate the complexity of microorganisms’ beer spoilage ability and suggests that adaptation of the L. brevis strain to beer is a complex process, not due to the action of only one specific gene, but more likely the intervention of a complex, multi-factorial response.


Comparative Genome Analysis of Four Magnetotactic Bacteria Reveals a Complex Set of Group-Specific Genes Implicated in Magnetosome Biomineralization and Function

ФИГ. 1 . Phylogenetic affiliation of best BLAST hits of all conserved ORFs from MSR-1. Bars represent the top-10 numbers of the best E-value hits from each conserved gene in MSR-1. (A) Distribution with all database species from genomesDB included. (B) Distribution after closest relatives AMB-1, MS-1, and R. rubrum were excluded from analysis. ФИГ. 2 . Comparative gene content analysis of MTB based on reciprocal best matches. The Venn diagrams illustrate the shared gene content between the four genomes. For visualization, individual diagrams for three genomes are shown. The numbers of species-specific genes and shared genes are indicated. (A) Shared gene content between MSR-1, AMB-1, and MS-1. (B) Shared gene content between MSR-1, AMB-1, and strain MC-1. ФИГ. 3 . Phylogenetic tree of MamH (MGR4089) orthologous and paralogous proteins including the MTB-related MGR4148 (maximum-likelihood analysis). MamH represents a typical example for an MTB-related protein defined in this study i.e., it forms a coherent phylogenetic branch within its family tree. In addition, the newly identified MTB-related MGR4148 gene is related to MamH but forms a distinct group. The three major clusters are indicated by different colors. The numbers indicate the bootstrap support for selected nodes. ФИГ. 4 . Gene neighborhood representation of selected group-specific genes. Identical colors indicate homologous genes in the corresponding genomes. Arrows in bold lines indicate identification of the gene product within the magnetosome membrane. (А) mamXY клъстер. Conserved gene neighborhood of MGR4148, mamX (MGR4149), and mamY (MGR4150) (top). Schematic representation of the different Pfam domain structure of the MTB-related gene MGR4148 compared to mamH (bottom) (B) Gene neighborhood of mtxA. The corrected annotation for the MGR0208 homolog of AMB-1 is shown. (C) Gene neighborhood of MGR3500. (D) Gene neighborhood of mmsF (MGR4072).

Заключения

The bench-top sequencing revolution has led to a ‘democratization’ of sequencing, meaning most research laboratories can afford to sequence whole bacterial genomes when their work demands it. However analysing the data is now a major bottleneck for most laboratories. We have provided a starting point for biologists to quickly begin working with their own bacterial genome data, without investing money in expensive software or training courses. The figures show examples of what can be achieved with the tools presented, and the accompanying tutorial gives step-by-step instructions for each kind of analysis.


What other genomes have been sequenced?

Researchers have sequenced the complete genomes of hundreds of animals and plants-more than 250 animal species and 50 species of birds alone-and the list continues to grow almost daily.

In addition to the sequencing of the human genome, which was completed in 2003, scientists involved in the Human Genome Project sequenced the genomes of a number of model organisms that are commonly used as surrogates in studying human biology. These include the rat, puffer fish, fruit fly, sea squirt, roundworm, and the bacterium Ешерихия коли. For some organisms NHGRI has sequenced many varieties, providing critical data for understanding genetic variation.

DNA sequencing centers supported by NHGRI also have sequenced genomes of the chicken, dog, honey bee, gorilla, chimpanzee, sea urchin, fungi and many other organisms.

Researchers have sequenced the complete genomes of hundreds of animals and plants-more than 250 animal species and 50 species of birds alone-and the list continues to grow almost daily.

In addition to the sequencing of the human genome, which was completed in 2003, scientists involved in the Human Genome Project sequenced the genomes of a number of model organisms that are commonly used as surrogates in studying human biology. These include the rat, puffer fish, fruit fly, sea squirt, roundworm, and the bacterium Ешерихия коли. For some organisms NHGRI has sequenced many varieties, providing critical data for understanding genetic variation.

DNA sequencing centers supported by NHGRI also have sequenced genomes of the chicken, dog, honey bee, gorilla, chimpanzee, sea urchin, fungi and many other organisms.


XuW, XiW, and WZ designed and coordinated the study and carried out the data analysis. XuW, XiW, LS, and WZ performed the bioinformatics analysis. XuW, XiW, JL, and RY carried out the experiments and interpreted data for the work. XuW, XiW, and WZ wrote the manuscript. GQ checked and edited the manuscript. All authors have read and approved the manuscript.

This work was supported by the National Natural Science Foundation of China (No. 31470230, 51320105006, 51604308), the Youth Talent Foundation of Hunan Province of China (No. 2017RS3003), Natural Science Foundation of Hunan Province of China (No. 2018JJ2486), Key Research and Development Projects in Hunan Province (2018WK2012), Fundamental Research Funds for the Central Universities of Central South University (No. 2018zzts767).


Материали и методи

Cotton Materials

Plants of Г. rotundifolium (accession number K201), Г. arboreum (cultivar Shixiya-1) and Г. raimondii (accession number D502) are maintained in the National Wild Cotton Nursery and are also cultivated in the greenhouse of Huazhong Agricultural University in Wuhan, China. Fresh young leaves were collected individually and immediately frozen in liquid nitrogen.

Library Construction and Nanopore Sequencing

High-quality genomic DNA from one plant was extracted and inspected for purity, concentration, and integrity using Nanodrop, Qubit, and 0.35% agarose gel electrophoresis, respectively. Large DNA fragments (20–150 Kb) were collected using the BluePippin system. DNA libraries were constructed using the SQK-LSK109 kit following the standard protocol of Oxford Nanopore Technologies (ONT). Briefly, DNA fragments were subject to optional fragmentation, end repair, ligation of sequencing adapters, and tether attachment. The Qubit machine was used to quantify each DNA library. DNA sequencing was performed on the PromethION platform (R9.4.1 FLO-PRO002 Biomarker Technologies). Nanopore data (binary fast5 format) was subjected to base calling using the Guppy software from the MinKNOW package. Processed reads were subject to removal of sequencing adapters and filtering of reads with low quality and/or short length (<2,000 bp), and surviving reads were converted to fastq format for subsequent analysis. For each accession, we also constructed DNA libraries using the NEBNext ® Ultra™ DNA Library Prep Kit for sequencing on the Illumina Novaseq 6000 platform (paired-end, 150 bp).

Hi-C Experiment and Library Construction

Fresh leaves (1 g) from G. rotundifolium were chopped with sharp blades, fixed with 1% formaldehyde solution, frozen in liquid nitrogen, and were used for nuclear extraction. Nuclei were digested with 30–50 U HindIII/DpnII for 15 h at 37°C. Digested chromatin was end-labeled with biotin-14-dCTP, and the DNA product was purified after blunt-end ligation. Then, the DNA was fragmented by ultrasound to a length of less than 500 bp. DNA fragments of 300–500 bp were captured by Streptavidin T1 magnetic beads. The library was prepared from the DNA isolated by the magnetic beads using the DNA library kit (Vazyme, #NDM607), and the obtained DNA library was sequenced (paired-end 150 bp reads) using the MGI2000 system.

Genome Assembly and Assessment

Nanopore sequencing reads were corrected via Canu (v1.3) with the parameter “correctedErrorRate = 0.045” ( Koren et al. 2017). Clean reads were subsequently subject to de novo assembly using wtdbg (Ruan and Li 2019) (https://github.com/ruanjue/wtdbg). Assembled contigs were calibrated using Racon ( Vaser et al. 2017) and then polished with the Illumina sequencing reads using Pilon ( Walker et al. 2014) (v1.22 parameters: –mindepth 10 –changes –fix bases) for three iterations. In total, we corrected 12.6 million (M), 6.0 M and 27.2 M SNPs, and 17.6 M, 9.2 M, and 31.0 M InDels in the A2, Д5 и К2 assemblies, respectively. Assembly quality was assessed three ways. First, Illumina reads were mapped to the contigs using BWA (-mem) ( Li and Durbin 2009), and the properly mapped reads were counted using SAMTools (v0.1.19 -flagstat) ( Li et al. 2009). Second, the assemblies were evaluated for the 458 conserved core genes found in the CEGMA (v2.5) database ( Parra et al. 2007). Finally, the assemblies also evaluated using the BUSCO embryophyta_odb9 data set, which contains 1,440 conserved eukaryotic genes ( Simao et al. 2015).

Chromosome Assembly Using Hi-C

Hi-C data were used to construct chromosome-level assemblies for the three genomes. Hi-C data of G. arboreum и G. raimondii were previously published ( Wang et al. 2018). Hi-C data of G. rotundifolium was newly generated here with two independent experiments (HindIII and DpnII for digestion of chromatin) ( supplementary table 2 , Supplementary Material online). Notably, up to 99.5% of A/B compartment regions and 96.4% of TAD boundaries overlapped in these two experiments (The method for A/B compartment and TAD analysis was described below), and the HindIII Hi-C data was used for further analysis. The resolution of Hi-C data sets was estimated as 20 Kb for G. arboreum, 10 Kb for G. raimondii, and 20 Kb for G. rotundifolium using the method described previously ( Rao et al. 2014). We performed a preassembly for error correction of contigs, which required splitting the contigs into segments of 50 Kb (on average). Hi-C data were mapped to these fragments and unique mappings were retained for the assembly using LACHESIS (v1.0) ( Burton et al. 2013). Any two segments that showed inconsistent connections with information from the raw contigs were checked manually. Corrected contigs were used to construct chromosome-level assemblies using LACHESIS with the parameters (CLUSTER_MIN_RE_SITES = 10, CLUSTER_MAX_LINK_DENSITY = 2, CLUSTER_NONINFORMATIVE_RATIO = 2, ORDER_MIN_N_RES_IN_TRUN = 219, ORDER_MIN_N_RES_IN_SHREDS = 216). To assess assembly quality, each assembly was split into 100-Kb bins to serve as a reference for Hi-C data mapping using HiC-Pro (v2.7.1) ( Servant et al. 2015). Obvious placement and orientation errors in chromatin interaction patterns were manually adjusted. The interaction matrices generated by HiC-Pro were displayed with heatmaps at a 100 Kb resolution.

Transposon Prediction

We used both LTR_Finder (v1.07) ( Xu and Wang 2007) with “-C -M 0.8” and RepeatScout (v1.0.5) ( Price et al. 2005) with default parameters to construct a repetitive sequence library, representing structure-based prediction and ab initio prediction, respectively. PASTEClassifier (v1.0) was used to classify sequences in the library with respect to repeat type, and these were subsequently merged with Repbase (version 19.06) for the final repeat library ( Bao et al. 2015). This library was used to predict repetitive sequences in each genome using RepeatMasker (-nolow -no_is -norna -engine wublast) ( Tarailo-Graovac and Chen 2009).

LTR Retrotransposon Analysis

LTR_Finder ( Xu and Wang 2007) was used with parameter settings (-C -M 0.8) to identify full-length LTRs in each genome. Long-terminal repeat (LTR) sequences were clustered from each full-length LTR element using the CD-HIT program ( Fu et al. 2012) with parameter “-d 0 -c 0.8 -aL 0.80 -T 0 -M 1500000” for LTR family analysis. For each full-length LTR retrotransposon, the 5′ LTR and 3′ LTR sequences were aligned using MUSCLE (v3.8.1551) ( Edgar 2004) and the divergence distance between them was calculated with a Kimura two parameter (K2P) model using “distmat” from the EMBOSS toolkit ( Rice et al. 2000). Divergence time was estimated using the formula T = К/2r (where К is the distance between two LTRs and r is the rate of nucleotide substitution per site per year, r = 3.5 × 10 −9 ) ( Chen et al. 2020 Huang et al. 2020). According to the time of divergence (5 Ma) among the three Госипиум species, the burst time of full-length LTR retrotransposons were divided into ancient TE (≥5 Ma) and young TE (<5 Ma), depending on whether the burst was inferred to have occurred prior to or following divergence of these clades. The expression level of transposon was calculated based on the definition of Reads Per Kilobase per Million mapped reads (RPKM), and those with RPKM greater than 0.1 were considered as “expressed TE.” Госипиум retrotransposable Gypsy-like element (Gorge3) sequences ( Hawkins et al. 2006) were aligned against the full-length LTR elements from G. rotundifolium, G. arboreum, G. raimondii, и Gossypioides kirkii (Udall, Long, Ramaraj et al. 2019) using a reciprocal blastn (-e 1e-05) search. MAFFT (v7.453) ( Katoh and Standley 2013) was used for Gorge3 5' LTR domain with multiple sequence alignments in four species, and then phylogenic tree was constructed using the IQ-TREE program ( Nguyen et al. 2015).

Gene Prediction

To predict protein-coding genes, three different strategies were adopted, including ab initio prediction, homolog-based prediction, and transcript-based prediction. Genscan ( Burge and Karlin 1997), Augustus (v2.4) ( Stanke and Morgenstern 2005), GlimmerHMM (v3.0.4) ( Majoros et al. 2004), SNAP (v2006-07-28) ( Korf 2004) were used for ab initio prediction. GeMoMa (v1.3.1) ( Keilwagen et al. 2018) was used for predicting genes based on homologous protein from other species (Populus trichocarpa, Arabidopsis thaliana, Vitis vinifera, Theobroma cacao, и Г. raimondii). Hisat2 (v2.0.4) ( Kim et al. 2015) and Stringtie (v1.2.3) ( Pertea et al. 2015) were used for reference-guided transcript assembly. PASA (v2.0.2) ( Haas et al. 2003) was used to predict unigene sequences based on RNA-Seq data without reference-guided assembly. Finally, EVM (v1.1.1) ( Haas et al. 2008) was used to integrate the prediction results obtained by the above three methods, and PASA (v2.0.2) ( Haas et al. 2003) was used to modify gene models. To identify pseudogenes, GenBlastA (v1.0.4) ( She et al. 2009) was used to scan each genome after masking predicted protein-coding sequences and GeneWise (v2.4.1) ( Birney et al. 2004) was used to identify premature stop codons and frameshift mutations relative to the intact reference proteins. The functional annotation of predicted genes was performed using 1) InterProScan (v5.0) ( Jones et al. 2014) with “-iprlookup -goterms” parameter settings, 2) NR (v20190625) with “-evalue 1e-05 -best_hit_overhang 0.25 -max_target_seqs 5”, and 3) The Arabidopsis Information Resource 10 (TAIR10) database ( Lamesch et al. 2012). Gene Ontology (GO) enrichment analysis was performed using a Fisher’s exact test method ( Carbon et al. 2019). GO enrichment analysis was performed for genes showing A-to-B and B-to-A compartment status change, using different background gene sets (K2 and A2 genes were combined as a reference set and orthologous gene pairs showing A/B compartment status change were used as a test set similarly, A2 and D5 genes were combined as another reference set).

Identification of Centromeric Regions

Previously identified centromeric regions from the published TM-1 reference genome, that is, GhCR1-5′LTR, GhCR2-5′LTR, GhCR3-5′LTR and GhCR4-5′LTR ( Wang et al. 2015 Wang et al. 2019), were aligned to the K2, A2, и Д5 genome sequences using MUMmer (v4.0) ( Delcher et al. 2002), with the parameters “-c 90 -l 40” followed by “delta-filter -1,” to identify uniquely aligning regions. After manual filtering of alignments, the SPSS software (version 17.0) was used to calculate the 95% confidence interval for the median representing the centromeric region for each chromosome.

Comparative Genomes and Gene Synteny Analysis

The genomic sequences of G. rotundifolium, G. arboreum, и G. raimondii were aligned using MUMmer (v4.0) with the following parameters: 1) nucmer -max match -c 90 -l 40 and 2) delta-filter -1. Syntenic blocks among the three genomes were constructed using MCScanX ( Tang et al. 2008) with default settings and requiring a minimum of five homologous genes. The newly assembled A2 and D5 reference genomes were compared with published genomes ( Paterson et al. 2012 Du et al. 2018 Udall, Long, Hanson et al. 2019 Huang et al. 2020) from CottonGen website (https://www.cottongen.org/data/download) by MUMmer (v4.0) and MCScanX. The Chr01-Chr02 large translocation of A2-specific rearrangement and Chr13-Chr05 large translocation of K2-specific rearrangement were confirmed by comparing with the published A1 ( Huang et al. 2020), D1 ( Grover et al. 2019), D10 (Udall, Long, Hanson et al. 2019 Udall, Long, Ramaraj et al. 2019) and F1 ( Grover et al. 2020) genomes. The single-copy gene families among three Госипиум genomes were extracted using an OrthoMCL analysis ( Li et al. 2003).

Analysis of A and B Compartments

Hi-C interaction data can be used to partition the genome into two compartments, based on spatial organization of the chromatin and the relative paucity of interactions between compartments. Referred to as A/B compartments, these represent chromatin regions corresponding to open and closed chromatin, respectively. We evaluated each genome for the presence of A/B compartments, as described previously ( Lieberman-Aiden et al. 2009). Briefly, Hi-C data for each species were aligned using HiC-Pro, as mentioned above. Valid interaction reads were used to construct heatmaps of each chromosome at resolutions of 20 Kb, 50 Kb, and 100 Kb. Raw contact maps were normalized using a sparse-based implementation of the iterative correction method embedded in HiC-Pro (v2.11.1) ( Servant et al. 2015). The principal component analysis (PCA) method was used to identify A and B compartments by the HiTC (v1.0) package in R ( Servant et al. 2012). Each chromosome was divided into consecutive 50 Kb bins for the construction of normalized interaction matrices as described in our previous study ( Wang et al. 2018). Chromosomal bins with values of greater than zero were regarded as “A compartment,” bins with values of less than zero were regarded as “B compartment.” At the chromosome level, A compartment has a higher gene density and a lower transposon density than B compartment. To analyze the A/B compartment status of homologous gene regions among three Госипиум genomes, genomic sequences of gene body, upstream and downstream 2 Kb that were known to be important for gene transcriptional regulation, were extracted. In this analysis, we only considered the regions where the first principal component value changes from positive (A) to negative (B) or vice versa.

Analysis of Topologically Associating Domains

Topologically associating domains (TAD) are regions of highly selfinteracting chromatin that have distinct boundaries and which have been shown to align with coordinately related gene clusters in some species. TAD regions for each species were identified using the HiTAD ( Wang et al. 2017) software with default settings. In this analysis, the raw chromatin interaction matrix for each chromosome was constructed using HiC-Pro at a resolution of 50 Kb. Each matrix file was transformed into the cooler format using the toCooler tool of HiCPeaks (https://github.com/XiaoTaoWang/HiCPeaks). In each species, TADs with a size of 300 Kb–2 Mb were retained for further analysis. To identify conserved and lineage-specific TADs, we compared TAD boundaries located in syntenic blocks from the results of MCScanX. Conserved boundaries were defined as those with a maximum boundary change of 3-resolution distance (150 Kb) and sequence similarity supported by the MUMmer alignments between two genomes.

TAD Boundary Motif Analysis

In each genome, the TAD boundary flanking 50 Kb were used to predict motifs with the findMotifsGenome.pl program in HOMER (v5.0) ( Heinz et al. 2010) software, with the parameters “-len 8,10,12 -size 200.” Putative motifs were filtered with cutoffs of П ≤ 0.01 for known and П ≤ 1e−10 for de novo prediction. We used 1,000 uniformly distributed random genomic regions that did not overlap with TAD boundaries as a control set for nonboundary regions.

RNA-Seq and Data Analysis

For each species, leaf total RNA was extracted using the Spectrum TM Plant Total RNA Kit (Sigma, STRN250). RNA libraries were constructed using the Illumina TruSeq RNA Library Preparation Kit (Illumina, San Diego, CA, USA) and sequenced on the Illumina HiSeq 4000 platform (pair-end 150 bp). After filtering of low-quality bases and sequence adapters, the clean RNA sequencing data were mapped to each genome using hisat2 (v2.0.4) ( Kim et al. 2015) software. High-quality mapping reads were extracted using SAMTools (v0.1.19 -q 25) ( Li et al. 2009). After filtering PCR duplicates using samtools (rmdup), the remaining reads were used to calculate the expression level of genes using Stringtie (v1.2.3) ( Pertea et al. 2015).