Полная последовательность человеческого генома
Telomere-to-Telomere (T2T) Consortium представил самую полную и точную на настоящий момент сборку человеческого генома — T2T-CHM13. Она содержит в среднем одну ошибку на десять мегабаз. В T2T-CHM13, в отличие от предыдущей сборки GRCh38.p1, представлены последовательности p-плечей акроцентрических хромосом, сателлитные последовательности, перицентромерные и субтеломерные регионы. Ее основной недостаток — отсутствие Y-хромосомы.
После того, как в 2001 году был опубликован первый геном человека, его постоянно дополняли и улучшали. Однако эта сборка ограничивается эухроматиновыми районами генома, которые можно было клонировать в искусственные бактериальные хромосомы. Многие длинные тандемные повторы в нее не вошли; к тому же финальный продукт представлял собой мозаику из геномов разных людей. Все это привело к тому, что существующие пробелы в старой геномной последовательности невозможно закрыть.
Референсный геном GRCh38.p13 содержит пробелы общей длиной приблизительно в 151 мегабазу, в которые вошли, например, перицентромерные и субтеломерные регионы, а также p-плечи акроцентрических хромосом (13, 14, 15, 21 и 22) и сателлитные последовательности.
Telomere-to-Telomere (T2T) Consortium прочитал геном человека de novo, используя новые технологии секвенирования с длинными прочтениями (такие как PacBio HiFi и Oxford Nanopore) и почти полностью гомозиготную клеточную линию CHM13hTERT, или CHM13. В конце концов получили сиквенс из 3,055 миллиардов пар оснований.
Изначально собрали черновой вариант CHM13v0.9 с консенсусными последовательностями всех хромосом, кроме примерно десяти мегабаз, которые содержали гены рРНК. После этого его валидировали и «полировали», пока не получили сборку без пробелов — CHM13v1.1. Средняя точность сборки была между Phred Q67 и Q73, то есть одна ошибка на десять мегабаз. Регионы с низким покрытием, которые с большей вероятностью содержат ошибки, составляют всего 0,3% общей длины.
Новая сборка позволила исправить множество ошибок GRCh38.p13, добавила к сиквенсу еще 200 миллионов пар оснований, содержащих 2 226 генов-паралогов, среди них 115, предположительно кодирующих белки. Основной недостаток T2T-CHM13 — это отсутствие Y-хромосомы. Авторы сборки находятся в процессе ее секвенирования с использованием клеточной линии HG002.
Таким образом, на данный момент сборка T2T-CHM13 — самый полный, репрезентативный и точный референсный геном человека.Источник
Nurk S., et al. // The complete sequence of a human genome // bioRxiv, published May 27, 2021, DOI: 10.1101/2021.05.26.445798