Все, что вы хотели спросить о популяционной генетике
Учимся понимать научные новости о том, откуда пришли предки французов или финнов и от каких народов Африки происходят афроамериканцы. В чем разница между генотипированием и полногеномным исследованием? Полногеномное — значит, секвенируют весь геном или не весь? Если можно определить по геному, откуда родом человек, то почему ученые повторяют в каждом интервью, что «генетических маркеров национальности» не существует?
Что изучают популяционные генетики?
Популяционные генетики изучают генофонды популяций — как современные генофонды, так и историю их образования. Они все время подчеркивают, что изучают не этносы, потому что этнос — категория не биологическая, а социальная. Принадлежность к тому или иному этносу определяет сам человек. Буквально — кем он себя считает, ощущает, тот он и есть. И популяционные генетики следуют этому правилу: если человек считает себя татарином, он татарин, если считает себя чувашем, он чуваш, если считает себя коряком, он коряк, если считает себя русским, он русский.
Но как же тогда ученые могут получить объективную информацию о генофонде?
Когда популяционные генетики собирают биологические образцы в популяции коренного народа, они строго придерживаются определенных критериев. Человек может быть включен в выборку, если:
-
Не только он сам, но и его предки в трех поколениях (оба родителя и все четыре бабушки-дедушки) относят себя к данному народу.
-
Его предки в трех поколениях проживали в данном месте. Кстати, при исследовании коренных народов генетики не работают в городах, только в сельской местности. Население городов, представляющее собой конгломерат переселенцев, для этого не подходит.
-
Он не находится в родстве с другими людьми, уже включенными в обследование.
А что такое популяция с точки зрения популяционной генетики?
Это группа людей, проживающая на определенной территории и соответствующая двум условиям. Первое — группа существует в течение не одного, а многих поколений. Второе — члены этой группы больше чем в половине случаев заключают брак с представителями той же группы, а не других. Бывает так, что в группе коренного народа начитают преобладать межэтнические браки с представителями других народов, и тогда эта группа с генетической точки зрения перестает быть популяцией.
Популяции могут быть составными, входить друг в друга, как матрешки. Популяцией может быть и население изолированной деревни (хотя сейчас это редко встречается), и того или иного региона, и народа в целом, и континента, и всего мира.
Что такое гаплотип и гаплогруппа?
Гаплотип, согласно определению из учебника, — это совокупность аллелей на одной (любой) хромосоме, которые наследуются вместе. Но обычно популяционные генетики используют это понятие применительно к так называемым однородительским генетическим системам, то есть Y-хромосоме и митохондриальной ДНК (мтДНК).
Y-хромосомный гаплотип — это определенная комбинация вариантов тех участков Y-хромосомы, которые различаются у разных людей. Гаплотип наследуется по отцовской линии и передается от отца к сыну в неизменном виде (строго говоря, неизменной передается только часть Y-хромосомы, которая не обменивается участками с Х-хромосомой при мейозе). Митохондриальный гаплотип — это комбинация индивидуально изменчивых участков на мтДНК, которая наследуется по материнской линии, потому что при оплодотворении всю цитоплазму с митохондриями зигота получает от яйцеклетки.
Гаплогруппа — это группа гаплотипов, имеющих общего предка. У этого предка когда-то произошла мутация, унаследованная потомками. Если мутация затрагивает один нуклеотид, то возникает однонуклеотидный полиморфизм (SNP). Каждая такая мутация, переданная потомкам, приводит к появлению новой ветви на дереве гаплогрупп. Такие замены возникают редко, одна за 22 поколения, то есть в среднем один раз за 550 лет. (На самом деле мутации происходят чаще, но мы говорим о тех заменах, которым повезло закрепиться в популяции.
Поскольку гаплогруппы наследуются, их удобно использовать для изучения происходящих в прошлом миграций — они как бы маркируют группы населения, которые переселялись из одного места в другое, осваивали новые территории. Зная Y-хромосомную гаплогруппу человека, можно проследить, какой путь прошли его предки по отцовской линии за тысячи и десятки тысяч лет, с того времени, как люди современного вида вышли из Африки. Гаплогруппа мтДНК дает возможность проследить путь предков человека по материнской линии.
Гаплотипы в пределах каждой гаплогруппы определяются по другому типу полиморфизма — по коротким тандемным повторам, или STR-маркерам. Это участки, состоящие из повторяющихся последовательностей, и разные гаплотипы отличаются по количеству таких повторов. Мутации, изменяющие число повторов одного и того же фрагмента, происходят гораздо чаще, чем замены нуклеотидов. Именно поэтому их обычно используют «на малом масштабе» — для характеристики индивидуального гаплотипа и для установления родственных связей между индивидами.
Итак, если мы читаем в статье о народах и популяциях, то, скорее всего, речь пойдет о гаплогруппах и субгаплогруппах. А если о семьях и кровных родственниках — будут упоминаться гаплотипы.
Так что с народами и странами? Мы определяем гаплогруппы на разных территориях, смотрим на них и что видим?
В разных популяциях те или иные гаплогруппы Y-хромосомы и мтДНК встречаются с различными частотами. У какого-либо коренного народа та или иная гаплогруппа (чаще Y-хромосомная, потому что большинство народов исторически жили по принципу патрилокальности — мужчины оставались на месте, а жен могли брать из других мест) может доминировать, достигая высокой частоты. Но это не означает, что ее нет у других народов и в других регионах.
Например, гаплогруппа R1a с наибольшей частотой встречается в Восточной Европе — у русских, украинцев, белорусов, поляков, словенцев, словаков. Но совершенно неправильно приклеивать к ней ярлык «славянской» — она также часта у народов Балтики. А другая область ее высоких частот — это Центральная и Южная Азия; R1a доминирует у киргизов, таджиков, у многих народов Индии и Пакистана.
Для гаплогруппы R1b зона максимальных частот приходится на Западную Европу, тем не менее, она также встречается по всей Евразии. Ареал гаплогруппы N охватывает всю северную половину Евразии — от Дальнего Востока, Северного Китая и Японии через Сибирь и Урал до Восточной Европы. При этом у разных народов распространены разные ее ветви, например, ветвь N3 маркирует народы уральской языковой семьи и помогает прослеживать распространение этих языков. Гаплогруппа С распространена в Восточной и Центральной Азии, а также в Северной Америке и Австралии. Гаплогрупа Q обычна для некоторых народов Сибири, и она же считается «визитной карточной» американских индейцев.
С другой стороны, в каждой популяции имеется спектр гаплогрупп, который составляет, по выражению популяционных генетиков, ее «Y-хромосомный портрет» или «митохондриальный портрет».
Важно то, что аллели, по которым определяются гаплогруппы, селективно нейтральны, это значит, что на них не действует естественный отбор. Частоты гаплогрупп могут со временем меняться под влиянием дрейфа генов — случайных колебаний, которые обычно происходят в популяциях небольшой численности. Основное, что формирует «портреты», — история группы: переселения, встречи с другими народами, разделение прежде единой группы.
Спектр частот гаплогрупп в популяции чаще всего представляют в виде таких «пирогов», как на рисунке ниже, где показаны «Y-хромосомные портреты» разных этногеографических групп татар.
Как обозначаются гаплогруппы?
Буквами латинского алфавита — по порядку возникновения — обозначены кластеры гаплогрупп, а внутри кластера каждая гаплогруппа имеет цифро-буквенный номер: например, R1a, R1b, R2… Такая система дает возможность помещать на дерево гаплогрупп новооткрытые веточки.
А что еще за буквы и цифры в скобках?
Обозначения мутаций, которые служат маркерами гаплогруппы. Например, маркер самой, наверное, известной Y-хромосомной гаплогруппы R1a — мутация M420, поэтому ее обозначают R1a (М420). Именно эта мутация отделила R1a от родительской гаплогруппы R1, и произошло это 22-25 тысяч лет назад, предположительно в Азии. Но R1a также несет и все мутации, произошедшие раньше в ее истории. В дальнейшем R1a (М420) разделилась на ветви R1a1(M459) и R1a2(YP4141), примерно 17 тысяч лет назад; эти ветви образовали субветви, например 5800 лет назад возникла R1a1а (М198), и так далее.
Сегодня используют не только генотипирование, но и полное секвенирование Y-хромосомы. Это позволяет обнаружить все более мелкие веточки на Y-хромосомном филогенетическом дереве и еще точнее изучить филогеографию — узнать, в каких популяциях какие веточки встречаются.
Можно проследить историю предков одного человека по его гаплогруппе?
Когда мы определяем гаплогруппу, мы тем самым определяем и историю предков. Например, если генетический тест выявляет у человека Y-хромосомную гаплогруппу R1b1a2, можно сказать, что 4000—8000 тысяч лет назад его предки по мужской линии жили в Европе либо Передней Азии (где образовалась гаплогруппа R1b), куда они попали примерно 18000 лет назад из Юго-Западной Азии (где возникла гаплогрупа R1), а их предки примерно 27000 тысяч лет назад жили в Центральной Азии (возникла предковая гаплогрупа К) , куда около 40000 лет назад попали с Ближнего Востока (возникла гаплогрупа F), ну а носители исходной гаплогруппы C-T 65000-70000 лет назад вышли из Африки.
Конечно, если мы посмотрим на митохондриальную гаплогруппу, полученную от предков по женской линии, то увидим другую историю. А чтобы узнать вклад всех остальных предков, придется изучать неполовые хромосомы (аутосомы). Исследование аутосомного генофонда дает гораздо более полное представление и о генетической истории популяции.
Что такое полногеномный анализ? Это секвенирование генома?
Возможно, но необязательно. Секвенирование генома человека пока остается дорогим удовольствием, и для популяционных исследований намного чаще используют микрочипы, они же биочипы или панели, анализирующие сотни тысяч или несколько миллионов однонуклеотидных замен — SNP-маркеров. Российские популяционные генетики часто употребляют термин «широкогеномный анализ», это калька с английского «genome-wide». Не очень благозвучно, зато подчеркивает разницу между генотипированием по отдельным SNP (хотя и расположенным по всему геному) и полным прочтением нуклеотидной последовательности, или секвенированием. Хотя уже высказывается мнение, что секвенирование с небольшим покрытием на приборах следующего поколения (NGS) по стоимости приближается к микрочипам и может их заменить.
Как популяционные генетики анализируют и интерпретируют полногеномные данные?
Для этого есть разные методы. Расскажем про основные.
Метод главных компонент (principal component analysis, PCA)
Самый традиционный метод анализа, встречается практически в любой статье с популяционно-генетическим исследованием. Он применяется в самых разных областях наук. Его математическая основа сводится к разложению матрицы данных по разным векторам.
Если объяснять «на пальцах», не вдаваясь в математику, — из многих факторов, которые влияют на величину признака, выбирают компоненты, вносящие наибольший вклад в его изменчивость. Самыми главными обычно оказываются первая и вторая компоненты. Их отображают по осям координат, а изученные объекты — в данном случае индивидуальные геномы — располагаются в пространстве координат. На этот график ученые помещают не только изучаемые ими образцы, но и геномные данные ранее исследованных популяций. График анализа главных компонент наглядно показывает, как группируются популяции в генетическом пространстве, какие из них оказываются генетически близкими, какие — далекими. Если в работе исследуются древние геномы, то вместе с ними на графике представляют данные как по другим, ранее опубликованным древним геномам, так и по современным популяциям.
Например, авторы недавней статьи в Current Biology исследовали генофонд басков на фоне окружающих народов. На рисунке 2А, где по осям указаны первая (PC1) и вторая (PC2) главные компоненты, баски обозначены зелеными кружочками. Они находятся на самом краю геномного разнообразия популяций Европы, Ближнего Востока и Северной Африки. Наиболее близки к ним так называемые перибаски, проживающие по соседству с басками на территории Испании и Франции, но говорящие не на языке басков (эускара), а на испанском или французском. Испанские и французские перибаски занимают промежуточное положение между басками, испанцами и французами; довольно близки к ним генетически жители Сардинии. А вот географически близкая к баскам Северная Африка оказалась генетически далекой.
А вот на таком же графике древние люди западной части России (подробнее на PCR.NEWS): звездочками обозначены три охотника-собирателя (от 10 800 до 4 250 гг. до н. э.) и 26 представителей фатьяновской культуры бронзового века (2 900–2 050 гг. до н. э.) с запада России, а также один представитель культуры шнуровой керамики из Эстонии (2 850–2 500 гг. до н. э.). Три охотника-собирателя группируются с ранее исследованными европейскими охотниками-собирателями (синий), фатьяновцы и человек из Эстонии — с представителями культуры шнуровой керамики из разных стран Европы (красный). Фермеры, как европейские, так и анатолийские (зеленый), от них далеки.
Метод ADMIXTURE
ADMIXTURE (буквально «примесь») — это компьютерная программа, которая моделирует смешанный геномный состав индивидов на основе их генотипов и позволяет строить предположения о происхождении популяции.
Исследователь задает величину k — число гипотетических предковых популяций. При закладке в модель эти популяции не имеют названия, они условны. Допустим, k=3. Программа моделирует вклад каждой из этих трех предполагаемых предковых популяций в геномы изучаемой популяции, а также в ранее изученные геномы других популяций. Число k может быть сколь угодно большим, но надо выбрать его оптимальное значение. По определенным биоинформатическим критериям исследователь берет число k, дающее максимум информации и при этом в большей степени соответствующее реальным данным. Последнее определяется по величине ошибки — она должна быть минимальной.
Результаты вычислений программа представляет в виде частокола из разноцветных столбиков. Каждый столбик — это индивидуальный геном, группа столбиков обозначает геномы одной популяции. Каждый цвет — определенный генетический компонент, или же вклад той или иной предковой популяции в геном.
Возникает вопрос, как мы можем придавать гипотетическим предковым популяциям биологический смысл, как-то их называть, если их число произвольно и исходно они условные? Это становится ясно при сравнении разных популяций: если в какой-то из них явно доминирует компонент определенного цвета, то компоненту можно дать имя этой популяции.
Например, ниже показан график анализа ADMIXTURE, на котором представлены популяции славянских и балтских народов в контексте окружающих народов Европы и всей Евразии.
На представленном графике ADMIXTURE k=5. Видно, что в геномах балто-славянских популяций — в нижней части рисунка — почти весь спектр предковых компонентов представлен двумя цветами: синим (обозначен k3) и голубым (k2). Если посмотреть на Европу в целом, то видно, что k3 (синий) вносит большой вклад во все европейские популяции и снижается от северо-востока к югу. Этот предковый компонент максимален у балтских популяций, превалирует у восточных славян (80–95%) и снижается у южных славян (55–70%). Напротив, k2 (голубой) более характерен для популяций средиземноморского и кавказского регионов и снижается к северу Европы. Таким образом, условно k3 можно назвать северо-центральноевропейским, а k2 — южноевропейским компонентом.
Кроме того, у славян есть еще компонент лимонно-желтого цвета (k5), хотя он сколько-нибудь значимо представлен только у восточных славян, а среди них более всего у северных русских. Сравнение с другими популяциями Евразии показывает, что этот компонент можно назвать сибирским. Компонент темно-зеленого цвета (k4) в небольшой доле присутствует у южных славян, по максимальной представленности в популяциях его можно назвать южноазиатским. Наконец, компонент темно-желтого цвета (k6), которого практически нет ни у славян, ни у балтских народов, — восточноазиатский генетический след.
Как это можно интерпретировать применительно к происхождению популяций? Прежде всего, очевидно генетическое сходство большинства западных и восточных славян, а южные славяне в большей степени от них отличаются. Кроме того, видно, что у восточных славян присутствует генетический след с востока, но по происхождению он связан скорее с миграциями из Сибири, чем из Центральной Азии. А темно-зеленый след популяций Южной Азии распространен также на Ближнем Востоке и в Средиземноморье. Поэтому неудивительно, что он, пусть с небольшой частотой, но встречается у южных славян и других народов Балканского полуострова.
IBD анализ
Еще один часто используемый популяционными генетиками метод — поиск фрагментов генома общего происхождения в парах индивидов из двух разных популяций. Он называется анализ IBD (identical by descent). Разные люди, представители разных популяций, унаследовали эти фрагменты от одного и того же общего предка. Фрагменты общего происхождения похожи на гаплотипы мтДНК и Y-хромосомы, но отличаются от них тем, что с течением времени разбиваются рекомбинациями — обменом участками между отцовской и материнской хромосомами.
Если общие фрагменты короткие, сильно разбиты рекомбинациями, это значит, что общий предок этих людей жил давно. И наоборот, чем они длиннее, тем меньше поколений назад жил общий предок. Именно по числу длинных IBD фрагментов в геномах представителей двух разных популяций можно сделать вывод о том, что эти популяции разошлись в своей истории сравнительно недавно.
Кроме того, для генетического сравнения популяций применяют методы f3, f4 и D-статистики. Все они основаны на анализе частот аллелей в популяциях и используют полногеномные (широкогеномные) данные.
Что такое геногеография?
Популяционные генетики часто применяют для визуализации своих данных методы картографирования. С применением этих методов, собственно, популяционная генетика переходит в геногеографию, основателем которой считается российский генетик Александр Сергеевич Серебровский.
Методы картографирования позволяют перенести на карту разные генетические данные. Часто строят карту распространения частот гаплогрупп Y-хромосомы или мтДНК, Например, так выглядит карта гаплогруппы R1b (L10) в Европе. Высоким частотам этой гаплогруппы соответствуют фиолетовые и коричнево-красные оттенки на карте, низким частотам – зеленые оттенки. Видно, что область максимальных частот R1b – это Западная Европа; есть еще пятно высоких частот на Урале и почему-то в Северной Африке (причины здесь выяснять не будем).
Можно картировать не гаплогруппы, а какие-то интересующие исследователя аллели, отвечающие за те или иные фенотипические признаки. Например, так выглядит карта распределения аллеля HERC2 rs1129038 T , контролирующего пигментацию глаз и волос в популяциях Северной Евразии. Белок HERC2, среди прочих своих функций, обеспечивает продукцию темного пигмента, а нуклеотидные замены, влияющие на его активность, приводят к нехватке пигмента. Соответственно, чем больше в том или ином регионе аллеля HERC2 rs1129038 T, тем чаще у населения встречаются светлые глаза и волосы. (Конечно, надо помнить, что пигментация зависит не только от этого гена.)
А можно строить карты на основе вычисления генетических расстояний между популяциями. Как правило, используют метод стандартных генетических расстояния Нэя, основанный на сравнении частот аллелей. На карте отображают генетические расстояния от какой-либо одной изучаемой популяции до всех остальных. Это дает наглядное представление о сходстве и различии ее с окружающими популяциями. Например, вот карта генетических расстояний от финнов. На ней зелеными цветами показаны области минимальных генетических расстояний, то есть наиболее генетически близкие к финнам, а красно-коричневыми цветами — области максимальных генетических расстояний, то есть генетически далекие от финнов.