09.11.2018

Крейг Вентер vs. Янив Эрлих

Подготовила

Елена Клещенко

Геном анонимным не бывает?

Фото:

Brainstorm Health/flickr

Подготовила

Елена Клещенко

Что за статью опубликовал в сентябре 2017 года Крейг Вентер с соавторами?

Авторы статьи — сотрудники Института Крейга Вентера и основанной им же компании Human Longevity, Inc. (HLI). Тема — идентификация личностей людей, чьи анонимные геномы находятся в свободном доступе. Речь идет о реконструкции внешности по генетической информации. Вопрос: не следует ли ограничить доступ к геномным базам?

Источник

Christoph Lippert et al. // Identification of individuals by trait prediction using whole-genome sequencing data // PNAS, published online before print: September 5, 2017. doi: 10.1073/pnas.1711125114

Что утверждают авторы?

Что геном человека анонимным не бывает. Предполагается, что геномы в открытых базах данных анонимизированы и их нельзя соотнести с реальными людьми. Однако геномные данные уже несколько десятилетий используют для идентификации личности, поиска родственных связей. Существуют базы данных, связывающие данные по Y-хромосоме с фамилиями, конечно, только для тех случаев, когда сын носит фамилию биологического отца. Имея информацию о геноме, можно определить пол, цвет кожи и глаз, сделать предположения о росте и склонности к полноте, о чертах лица, даже о возрасте (по длине теломер, метилированию и еще некоторым признакам). И, конечно, о генетических заболеваниях.

Иными словами, геном примерно так же «не указывает на конкретного человека», как следующий текст: «Мы не будем называть по имени этого героя "Игры Престолов", но он мужчина, европеоид, глаза светлые, вероятно, средних лет, может носить фамилию Ланнистер и, ах да, у него ахондроплазия».

Что плохого в том, что геном указывает на личность человека?

«Эта работа бросает вызов современным концепциям неприкосновенности частной жизни и может иметь далеко идущие этические и юридические последствия», — пишут авторы статьи. И в самом деле, нехорошо говорить людям, что их данные защищены, когда это не так. Например, тот, у кого хватит умения вычислить, что анонимный геном в базе данных — именно ваш, узнает, к каким заболеваниям у вас предрасположенность, какие заболевания, возможно, уже есть, и все это коснется также ваших кровных родственников.

Но Вентер с коллегами это не первыми придумали?

Далеко не первыми! Они на это и не претендуют. Коль скоро ДНК-анализ используется в криминалистике для идентификации личности, понятно, что технологии существуют и что они применимы не только к ДНК, найденной на месте преступления. Проблема ДНК-конфиденциальности не надуманная, изучать ее надо.

Собственно реконструкция внешности по ДНК тоже делается не впервые. (На все работы, приведенные ниже, авторы статьи в PNAS аккуратно сослались.)

Цвет кожи, глаз, волос по геномным данным

https://link.springer.com/article/10.1007/s00439-015-1559-0

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3694299/

http://www.sciencedirect.com/science/article/pii/S1084952113000499

http://www.fsigenetics.com/article/S1872-4973(10)00171-7/fulltext

Трехмерная реконструкция лица по геномным данным

http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1004224

Что новенького у Вентера?

Масштабная постановка задачи. Авторы собрали образцы ДНК у 1 061 жителя окрестностей Сан-Диего возрастом от 18 до 82 лет. Среди участников исследования оказалось 569 представителей африканских этнических групп, 273 — латиноамериканских, 63 европейских, 63 восточноазиатских и 18 южноазиатских, а также 75, не принадлежащих ни к одной из этих групп. Для каждого человека получили 3D-изображения высокого разрешения, записали образцы голоса, количественно измерили цвет глаз и кожи, отметили возраст, рост и вес, а также сделали полногеномное секвенирование. Идея работы, опубликованной в PNAS, — с помощью алгоритмов машинного обучения реконструировать внешние признаки по полногеномным данным.

Предполагалось, что будут реконструированы черты лица, голос, возраст, рост и вес, индекс массы тела, цвет глаз и кожи. (Возраст определяли по длине теломер и мозаичным потерям одной из Х-хромосом у женщин и Y-хромосомы у мужчин.) Цвет глаз, кожи и, разумеется, пол предсказывали точно, «однако для комплексных признаков наша модель объясняла лишь малую часть наблюдаемых фенотипических вариаций», как деликатно выразились авторы. Не удалось предсказать по геному цвет волос и вероятность облысения.

В целом «идентификация по геному» — скорее задача на будущее. Пока еще невозможно прочитать геном и ткнуть пальцем в толпу: «Вот он!» Авторы статьи из HLI выбирали из своей тысячи участников небольшие подгруппы — скажем, 10 человек, затем брали один из десяти геномов и пытались угадать, кому из десятки он принадлежит, сопоставляя результат реконструкции с реальными портретами. Угадывали для десятки с вероятностью около 74%, причем результаты предсказуемо ухудшались, если подгруппа была этнически однородной — состояла, например, только из африканцев или только из европейцев. Результат гораздо лучше, чем случайный выбор (см. иллюстрации в статье), но до идентификации отсюда еще далеко.

Со временем, считают авторы, точность предсказаний будет расти, когда мы узнаем больше о признаках, определяющих черты лица и в том числе о низкочастотных вариантах, связанных с редкими фенотипами. А возраст можно будет предсказать точнее по метилированию генома.

Ожидается, что методы реконструкции внешности по ДНК не только нарушат приватность, но и помогут криминалистам. Сейчас несложно определить, чья ДНК найдена на месте преступления, если сравнивать ее с геномами подозреваемых. Но когда у нас нет генома подозреваемого — допустим, преступник скрылся, а если он до сих пор не бывал под арестом, то и генома его, скорее всего, нет в базе данных, — ДНК-фоторобот, пусть даже плохой, очень пригодился бы. Но проблема в том, что для полногеномного секвенирования требуется порядка 100 нг ДНК, а на месте преступления обычно столько не бывает, так что в криминалистике используют в основном PCR-анализ (исследуют STR, гаплотипы Y-хромосомы и мтДНК) . Но, по мнению авторов статьи, эту трудность помогут обойти методы полногеномной амплификации.

Кто критикует работу Вентера и соавторов?

Самый активный критик Янив Эрлих (Yaniv Erlich) из университета Колумбии — один из соавторов статьи в Science 2013 года, в которой решалась задача идентификации людей, чьи геномы находятся в открытом доступе, по коротким тандемным повторам в Y-хромосоме (Y-STR). Можно взять данные по этим повторам у конкретного анонимного индивида и поискать соответствия в открытых генеалогических базах, где такие повторы ассоциированы с фамилиями, а также добавить информацию о возрасте и штате проживания (О статье Эрлиха и соавт. в Nature). В большинстве случаев этого оказывается достаточно. Эрлих также в свое время язвительно откомментировал заявление гейдельбергской European Molecular Biology Laboratory о том, что из опубликованного генома знаменитой клеточной линии HeLa якобы нельзя извлечь никакой информации о Генриетте Лакс (женщине, которой принадлежала опухолевая ткань, ставшая источником клеток) и ее потомках. (На самом деле можно.)

Янив Эрлих — далеко не единственный критик. Даже один из соавторов статьи, компьютерный биолог Джейсон Пайпер, ныне работающий в компании Apple в Сингапуре, считает, что его результаты были представлены в искаженном виде.

В чем суть критики?

В том, что деанонимировать геном гораздо проще не через реконструкцию черт лица, а другими способами — через те же фамилии. Да и с реконструкцией успехи довольно скромные.

Янив Эрлих опубликовал на сервере BioRxiv критический отзыв буквально через день после публикации Вентера. По его мнению, их результаты «нельзя назвать примечательными. Я достиг той же точности идентификации внутри вентеровской когорты за 10 минут работы без всякой затейливой лицевой морфологии и цифровых сигнатур голоса. Вместо этого я использовал простую процедуру реидентификации, основанную на базовой демографической информации: возраст, пол, названная самим человеком этническая принадлежность». Действительно, эти данные не принадлежат к числу закрытых. С другой стороны, именно пол, возраст и этническая принадлежность (как отметили Вентер и соавторы) оказались самыми значимыми при реконструкции черт лица.

Сложные алгоритмы, соавторская группа из 30 человек, и на выходе результат, которого можно достичь куда более скромными усилиями... Как замечает Эрлих, идентифицировать индивида в группе из 10 человек вообще нетрудно.

Эрлих.jpg

Результаты идентификации человека в группе: по вертикали вероятность успеха, по горизонтали — размер группы. Синие столбики — Эрлих, красные — Вентер (источник данных - таблица 2 из статьи в PNAS, строчка Full-Select)

Кроме того, по его мнению, эти «реконструкции» скорее напоминают усредненные лица для данного возраста и этнической группы, чем индивидуальные портреты, построенные по индивидуальным маркерам. «Выглядит так, будто автор собрался в супермаркет и решил прикупить для этого путешествия космический корабль».

Наконец, найти уникальный для данного индивида набор атрибутов — еще не то же самое, что идентифицировать его, и в реальном мире такая «идентификация» работать не будет. Чтобы работало, у предполагаемого злодея должна быть база данных со всеми словесными портретами людей (желательно составленными в тех же терминах, которые используют Вентер и соавторы), и чтобы к портретам были привязаны имена и фамилии. Такой базы данных ни у одного реального злодея нет.

Источник

Yaniv Erlich. Major flaws in "Identification of individuals by trait prediction using whole-genome sequencing data".https://doi.org/10.1101/185330 Posted September 7, 2017.

Что Вентер отвечает критикам?

Авторы статьи напоминают, что их метод вообще не предполагал знания пола, возраста и этнической принадлежности — они шли только от генома, и доказывают, что для пруф-оф-концепта их реконструкции лиц не так уж плохи, а определение возраста по геному совсем не так сложно и дорого, как утверждает Эрлих. Они также подчеркивают, что главный их вклад — создание алгоритма, который позволит моделировать различные признаки, а оптимальный набор этих признаков и повышение точности по каждому из них — дело будущего.

По их мнению, следует «различать научные результаты и важность / последствия этих результатов». «Обсуждение показало, что это чувствительная тема, вызывающая иногда эмоциональные дебаты. Хотя обмен геномными данными крайне ценен для исследований, наши результаты показывают, что геномы нельзя считать полностью анонимными и работать с ними следует на соответствующем уровне безопасности».

Источник

Christoph Lippert et al. No major flaws in "Identification of individuals by trait prediction using whole-genome sequencing data".https://doi.org/10.1101/187542 Posted September 11, 2017.

Почему эта тема задевает многих? Хороши или плохи результаты Human Longevity по идентификации лиц, где повод нервничать?

Геномика человека держится на открытых базах с геномами и на систематическом пополнении этих баз. Если внушить людям, что помещать анонимные геномы в открытый доступ опасно, это ударит по науке. Между тем опасность выглядит слегка преувеличенной: людям, которые не боятся светить номера своих кредитных карт и гугл-поиски, точно не стоит прятать геномы.

Какова позиция самого Крейга Вентера по открытости геномов?

Как намекают некоторые участники дискуссии, понятно, почему компания, которая собирается создать крупнейшую медицинскую базу геномов, заинтересована в ограничении доступа. Многие еще помнят, что основанная Вентером компания Celera Genomics, которая отважно конкурировала с Human Genome Project, изначально планировала патентовать отсеквенированные последовательности. В 2000 году президент Клинтон заявил, что последовательности генома человека должны быть доступны всем исследователям, и акции Celera сразу упали. (Впрочем, сам Вентер в книге «Расшифрованная жизнь» рассказывает эту историю несколько по-другому, с иными акцентами.)

Что еще интересного в этой истории?

Интересно то, что дискуссия ведется в молниеносном, по классическим научным меркам, режиме: через сервер препринтов BioRxiv (не считая реплик в соцсетях). И это говорит нам о смене парадигмы. Раньше после публикации в рецензируемом журнале критического ответа приходилось ждать месяцы, если не годы, к тому же критику менее охотно принимают к публикации, чем свежие результаты. Теперь тот, кто опубликовал статью в журнале первого ряда, уже не чувствует себя «в домике»: критика мгновенно появляется в общем доступе, а если критикует известный человек, это способно здорово отравить успех.

Кстати, команда из HLI изначально отправила свою статью в Science, но публикация не состоялась: одним из рецензентов был Янив Эрлих, и он оценил статью как весьма слабую. В PNAS ее представил сам Вентер, как член Национальной Академии США (для публикации в этом издании совершенно не обязательно быть академиком, но это способствует). Вентер же, как сообщает PNAS, выбрал рецензентов: двух специалистов по защите личной информации и одного биоэтика. По этой теме оппоненты Вентера тоже прошлись.

Nature о дискуссии

Так как же защитить геномную информацию в базах данных, каким бы ни был способ возможной идентификации?

Помимо чисто запретительных и ограничительных мер, есть и другие предложения — например, маскировать идентичность донора ДНК случайным шумом, слегка искажая запрошенные данные. Но эта идея не всех приводит в восторг: не для того экспериментаторы боролись за точность секвенирования, чтобы потом искажать последовательности.

А реконструкция внешности человека по ДНК — получается, все-таки миф?

Совсем не миф. Сказать, кому из 7,5 миллиардов людей, живущих на Земле, принадлежит данный образец ДНК, используя только гены, определяющие черты лица, цвет кожи и т.п., скорее всего, не получится. А составить по генным характеристикам портрет, который можно предъявить потенциальным свидетелям преступления... да, собственно, это уже делается, если ДНК достаточно. Во многих штатах США полиция распространяет «фотороботы», полученные методом ДНК-фенотипирования. Так, в конце 2017 года в округе Браун штата Техас был арестован Райан Риггс, который в мае 2016 года изнасиловал и убил Шантай Бланкиншип. Портрет, составленный по образцу ДНК в Parabon NanoLabs, опознал брат убитой девушки: похожий парень издевался над ним школе, сказал он. Так следствие вышло на Риггса, и он сознался. В Википедии уже есть статья о ДНК-фенотипировании как методе криминалистики. (Но и Янив Эрлих был прав: реконструкция генеалогических связей по ДНК очень способствует расследованию преступлений.)

Текст впервые опубликован на PCR.ru.

Вопросы и ответы