Крейг Вентер vs. Янив Эрлих
Геном анонимным не бывает?

Что за статью опубликовал в сентябре 2017 года Крейг Вентер с соавторами?

Источник
Что утверждают авторы?

Иными словами, геном примерно так же «не указывает на конкретного человека», как следующий текст: «Мы не будем называть по имени этого героя "Игры Престолов", но он мужчина, европеоид, глаза светлые, вероятно, средних лет, может носить фамилию Ланнистер и, ах да, у него ахондроплазия».
Что плохого в том, что геном указывает на личность человека?

Но Вентер с коллегами это не первыми придумали?
Далеко не первыми! Они на это и не претендуют. Коль скоро ДНК-анализ используется в криминалистике для идентификации личности, понятно, что технологии существуют и что они применимы не только к ДНК, найденной на месте преступления. Проблема ДНК-конфиденциальности не надуманная, изучать ее надо.
Собственно реконструкция внешности по ДНК тоже делается не впервые. (На все работы, приведенные ниже, авторы статьи в PNAS аккуратно сослались.)
Цвет кожи, глаз, волос по геномным данным
https://link.springer.com/article/10.1007/s00439-015-1559-0
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3694299/
http://www.sciencedirect.com/science/article/pii/S1084952113000499
http://www.fsigenetics.com/article/S1872-4973(10)00171-7/fulltext
Трехмерная реконструкция лица по геномным данным
http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1004224
Что новенького у Вентера?
Масштабная постановка задачи. Авторы собрали образцы ДНК у 1 061 жителя окрестностей Сан-Диего возрастом от 18 до 82 лет. Среди участников исследования оказалось 569 представителей африканских этнических групп, 273 — латиноамериканских, 63 европейских, 63 восточноазиатских и 18 южноазиатских, а также 75, не принадлежащих ни к одной из этих групп. Для каждого человека получили 3D-изображения высокого разрешения, записали образцы голоса, количественно измерили цвет глаз и кожи, отметили возраст, рост и вес, а также сделали полногеномное секвенирование. Идея работы, опубликованной в PNAS, — с помощью алгоритмов машинного обучения реконструировать внешние признаки по полногеномным данным.
Предполагалось, что будут реконструированы черты лица, голос, возраст, рост и вес, индекс массы тела, цвет глаз и кожи. (Возраст определяли по длине теломер и мозаичным потерям одной из Х-хромосом у женщин и Y-хромосомы у мужчин.) Цвет глаз, кожи и, разумеется, пол предсказывали точно, «однако для комплексных признаков наша модель объясняла лишь малую часть наблюдаемых фенотипических вариаций», как деликатно выразились авторы. Не удалось предсказать по геному цвет волос и вероятность облысения.
В целом «идентификация по геному» — скорее задача на будущее. Пока еще невозможно прочитать геном и ткнуть пальцем в толпу: «Вот он!» Авторы статьи из HLI выбирали из своей тысячи участников небольшие подгруппы — скажем, 10 человек, затем брали один из десяти геномов и пытались угадать, кому из десятки он принадлежит, сопоставляя результат реконструкции с реальными портретами. Угадывали для десятки с вероятностью около 74%, причем результаты предсказуемо ухудшались, если подгруппа была этнически однородной — состояла, например, только из африканцев или только из европейцев. Результат гораздо лучше, чем случайный выбор (см. иллюстрации в статье), но до идентификации отсюда еще далеко.
Со временем, считают авторы, точность предсказаний будет расти, когда мы узнаем больше о признаках, определяющих черты лица и в том числе о низкочастотных вариантах, связанных с редкими фенотипами. А возраст можно будет предсказать точнее по метилированию генома.
Ожидается, что методы реконструкции внешности по ДНК не только нарушат приватность, но и помогут криминалистам. Сейчас несложно определить, чья ДНК найдена на месте преступления, если сравнивать ее с геномами подозреваемых. Но когда у нас нет генома подозреваемого — допустим, преступник скрылся, а если он до сих пор не бывал под арестом, то и генома его, скорее всего, нет в базе данных, — ДНК-фоторобот, пусть даже плохой, очень пригодился бы. Но проблема в том, что для полногеномного секвенирования требуется порядка 100 нг ДНК, а на месте преступления обычно столько не бывает, так что в криминалистике используют в основном PCR-анализ (исследуют STR, гаплотипы Y-хромосомы и мтДНК) . Но, по мнению авторов статьи, эту трудность помогут обойти методы полногеномной амплификации.
Кто критикует работу Вентера и соавторов?
Самый активный критик Янив Эрлих (Yaniv Erlich) из университета Колумбии — один из соавторов статьи в Science 2013 года, в которой решалась задача идентификации людей, чьи геномы находятся в открытом доступе, по коротким тандемным повторам в Y-хромосоме (Y-STR). Можно взять данные по этим повторам у конкретного анонимного индивида и поискать соответствия в открытых генеалогических базах, где такие повторы ассоциированы с фамилиями, а также добавить информацию о возрасте и штате проживания (О статье Эрлиха и соавт. в Nature). В большинстве случаев этого оказывается достаточно. Эрлих также в свое время язвительно откомментировал заявление гейдельбергской European Molecular Biology Laboratory о том, что из опубликованного генома знаменитой клеточной линии HeLa якобы нельзя извлечь никакой информации о Генриетте Лакс (женщине, которой принадлежала опухолевая ткань, ставшая источником клеток) и ее потомках. (На самом деле можно.)
Янив Эрлих — далеко не единственный критик. Даже один из соавторов статьи, компьютерный биолог Джейсон Пайпер, ныне работающий в компании Apple в Сингапуре, считает, что его результаты были представлены в искаженном виде.
В чем суть критики?
В том, что деанонимировать геном гораздо проще не через реконструкцию черт лица, а другими способами — через те же фамилии. Да и с реконструкцией успехи довольно скромные.
Янив Эрлих опубликовал на сервере BioRxiv критический отзыв буквально через день после публикации Вентера. По его мнению, их результаты «нельзя назвать примечательными. Я достиг той же точности идентификации внутри вентеровской когорты за 10 минут работы без всякой затейливой лицевой морфологии и цифровых сигнатур голоса. Вместо этого я использовал простую процедуру реидентификации, основанную на базовой демографической информации: возраст, пол, названная самим человеком этническая принадлежность». Действительно, эти данные не принадлежат к числу закрытых. С другой стороны, именно пол, возраст и этническая принадлежность (как отметили Вентер и соавторы) оказались самыми значимыми при реконструкции черт лица.
Сложные алгоритмы, соавторская группа из 30 человек, и на выходе результат, которого можно достичь куда более скромными усилиями... Как замечает Эрлих, идентифицировать индивида в группе из 10 человек вообще нетрудно.
Результаты идентификации человека в группе: по вертикали вероятность успеха, по горизонтали — размер группы. Синие столбики — Эрлих, красные — Вентер (источник данных - таблица 2 из статьи в PNAS, строчка Full-Select)
Кроме того, по его мнению, эти «реконструкции» скорее напоминают усредненные лица для данного возраста и этнической группы, чем индивидуальные портреты, построенные по индивидуальным маркерам. «Выглядит так, будто автор собрался в супермаркет и решил прикупить для этого путешествия космический корабль».
Наконец, найти уникальный для данного индивида набор атрибутов — еще не то же самое, что идентифицировать его, и в реальном мире такая «идентификация» работать не будет. Чтобы работало, у предполагаемого злодея должна быть база данных со всеми словесными портретами людей (желательно составленными в тех же терминах, которые используют Вентер и соавторы), и чтобы к портретам были привязаны имена и фамилии. Такой базы данных ни у одного реального злодея нет.
Источник
Yaniv Erlich. Major flaws in "Identification of individuals by trait prediction using whole-genome sequencing data".https://doi.org/10.1101/185330Posted September 7, 2017.
Что Вентер отвечает критикам?
Авторы статьи напоминают, что их метод вообще не предполагал знания пола, возраста и этнической принадлежности — они шли только от генома, и доказывают, что для пруф-оф-концепта их реконструкции лиц не так уж плохи, а определение возраста по геному совсем не так сложно и дорого, как утверждает Эрлих. Они также подчеркивают, что главный их вклад — создание алгоритма, который позволит моделировать различные признаки, а оптимальный набор этих признаков и повышение точности по каждому из них — дело будущего.
По их мнению, следует «различать научные результаты и важность / последствия этих результатов». «Обсуждение показало, что это чувствительная тема, вызывающая иногда эмоциональные дебаты. Хотя обмен геномными данными крайне ценен для исследований, наши результаты показывают, что геномы нельзя считать полностью анонимными и работать с ними следует на соответствующем уровне безопасности».
Источник
Christoph Lippert et al. No major flaws in "Identification of individuals by trait prediction using whole-genome sequencing data".https://doi.org/10.1101/187542 Posted September 11, 2017.
Почему эта тема задевает многих? Хороши или плохи результаты Human Longevity по идентификации лиц, где повод нервничать?

Какова позиция самого Крейга Вентера по открытости геномов?

Что еще интересного в этой истории?

Кстати, команда из HLI изначально отправила свою статью в Science, но публикация не состоялась: одним из рецензентов был Янив Эрлих, и он оценил статью как весьма слабую. В PNAS ее представил сам Вентер, как член Национальной Академии США (для публикации в этом издании совершенно не обязательно быть академиком, но это способствует). Вентер же, как сообщает PNAS, выбрал рецензентов: двух специалистов по защите личной информации и одного биоэтика. По этой теме оппоненты Вентера тоже прошлись.
Так как же защитить геномную информацию в базах данных, каким бы ни был способ возможной идентификации?

А реконструкция внешности человека по ДНК — получается, все-таки миф?
