Ошибки анализа данных ставят под сомнение исследования опухолевой микробиоты

Машинное обучение все чаще используется в научных исследованиях. В умелых руках это мощный инструмент, однако неверный подход может поставить под сомнение результаты всей работы. Подобная история, по-видимому, произошла с авторами одной публикации в Nature, посвященной особенностям опухолевой микробиоты и ее ассоциации с различными типами рака.

Credit:
123rf.com

Грамотная обработка данных не менее важна, чем корректная постановка эксперимента для их получения.  Недавняя работа наглядно это демонстрирует: повторный анализ крупномасштабного исследования выявил в анализе данных ряд ошибок, ставящих под сомнение изначальные результаты. Текст публикации доступен в виде препринта на bioRxiv.

Само исследование, опубликованное в Nature в 2020 году, было посвящено микробиому злокачественных опухолей. Проведенный его авторами анализ 17 625 образцов из Атласа генома рака (TCGA) выявил, что у 32 из 33 проанализированных типов злокачественных опухолей имеются уникальные микробные сигнатуры. Основанные на микробиоме предикторы для машинного обучения позволяли различать виды опухолей с крайне высокой (95–100%) точностью.

Однако другой коллектив ученых обеспокоился тем, что многие модели машинного обучения, представленные в исследовании, были основаны на родах микроорганизмов, которые вряд ли имеют смысл в контексте заболеваний человека. В частности, эти модели включали виды, ассоциированные исключительно с экстремальными условиями и никогда не встречавшиеся в человеческом организме. Когда эти исследователи заново обработали те же данные и сопоставили свои методы с исходной статьей, оказалось, что в ней присутствуют как минимум два ключевых недостатка.

Первый из них связан с базой данных референсных геномов и соответствующим вычислениям. Одним из этапов обработки данных было выравнивание прочтений на одну из версий референсного человеческого генома (GRCh37/hg19 или GRCh38 в зависимости от даты обработки образцов). Этот процесс несовершенен, и многие прочтения, полученные из принадлежавшего человеку образца, могут не картироваться на геном человека. Это породило миллионы ложноположительных идентификаций — иными словами, часть прочтений, на самом деле принадлежавших человеку, отсеивались алгоритмом как «нечеловеческие» и включались в дальнейший анализ микробных последовательностей.

Авторы разбора также упоминают, что для соотнесения прочтений с таксонами микроорганизмов в исходной работе применяли Kraken. Этот алгоритм отличается высокой точностью и быстротой, однако для его корректной работы крайне важна правильно составленная база референсных геномов. В изначальной же обработке использовали базу данных, содержащую 59 974 микробных генома (5 503 вирусных и 54 471 прокариотических), в том числе черновики геномов. Изначальная база данных Kraken не включала геном человека, а это резко повышает вероятность того, что последовательности человеческой ДНК будут ошибочно идентифицированы как соответствующие тем или иным микробным геномам. Этого можно было бы избежать, включив в референсную базу данных человеческий геном и используя только полные, а не черновые бактериальные геномы, как это сделали авторы изначальной статьи.

В подтверждение этого исследователи провели анализ 156 образцов рака мочевого пузыря, с учетом описанной выше ошибки. И действительно, после внесения поправок в базу данных многие прочтения в каждом образце классифицировались программой Kraken как принадлежащие человеку. Аналогичный результат авторы получили, обработав данные TCGA по раку головы и шеи, а также раку молочной железы.

Во всех этих случаях среднее количество прочтений, рассчитанное в исходной работе стабильно, превышает результаты повторного анализа в сотни и тысячи раз. В основном это происходит за счет фрагментов человеческого генома, которые были ошибочно идентифицированы как бактериальные.

Второй ключевой ошибкой стал подход к нормализации исходных значений. Нормализованные данные нужны были для того, чтобы устранить batch-эффект. В ходе нормализации данных нормализованные многие типы рака (например, все опухолевые образцы для одного типа рака, все здоровые образцы для другого типа рака и т.д.) оказались ошибочно помечены различными значениями. Это позволило выявить опухолевые образцы даже в тех случаях, когда исходные данные не были информативны, а затем получить на основе этих искусственных меток классификаторы с почти идеальной точностью.

Ученые приходят к выводу, что изначально полученные сигнатуры были созданы искусственно в ходе обработки данных. Кроме того, их видовой состав в ряде случаев они полагают бессмысленным — так, некоторые таксоны, которые в исходной работе играли важную роль в классификации опухолей, относятся к экстремофилам (например, галофильные Halonatronum и Salinarchaeum или термофильная архея Methanothermus — обитатель гидротермальных источников). Их представители вряд ли встречаются в организме человека.

Другим ключевым моментом оказалась популярность предложенного алгоритма обработки метагеномов опухолевой микробиоты. В целом ряде других публикаций по этой теме ученые опирались на данные исходной статьи и пользовались аналогичным подходом к анализу. Результаты этих работ, отмечают исследователи, следует интерпретировать с крайней осторожностью.

История раскритикованной публикации, вероятно, на этом не заканчивается — может быть, через какое-то время научное сообщество увидит ответ ее авторов на критику. В любом случае, она служит ценным напоминанием: при обработке данных нужно внимательно учитывать особенности работы конкретных алгоритмов, на которых основан анализ. Подобная аккуратность позволит снизить вероятность ошибки, которая затем может повлиять на весь последующий анализ. Кроме того, не лишним будет оценивать осмысленность полученных результатов в контексте исследуемой темы. 


Большие генные панели создают «диагностический шум» при клиническом анализе

Источник

Gihavi, A. et al. Major data analysis errors invalidate cancer microbiome findings. // bioRxiv (2023). DOI:  10.1101/2023.07.28.550993

Добавить в избранное