Протеогеномное профилирование рака: данные и инструменты

Ученые из консорциума по клинической протеомике рака (CPTAC) опубликовали базу мультиомиксных данных по различным типам рака. В базу вошли результаты омиксных (в основном протеомных и геномных) исследований, полученные на 10 когортах и прошедшие повторную обработку. В новой статье авторы предлагают инструменты для доступа к опубликованной базе и работе с ней, а также дают рекомендации по проведению мультиомиксных исследований.

Credit:
123rf.com

Молекулярное профилирование — один из основных инструментов современных исследований онкологических заболеваний. Существует большое количество данных, полученных в рамках исследований отдельных типов рака. Важной задачей становится создание на их основе единой базы, которая облегчит изучение широкого спектра злокачественных опухолей.

Ученые из консорциума по клинической протеомике рака (Clinical Proteomic Tumor Analysis Consortium, CPTAC) составили базу данных, включающую информацию по молекулярным исследованиям более 1000 опухолей из 10 когорт раковых заболеваний. К настоящему моменту эти данные доступны через базы Genomic Data Commons, Proteomic Data Commons и Национальный Институт Онкологии.

Данные были получены геномными, транскриптомными, протеомными и фосфопротеомными методами, а в ряде случаев были дополнены результатами других омиксных исследований, таких как метаболомика. При этом ученые заново обработали исходные данные, чтобы максимально облегчить использование их как единого набора. Исследователи из CPTAC отмечают, что повторный анализ данных силами научного сообщества составляет важную часть исследовательского процесса. Для облегчения работы с базами CPTAC авторы опубликовали статью, в которой привели характеристику данных, использованные методы анализа и рекомендованные инструменты для обработки. Кроме того, они осветили ряд трудностей, с которыми сталкиваются ученые, работающие в сфере протеогеномики.

Одна из сложностей — постоянная эволюция методов обработки данных. Она приводит к тому, что одновременно доступно множество вариантов анализа полученных результатов. Исследователи из CPRAC работали с большим количеством алгоритмов, однако данные, вошедшие в итоговый набор, были обработаны с применением пайплайнов, разработанных в Институте Броудов и Университете Вашингтона в Сент-Луисе. Авторы также разработали OmicsEV — пакет для среды R, включающий в себя множество методов сравнения эффективности различных алгоритмов обработки данных.

Среди доступных инструментов исследователи отдельно отметили программу FragPipe, которая находится в открытом доступе и часто использовалась в работе. Ученые обращают внимание на то, что объединение такого большого количества разнотипных данных все еще несет риск ошибок. Одна из причин — это сложность определения наиболее эффективных алгоритмов обработки, поэтому в базу данных все же включили результаты, полученные разными пайплайнами.

Чтобы упростить пользователям взаимодействие с проектом, авторы CPTAC также представили инструменты для легкой интеграции и импорта данных непосредственно в программную среду Python и R. Также в статье приводится ряд онлайн сервисов для визуализации и анализа данных: PepQuery, LinkedOmics, PTMcosmos и несколько других.

Наконец, авторы отдельно обратили внимание на проблемы, с которыми сталкиваются ученые, занимающиеся обработкой мультиомиксных данных. Первая из них — это гармонизация данных. К примеру, многие гены кодируют большое число белковых изоформ, определяемых альтернативным сплайсингом. В таком случае, для мультиомиксного анализа будет неверным объединение всех белков в единый генетический уровень: это может исказить соотнесение полученных данных с другими исследованиями, поскольку внесет неопределенность в том, какие изоформы каких белков были включены в анализ и какие мРНК им соответствуют. При использовании объединенных данных по нескольким типам рака авторы рекомендуют включать конкретную разновидность в качестве сопуствующей переменной, чтобы устранить возможный batch-эффект.

Вторая описанная проблема — непосредственно объединение протеогеномных данных в единый анализ и рассмотрение протеогеномного ландшафта как целого. Исследователи отмечают, что различные типы данных (например, мРНК и белковые данные) несут информацию о различных аспектах происходящих в клетке процессах. Так как онкологические заболевания часто связаны с нарушением регуляции клеточных процессов, патологические изменения могут происходить при переходе с одного уровня на другой.

Наконец, последняя проблема, специфичная для протеомики, касается пропусков в данных по модификациям белков после трансляции (например, фосфорилирования). Ученые призвали не пытаться заменить отсутствующие данные по конкретным сайтам модификации путем сведения всех модификаций в единое измерение, так как каждый сайт может иметь собственное функциональное значение.

Авторы проекта надеются, что созданная ими база данных CPTAC подтолкнет прогресс как в исследованиях онкологических заболеваний, так и в разработке и методов их лечения. 


Unknome: первая база данных неизвестных белков



Источник

Yize Li et al. Proteogenomic data and resources for pan-cancer analysis. // Cancer Cell 41, published August 14, 2023. DOI: 10.1016/j.ccell.2023.06.009

Добавить в избранное