Создан новый алгоритм для выявления вариантов в неканоничных сплайс-сайтах

Австралийские ученые представили комплексный алгоритм Introme, который использует машинное обучение для интеграции прогнозов нескольких существующих инструментов и обнаружения нарушений сплайсинга даже в нетипичных сайтах. Introme способен оценивать влияние на сплайсинг как экзонных, так и интронных генетических вариантов. Алгоритм может повысить точность диагностики в геномной медицине.

Credit:
123rf.com

Современная геномная медицина при анализе сиквенсов геномов пациентов в основном учитывает только изменения числа копий, а также варианты в кодирующих последовательностях и в каноничных сайтах сплайсинга. Секвевирование генома при подозрении на редкие генетические заболевания обычно позволяет поставить диагноз только в 40–60% случаев. Недавнее исследование показало, что у 75% пациентов, которым ранее не удалось поставить диагноз, патогенные варианты находятся в нетипичных сайтах сплайсинга. Они способны вызывать пропуск экзона, интронное считывание или сдвиг открытой рамки считывания с образованием аберрантного продукта, что может приводить к уменьшению или отсутствию функции белка или полной потере его экспрессии. Варианты, изменяющие сплайсинг, сложно идентифицировать. В настоящее время многие из них остаются нераспознанными из-за неполного понимания процесса сплайсинга и отсутствия надежных алгоритмов анализа, которые могут их выявить.

Существуют компьютерные алгоритмы, которые позволяют предсказать влияние генетического варианта на сплайсинг, однако большинство из них ориентировано на определенные области или мотивы сплайсинга, что усложняет процесс обработки и компиляции данных. В новой работе австралийские исследователи объединили SpliceAI, MMSplice и Spliceogen — наиболее широко используемые компьютерные модели — для получения Introme. Алгоритм работает следующим образом: на первом этапе входной файл с генетическими вариантами (VCF) проходит фильтрацию, чтобы оставить только варианты в генах, кодирующих белки. Затем эти варианты сортируются на основе частоты аллелей в популяции и оцениваются с помощью нескольких инструментов предсказания сплайсинга; каждому варианту присваивается балл. На заключительной стадии обработки используется модель дерева решений (метод автоматического анализа больших массивов данных) Introme, которая анализирует баллы и принимает решение о том, влияет ли тот или иной вариант на сплайсинг. Когда балл варианта превышает установленный порог Introme, создается визуализация (sashimi plot) для этой области, если имеется соответствующий файл с данными РНК-секвенирования.

Для тестирования программы ученые провели серию экспериментов in silico, в которых сравнили алгоритм Introme и уже существующие модели машинного обучения, включая SpliceAI — наиболее мощный вычислительный инструмент для анализа влияния вариантов на сплайсинг. Авторы применили способность Introme точно классифицировать варианты и прогнозировать вероятные результаты сплайсинга к нескольким наборам клинических данных. Они использовали алгоритм для обнаружения влияющих на сплайсинг вариантов как в зародышевых, так и в соматических тканях, при онкологических заболеваниях у детей, а также при ряде генетических заболеваний, таких как поликистоз почек, нервно-мышечные расстройства, митохондриальные расстройства, дилатационная кардиомиопатия, эпилепсия и болезнь Паркинсона.

При проведении сравнительного анализа 21 000 вариантов Introme превзошел все существующие инструменты (auPRC: 0,98) при обнаружении клинически значимых вариантов сплайсинга. Новый алгоритм оказался более чувствительным, а также демонстрировал меньшее количество ложноположительных результатов. При этом 93% прогнозов, сделанных Introme и SpliceAI, совпадали, однако среди несовпадающих вариантов Introme выдал меньше ложноположительных результатов, чем SpliceAI. Эта способность модели может быть полезна в клинической практике, где необходимы прогнозы с высокой степенью достоверности для постановки верного диагноза и подбора релевантной терапии.

Таким образом, усовершенствованные методы обнаружения вариантов, изменяющих сплайсинг, в сочетании с более широким использованием секвенирования генома или таргетного секвенирования с включением интронных последовательностей могут способствовать выявлению большего количества генетических вариантов, вовлеченных в развитие заболеваний. В дальнейшем ученые намерены расширить функциональные способности Introme путем добавления новых модулей для улучшения производительности алгоритма.

COVID-19 можно диагностировать по альтернативному сплайсингу в крови

Источник:

Sullivan P.J., et al. Introme accurately predicts the impact of coding and noncoding variants on gene splicing, with clinical applications. // Genome Biology 24, 118 (2023). DOI: 10.1186/s13059-023-02936-7

Добавить в избранное