Создан новый алгоритм для выявления вариантов в неканоничных сплайс-сайтах

Австралийские ученые представили комплексный алгоритм Introme, который использует машинное обучение для интеграции прогнозов нескольких существующих инструментов и обнаружения нарушений сплайсинга даже в нетипичных сайтах. Introme способен оценивать влияние на сплайсинг как экзонных, так и интронных генетических вариантов. Алгоритм может повысить точность диагностики в геномной медицине.

Credit:
123rf.com

Современная геномная медицина при анализе сиквенсов геномов пациентов в основном учитывает только изменения числа копий, а также варианты в кодирующих последовательностях и в каноничных сайтах сплайсинга. Секвевирование генома при подозрении на редкие генетические заболевания обычно позволяет поставить диагноз только в 40–60% случаев. Недавнее исследование показало, что у 75% пациентов, которым ранее не удалось поставить диагноз, патогенные варианты находятся в нетипичных сайтах сплайсинга. Они способны вызывать пропуск экзона, интронное считывание или сдвиг открытой рамки считывания с образованием аберрантного продукта, что может приводить к уменьшению или отсутствию функции белка или полной потере его экспрессии. Варианты, изменяющие сплайсинг, сложно идентифицировать. В настоящее время многие из них остаются нераспознанными из-за неполного понимания процесса сплайсинга и отсутствия надежных алгоритмов анализа, которые могут их выявить.

Существуют компьютерные алгоритмы, которые позволяют предсказать влияние генетического варианта на сплайсинг, однако большинство из них ориентировано на определенные области или мотивы сплайсинга, что усложняет процесс обработки и компиляции данных. В новой работе австралийские исследователи объединили SpliceAI, MMSplice и Spliceogen — наиболее широко используемые компьютерные модели — для получения Introme. Алгоритм работает следующим образом: на первом этапе входной файл с генетическими вариантами (VCF) проходит фильтрацию, чтобы оставить только варианты в генах, кодирующих белки. Затем эти варианты сортируются на основе частоты аллелей в популяции и оцениваются с помощью нескольких инструментов предсказания сплайсинга; каждому варианту присваивается балл. На заключительной стадии обработки используется модель дерева решений (метод автоматического анализа больших массивов данных) Introme, которая анализирует баллы и принимает решение о том, влияет ли тот или иной вариант на сплайсинг. Когда балл варианта превышает установленный порог Introme, создается визуализация (sashimi plot) для этой области, если имеется соответствующий файл с данными РНК-секвенирования.

Для тестирования программы ученые провели серию экспериментов in silico, в которых сравнили алгоритм Introme и уже существующие модели машинного обучения, включая SpliceAI — наиболее мощный вычислительный инструмент для анализа влияния вариантов на сплайсинг. Авторы применили способность Introme точно классифицировать варианты и прогнозировать вероятные результаты сплайсинга к нескольким наборам клинических данных. Они использовали алгоритм для обнаружения влияющих на сплайсинг вариантов как в зародышевых, так и в соматических тканях, при онкологических заболеваниях у детей, а также при ряде генетических заболеваний, таких как поликистоз почек, нервно-мышечные расстройства, митохондриальные расстройства, дилатационная кардиомиопатия, эпилепсия и болезнь Паркинсона.

При проведении сравнительного анализа 21 000 вариантов Introme превзошел все существующие инструменты (auPRC: 0,98) при обнаружении клинически значимых вариантов сплайсинга. Новый алгоритм оказался более чувствительным, а также демонстрировал меньшее количество ложноположительных результатов. При этом 93% прогнозов, сделанных Introme и SpliceAI, совпадали, однако среди несовпадающих вариантов Introme выдал меньше ложноположительных результатов, чем SpliceAI. Эта способность модели может быть полезна в клинической практике, где необходимы прогнозы с высокой степенью достоверности для постановки верного диагноза и подбора релевантной терапии.

Таким образом, усовершенствованные методы обнаружения вариантов, изменяющих сплайсинг, в сочетании с более широким использованием секвенирования генома или таргетного секвенирования с включением интронных последовательностей могут способствовать выявлению большего количества генетических вариантов, вовлеченных в развитие заболеваний. В дальнейшем ученые намерены расширить функциональные способности Introme путем добавления новых модулей для улучшения производительности алгоритма.

COVID-19 можно диагностировать по альтернативному сплайсингу в крови

Источник:

Sullivan P.J., et al. Introme accurately predicts the impact of coding and noncoding variants on gene splicing, with clinical applications. // Genome Biology 24, 118 (2023). DOI: 10.1186/s13059-023-02936-7

Добавить в избранное

Мы используем файлы cookie для улучшения работы сайта. Узнать больше.

Настройки файлов cookie

Мы используем файлы cookie для улучшения работы сайта, анализа трафика и показа персонализированной рекламы. Вы можете изменить настройки в любой момент.

Категории файлов cookie:

Необходимые

Эти cookie обеспечивают базовую функциональность сайта — вход в аккаунт, безопасность, оформление заказов. Отключение невозможно.

Функциональные

Функциональные cookie используются для обеспечения работы отдельных функций сайта, а также для запоминания ряда пользовательских предпочтений (например, выбранный язык, товары в корзине), с целью улучшения качества предоставляемого сервиса.

Отключение этого типа файлов cookie может привести к тому, что некоторые сервисы или функции сайта станут недоступны или будут работать некорректно. В результате, вам может потребоваться повторно вводить определённую информацию или настраивать предпочтения при каждом посещении сайта вручную.

Аналитические

Аналитические файлы cookie, включая сторонние аналитические cookie, помогают нам понять, как вы взаимодействуете с нашим сайтом. Эти файлы не собирают информацию, позволяющую установить вашу личность. Все данные обрабатываются в агрегированной и анонимной форме.

Рекламные

Рекламные cookie, включая сторонние, используются для создания пользовательских профилей и показа рекламы, соответствующей вашим интересам и предпочтениям при просмотре сайтов.

Эти cookie позволяют персонализировать рекламные сообщения, которые вы видите, делая их более релевантными. Они также могут использоваться для ограничения количества показов одной и той же рекламы и для оценки эффективности рекламных кампаний.