Нанопоровое секвенирование и нейронные сети помогли идентифицировать инозин в РНК

Классические методы поиска замены аденина на инозин в молекулах РНК с помощью технологии секвенирования Illumina имеют много проблем. Ученые пытаются найти более производительные методы анализа. Команда исследователей из Сингапура и Австралии скомбинировала методы глубокого обучения и нанопорового секвенирования и добилась обнаружения инозина в РНК с высокой аккуратностью. Новая технология может быть распространена на другие модификации РНК.

Credit:
123rf.com

Изменение нуклеотидов в РНК — фундаментальный посттранскрипционный процесс. Наиболее частая трансформация РНК в клетках позвоночных — это превращение аденина в инозин (A→I). Такая модификация может влиять на локализацию РНК, ее сплайсинг, альтернативное полиаденилирование и другие аспекты метаболизма. Более того, нарушение трансформации А→I может быть связано с различными патологиями.

Классическим методом распознавания инозина служит секвенирование с помощью технологии Illumina. В этом случае во время секвенирования инозины замещаются на гуанины, таким образом, после картирования чтений на референсный геном модификацию можно отличить по ошибкам в выравнивании. Тем не менее чтения Illumina из-за своей небольшой длины подвержены ошибкам картирования, а ошибки в выравнивании могут быть на самом деле однонуклеотидными полиморфизмами (SNP). Авторы нового исследования предложили использовать для обнаружения инозина нанопоровое секвенирование и методы глубокого обучения.

Сначала с помощью искусственных последовательностей исследователи изучили влияние инозина на сигнал от секвенатора. Свои первичные данные по проводимости поры они разбили на группы (k-меры). Каждая группа содержала в себе сигналы от пяти подряд идущих нуклеотидов. Ученые выяснили, что усредненный по k-меру сигнал в случае присутствия инозина лежит между сигналами от k-меров с аденином или гуанином в этой позиции. Более того, различия между сигналами были наибольшими, если был модифицирован второй нуклеотид k-мера. Также присутствие инозина приводило к ошибкам чтения нанопорового секвенирования и генерировало ложные делеции, инсерции и несовпадения.

Затем ученые проверили результаты на стволовых клетках человека, взяв в качестве референса результаты секвенирования Illumina. Подтвердилось существование тех же эффектов от присутствия инозина, однако в реальных РНК они были выражены гораздо меньше, чем в искусственных. Для точного обнаружения модификации исследователи обучили конволюционную нейронную сеть, принимающую на вход 43 признака для одного k-мера с интересующей модификацией во второй позиции. Модель отвечала на вопрос, является ли эта модификация инозином или аденином. Для тестовой выборки ученые использовали модифицированные нуклеотиды с III и XI хромосом. После обучения аккуратность модели составила 80%.

Чтобы улучшить метрики модели, ученые решили изменить входные данные. Они увеличили длину k-мера до 9 и использовали 43 признака для каждого k-мера, содержащего исследуемый нуклеотид. Таким образом, на вход модель получала матрицу размером 9 х 43, где 9 — количество k-меров с исследуемым нуклеотидом, а 43 — количество их признаков. Этот подход повысил аккуратность предсказания модели до 90%.

Новая модель, получившая название Dinopore, была протестирована против трех альтернативных моделей машинного обучения — XGBoost, SVM и k-NN. Во всех случаях аккуратность Dinopore была выше, чем у перечисленных методов. Более того, предсказания нейронной сети оказались более аккуратными, чем у существующей программы EpiNano для обнаружения инозина.

Исследователи обучили и протестировали Dinopore на клетках лягушки Xenopus laevis. Новая модель продемонстрировала более высокую метрику AUC, чем EpiNano. Предообученная модель работала и на неизвестных ей до этого геномах. Так, например, ученые применили свою разработку для обнаружения инозина в мышиных нейронах. Как и в предыдущих случаях, метрики новой модели были выше, чем у EpiNano.

Чтобы повысить чувствительность своего метода к инозину и исключить ложную идентификацию SNP как трансформацию аденина, ученые решили модифицировать свою модель и добавляли в нее еще один классификатор. Таким образом, сначала исходные сайты классифицировались на истинный аденозин, инозин и SNP. После этого сайты с метками «аденозин» и «инозин» подавались на вход второму, ранее разработанному классификатору. Такой подход позволил повысить аккуратность предсказания еще на 3%.

Наконец, ученые смогли переориентировать свою модель на расчет доли молекул с модификацией в данной позиции. До этого модель предсказывала вероятность принадлежности интересующего сайта к одному из классов, однако исследователи немного изменили архитектуру нейронной сети, чтобы модель выдавала положительное число. Они обнаружили, что полученные результаты коррелируют с фракцией молекул РНК с модифицированным сайтом. Чтобы улучшить метрики модели, ученые увеличили количество признаков, трансформировали входные данные и увеличили покрытие секвенирования. Все три способа помогли увеличить коэффициент корреляции между предсказаниями и реальными данными до 84%.

Источник

Tram Anh Nguyen, et al. Direct identification of A-to-I editing sites with nanopore native RNA sequencing // Nature Methods. 2022. DOI: 10.1038/s41592-022-01513-3

Добавить в избранное

Вам будет интересно