Разработан алгоритм для предсказания патогенности структурных вариаций генома

Американские ученые разработали алгоритм SVFX для оценки и прогнозирования патогенности структурных вариаций генома соматических клеток или клеток зародышевой линии. Алгоритм, основанный на методе машинного обучения, оценивает патогенность с учетом тканеспецифичных геномных и эпигеномных признаков здоровых и страдающих различными заболеваниями людей.

Credit:

gopixa | 123rf.com

Структурная вариация генома (SV) — это вариация в геномной последовательности, имеющая длину более чем в 50 пар нуклеотидов. Из-за большого размера (больше, чем однонуклеотидный полиморфизм, но меньше, чем хромосомная аномалия) структурные вариации генома играют жизненно важную роль в прогрессировании различных болезней, включая рак и нейродегенеративные заболевания. Однако оценка патогенности и установление корреляции между SV и заболеваниями до сих пор остается сложной задачей, в том числе из-за трудностей, связанных с определением точной локализации SV. Команда из Йельского университета, Центра медицинских наук Техасского университета и Калифорнийского технологического института разработала алгоритм машинного обучения SVFX для присвоения баллов патогенности SV соматических клеток и SV клеток зародышевой линии.

Авторы статьи в Genome Biology предположили, что основные геномные и эпигеномные особенности патогенных и безвредных SV должны сильно различаться. Таким образом, были построены модели машинного обучения, которые присваивают вариациям балл патогенности (Z-балл), сравнивая геномные и эпигеномные тканеспецифичные особенности определенных SV больных людей с таковыми у здоровых.

Для обучения моделей машинного обучения использовались высококачественные данные SV соматических и зародышевых клеточных линий из проекта Pan-Cancer Analysis of Whole Genomes (PCAWG), Программы секвенирования генома (GSP), базы данных ClinVar, базы данных агрегирования генома (gnomAD) и проекта 1000 геномов. Кроме того, в работе были использованы тканеспецифичные эпигеномные данные из «Дорожной карты эпигенома», различные аннотации геномных элементов и метрики межвидовой сохранности.

Исходный набор данных SV состоял из патогенных и контрольных SV. В соматической модели образцы SV при каком-либо заболевании соответствуют уже известным соматическим SV, обнаруженным при раке, а контрольные SV — SV, взятым из проекта 1000 Genomes. Затем случайным образом выбирались SV из набора данных 1000 Genomes таким образом, чтобы количество соматических SV и контрольных SV совпадало. Точно так же для модели зародышевой линии имеются SV зародышевой линии, идентифицированные при конкретном заболевании, и контрольные SV, которые соответствуют обычным SV из 1000 Genomes. И для зародышевой линии, и для соматической модели генерировались 1000 случайных итераций исходного набора данных при болезни и в контроле. Такие переставленные SV позже использовались для создания матрицы признаков, нормализованной по Z-баллу.

Алгоритм SVFX в первую очередь ориентирован на выявление патогенных делеций и дупликаций. По сообщению авторов, его можно легко расширить для обнаружения патогенных инверсий и транслокаций при любых заболеваниях. Однако в настоящее время отсутствуют качественные данные об инверсиях и транслокациях в общедоступных базах данных, что ограничивает применимость SVFX к идентификации всех связанных с заболеваниями SV.

На уровне нуклеотидов SV вносят гораздо более существенный вклад в индивидуальный геном, чем другие мутации. Однако такими крупными последовательностями часто пренебрегают из-за технических проблем, связанных с их идентификацией и интерпретацией. Эти проблемы помогает решить алгоритм, предложенный американскими учеными.

Источник

Kumar, S., et al. // SVFX: a machine learning framework to quantify the pathogenicity of structural variants. // Genome Biology, 2020; DOI:  10.1186/s13059-020-02178-x

Добавить в избранное