Разработан алгоритм для предсказания патогенности структурных вариаций генома

Американские ученые разработали алгоритм SVFX для оценки и прогнозирования патогенности структурных вариаций генома соматических клеток или клеток зародышевой линии. Алгоритм, основанный на методе машинного обучения, оценивает патогенность с учетом тканеспецифичных геномных и эпигеномных признаков здоровых и страдающих различными заболеваниями людей.

Credit:

gopixa | 123rf.com

Структурная вариация генома (SV) — это вариация в геномной последовательности, имеющая длину более чем в 50 пар нуклеотидов. Из-за большого размера (больше, чем однонуклеотидный полиморфизм, но меньше, чем хромосомная аномалия) структурные вариации генома играют жизненно важную роль в прогрессировании различных болезней, включая рак и нейродегенеративные заболевания. Однако оценка патогенности и установление корреляции между SV и заболеваниями до сих пор остается сложной задачей, в том числе из-за трудностей, связанных с определением точной локализации SV. Команда из Йельского университета, Центра медицинских наук Техасского университета и Калифорнийского технологического института разработала алгоритм машинного обучения SVFX для присвоения баллов патогенности SV соматических клеток и SV клеток зародышевой линии.

Авторы статьи в Genome Biology предположили, что основные геномные и эпигеномные особенности патогенных и безвредных SV должны сильно различаться. Таким образом, были построены модели машинного обучения, которые присваивают вариациям балл патогенности (Z-балл), сравнивая геномные и эпигеномные тканеспецифичные особенности определенных SV больных людей с таковыми у здоровых.

Для обучения моделей машинного обучения использовались высококачественные данные SV соматических и зародышевых клеточных линий из проекта Pan-Cancer Analysis of Whole Genomes (PCAWG), Программы секвенирования генома (GSP), базы данных ClinVar, базы данных агрегирования генома (gnomAD) и проекта 1000 геномов. Кроме того, в работе были использованы тканеспецифичные эпигеномные данные из «Дорожной карты эпигенома», различные аннотации геномных элементов и метрики межвидовой сохранности.

Исходный набор данных SV состоял из патогенных и контрольных SV. В соматической модели образцы SV при каком-либо заболевании соответствуют уже известным соматическим SV, обнаруженным при раке, а контрольные SV — SV, взятым из проекта 1000 Genomes. Затем случайным образом выбирались SV из набора данных 1000 Genomes таким образом, чтобы количество соматических SV и контрольных SV совпадало. Точно так же для модели зародышевой линии имеются SV зародышевой линии, идентифицированные при конкретном заболевании, и контрольные SV, которые соответствуют обычным SV из 1000 Genomes. И для зародышевой линии, и для соматической модели генерировались 1000 случайных итераций исходного набора данных при болезни и в контроле. Такие переставленные SV позже использовались для создания матрицы признаков, нормализованной по Z-баллу.

Алгоритм SVFX в первую очередь ориентирован на выявление патогенных делеций и дупликаций. По сообщению авторов, его можно легко расширить для обнаружения патогенных инверсий и транслокаций при любых заболеваниях. Однако в настоящее время отсутствуют качественные данные об инверсиях и транслокациях в общедоступных базах данных, что ограничивает применимость SVFX к идентификации всех связанных с заболеваниями SV.

На уровне нуклеотидов SV вносят гораздо более существенный вклад в индивидуальный геном, чем другие мутации. Однако такими крупными последовательностями часто пренебрегают из-за технических проблем, связанных с их идентификацией и интерпретацией. Эти проблемы помогает решить алгоритм, предложенный американскими учеными.

Источник

Kumar, S., et al. // SVFX: a machine learning framework to quantify the pathogenicity of structural variants. // Genome Biology, 2020; DOI:  10.1186/s13059-020-02178-x

Добавить в избранное

Мы используем файлы cookie для улучшения работы сайта. Узнать больше.

Настройки файлов cookie

Мы используем файлы cookie для улучшения работы сайта, анализа трафика и показа персонализированной рекламы. Вы можете изменить настройки в любой момент.

Категории файлов cookie:

Необходимые

Эти cookie обеспечивают базовую функциональность сайта — вход в аккаунт, безопасность, оформление заказов. Отключение невозможно.

Функциональные

Функциональные cookie используются для обеспечения работы отдельных функций сайта, а также для запоминания ряда пользовательских предпочтений (например, выбранный язык, товары в корзине), с целью улучшения качества предоставляемого сервиса.

Отключение этого типа файлов cookie может привести к тому, что некоторые сервисы или функции сайта станут недоступны или будут работать некорректно. В результате, вам может потребоваться повторно вводить определённую информацию или настраивать предпочтения при каждом посещении сайта вручную.

Аналитические

Аналитические файлы cookie, включая сторонние аналитические cookie, помогают нам понять, как вы взаимодействуете с нашим сайтом. Эти файлы не собирают информацию, позволяющую установить вашу личность. Все данные обрабатываются в агрегированной и анонимной форме.

Рекламные

Рекламные cookie, включая сторонние, используются для создания пользовательских профилей и показа рекламы, соответствующей вашим интересам и предпочтениям при просмотре сайтов.

Эти cookie позволяют персонализировать рекламные сообщения, которые вы видите, делая их более релевантными. Они также могут использоваться для ограничения количества показов одной и той же рекламы и для оценки эффективности рекламных кампаний.