Транскриптомы единичных клеток помогут выявить связи между генами

Биоинформатики создали нейросеть, которая, используя данные секвенирования РНК единичных клеток (то есть уровни экспрессии), предсказывает характер взаимодействия двух генов.

Credit:
CI Photos | Shutterstock.com

Связь между экспрессиями разных генов очень важна. Если несколько генов одновременно активны, то, скорее всего, они взаимодействуют. Таким образом, например, можно реконструировать метаболический путь в клетке. За последние два десятилетия было разработано несколько алгоритмов для определения такой взаимозависимости генов. Однако у существующих моделей есть значительные недостатки. С одной стороны, это, как правило, машинное обучение «без учителя», то есть заведомо правильных ответов, на которых можно тренироваться, нет, и это приводит к ложноположительным результатам. С другой — некоторые методы принимают допущения, которые часто ведут к ложноотрицательным результатам. Новая модель — сверточная нейросеть для коэкспрессии (CNNC, Convolutional Neural Network for Coexpression) — показала лучший результат, чем существующие до нее методы.

Сверточные нейросети изначально были созданы для работы с изображениями, например, для распознавания лиц на фотографиях. Однако Е Юань и Зив Бар-Йозеф из университета Карнеги — Меллона (Питтсбург, США) нашли способ, как применить их для анализа транскриптома.

В качестве входных данных CNNC принимает результаты секвенирования РНК единичных клеток (single-cell RNA-sequencing, scRNAseq). Далее для каждой пары генов А и В строится своя гистограмма, где показаны уровни их коэкспрессии, которые рассчитываются и нормализуются для каждой клетки. Такой формат данных лучше всего подходит для глубокого обучения.

Каждой такой диаграмме в тренировочном датасете, на котором нейросеть учится, соответствует метка. Метки — то, что «учитель» уже знает (например, взаимодействие какого-то транскрипционного фактора с ДНК уже было показано с помощью иммунопреципитации). Размерность меток зависит от задачи. Если мы хотим определить, взаимодействуют гены или нет, то размерность 2: метка принимает значения 0 — не взаимодействуют, 1 — взаимодействуют. Если хотим вывести причинно-следственные связи, то размерность 3: 0 — не взаимодействуют, 1 — А зависит от В, 2 — В зависит от А.

Программа также отдельно может учитывать другие имеющиеся данные, такие как результаты секвенирования ДНК или позиционную весовую матрицу (используется для поиска мотивов в последовательности).

Чем больше входных данных получает CNNC, тем качественнее она работает. Авторам статьи удалось показать, что данный метод точнее существующих моделей. «Так как CNNC основана на обучении с учителем, ее нельзя использовать в случаях, когда нет уже известных меток. С другой стороны, в большинстве случаев с геномными данными, где такие метки доступны, CNNC — гораздо лучший выбор, нежели модели без учителя», — говорится в статье.

Источник

Ye Yuan и Ziv Bar-Joseph. // Deep learning for inferring gene relationships from single-cell expression data. // PNAS USA, 2019 Dec 10; DOI:   10.1073/pnas.1911536116

Добавить в избранное