Транскриптомы единичных клеток помогут выявить связи между генами
Биоинформатики создали нейросеть, которая, используя данные секвенирования РНК единичных клеток (то есть уровни экспрессии), предсказывает характер взаимодействия двух генов.

Связь между экспрессиями разных генов очень важна. Если несколько генов одновременно активны, то, скорее всего, они взаимодействуют. Таким образом, например, можно реконструировать метаболический путь в клетке. За последние два десятилетия было разработано несколько алгоритмов для определения такой взаимозависимости генов. Однако у существующих моделей есть значительные недостатки. С одной стороны, это, как правило, машинное обучение «без учителя», то есть заведомо правильных ответов, на которых можно тренироваться, нет, и это приводит к ложноположительным результатам. С другой — некоторые методы принимают допущения, которые часто ведут к ложноотрицательным результатам. Новая модель — сверточная нейросеть для коэкспрессии (CNNC, Convolutional Neural Network for Coexpression) — показала лучший результат, чем существующие до нее методы.
Сверточные нейросети изначально были созданы для работы с изображениями, например, для распознавания лиц на фотографиях. Однако Е Юань и Зив Бар-Йозеф из университета Карнеги — Меллона (Питтсбург, США) нашли способ, как применить их для анализа транскриптома.
В качестве входных данных CNNC принимает результаты секвенирования РНК единичных клеток (single-cell RNA-sequencing, scRNAseq). Далее для каждой пары генов А и В строится своя гистограмма, где показаны уровни их коэкспрессии, которые рассчитываются и нормализуются для каждой клетки. Такой формат данных лучше всего подходит для глубокого обучения.
Каждой такой диаграмме в тренировочном датасете, на котором нейросеть учится, соответствует метка. Метки — то, что «учитель» уже знает (например, взаимодействие какого-то транскрипционного фактора с ДНК уже было показано с помощью иммунопреципитации). Размерность меток зависит от задачи. Если мы хотим определить, взаимодействуют гены или нет, то размерность 2: метка принимает значения 0 — не взаимодействуют, 1 — взаимодействуют. Если хотим вывести причинно-следственные связи, то размерность 3: 0 — не взаимодействуют, 1 — А зависит от В, 2 — В зависит от А.
Программа также отдельно может учитывать другие имеющиеся данные, такие как результаты секвенирования ДНК или позиционную весовую матрицу (используется для поиска мотивов в последовательности).
Чем больше входных данных получает CNNC, тем качественнее она работает. Авторам статьи удалось показать, что данный метод точнее существующих моделей. «Так как CNNC основана на обучении с учителем, ее нельзя использовать в случаях, когда нет уже известных меток. С другой стороны, в большинстве случаев с геномными данными, где такие метки доступны, CNNC — гораздо лучший выбор, нежели модели без учителя», — говорится в статье.
Источник
Ye Yuan и Ziv Bar-Joseph. // Deep learning for inferring gene relationships from single-cell expression data. // PNAS USA, 2019 Dec 10; DOI: 10.1073/pnas.1911536116