Новая система для классификации единичных клеток по транскриптомам

Разработана система для классификации единичных клеток в образце, основанная на применении методов машинного обучения для анализа данных РНК-секвенирования. Система с высокой точностью различает клетки в гетерогенном образце.

Credit:
Juan Gaertner | Shutterstock.com

Анализ поверхностных белковых маркеров или транскриптома пробы, как правило, не дает полной информации о разнообразии клеток в этой пробе. Происходит усреднение данных. Однако различия между отдельными клетками очень важны при диагностике заболеваний. Секвенирование РНК единичных клеток (scRNA-seq) дает возможность типировать отдельные клетки на основе их транскриптомных профилей.

Ученые из Австралии и США разработали систему scPred, которая позволяет классифицировать клетки по данным scRNA-seq и детектировать в пробе клетки определенного типа (например, раковые). В качестве модели машинного обучения был выбран метод опорных векторов. scPred использует понижение размерности с помощью сингулярного разложения матрицы, что позволяет уменьшить количество признаков, которые модель рассматривает при тренировке, а это, в свою очередь, снижает требования к мощностям компьютера.

В работе scPred можно выделить два главных шага. Сначала строится модель прогнозирования на тренировочном наборе транскриптомов единичных клеток известных типов. Далее обученную модель применяют к данным scRNA-seq, полученным от независимого образца, и высчитывается вероятность принадлежности каждой клетки к тому или иному типу. Чтобы клетка была отнесена к какой-либо группе, вероятность принадлежности к этой группе должна превысить некоторое пороговое значение. Если для всех обозначенных групп вероятности оказываются меньше такого значения, то клетка получает метку «нераспределенной» (unassigned).

Авторы протестировали модель на данных scRNA-seq, полученных для различных опухолевых образцов, а также для мононуклеарных и дендритных клеток. Так, scPred с высокой точностью определила опухолевые и здоровые эпителиальные клетки при раке желудка (в качестве контроля использовался иммуногистохимический анализ). Также программа справилась с классификацией лейкоцитов и с выявлением дендритных клеток в образцах крови, собранных в разных лабораториях.

Часто в биопсийной пробе оказывается много здоровых клеток и мало опухолевых. Возникает опасность, что программа, обученная на таких образцах, будет «натаскана» на здоровые клетки и не сумеет детектировать больные. Многие биохимические методы также нечувствительны к малому количеству раковых клеток в пробе. На образцах колоректального рака ученые показали, что scPred хорошо работает с несбалансированными наборами данных, то есть такими, в которых преобладают данные одного класса, и с высокой точностью определяет опухолевые клетки.

«Несмотря на то, что мы использовали метод опорных векторов, система scPred легко может быть приспособлена к использованию других алгоритмов классификации, что позволит пользователям выбирать модели, наиболее подходящие под их распределение данных», — отмечают авторы работы.

scPred имеет большой потенциал в ранней диагностике заболеваний и разработке персонализированной терапии.

Источник

Jose Alquicira-Hernandez, et al. // scPred: accurate supervised method for cell-type classification from single-cell RNA-seq data // Genome Biology, 2019, 20 (1); DOI:  10.1186/s13059-019-1862-5

Добавить в избранное