Новый метод машинного обучения может изменить персонализированную медицину

Применение нового алгоритма машинного обучения, предложенного российскими исследователями, позволит прогнозировать результаты лечения раковых больных на основе их молекулярно-генетических маркеров. Исключение лишних данных делает процесс более быстрым и точным.

Изображение:

CI Photos | Shutterstock.com

Авторы статьи, опубликованной в журнале Frontiers in Oncology, Николай Борисов и Антон Буздин из Первого Московского государственного медицинского университета имени И.М. Сеченова, сосредоточились на применении машинного обучения для решения задач персонализированной медицины, в первую очередь онкологии. Если курс лечения, выбранный по стандартным протоколам, не приводит к успеху, существует альтернатива — персонализированная медицина. Персонализированный подход основывается на больших количествах биомедицинских данных пациента и сравнении их с данными о других похожих случаях с известным клиническим исходом. Это позволяет, например, развить новые критерии для предсказания ответа ракового больного на тот или иной метод лечения. Подобный подход может применяться в эндокринологии, неврологии, лечении инфекционных заболеваний и нарушений свертываемости крови.

Большие объемы молекулярно-генетических данных для онкобольных было бы удобно анализировать с помощью методов машинного обучения (МО), специально разработанные для решения проблемы перебора. МО — вариант алгоритмической математический модели, запрограммированный на тренировочном наборе данных (например, как в данной работе, анализы пациентов с известным клиническим исходом или культуры клеток, обработанной лекарствами), чтобы делать прогнозы на основе данных такого же типа в тестовом наборе данных (анализы пациентов, клинический исход для которых при лечении тем или иным препаратом необходимо вычислить).

Главные принципы МО были сформулированы более полувека назад и изменили методологию во многих областях: инженерии, физике, банковском деле, информационной безопасности, сельскохозяйственной биологии и метеорологии. Однако лишь в начале 21 века стало возможно применять МО на больших объемах биомедицинских данных, и прорыва все еще нет. Дело в том, что экспериментальные методы получения больших объемов данных и способы их массированной обработки появились сравнительно недавно. Среди них большую роль сыграли секвенирование нового поколения (NGS) и методы масс-спектрометрии, которые дали возможность относительно дешево и быстро анализировать геном, транскриптом, протеом и метаболом. Это позволило использовать МО на большом объеме данных и получить  хорошие результаты. За последние два года на PubMed было выложено более 150 научных статей, в которых упоминались машинное обучение и чувствительность к лекарствам.

Авторы статьи поставили себе задачу найти как можно больше биомаркеров, указывающих на то, будет ли пациент отвечать на лечение. С точки зрения классической стратегии МО, большинство, если не все доступные наборы молекулярно-генетических данных недостаточно обширны. Число параметров, считываемых при профилировании (мутации или значения экспрессии генов), гораздо больше, чем число пациентов с известным клиническим исходом, и это создает проблемы при анализе, поскольку при попытке разделить объекты на две группы по слишком большому числу признаков повышается вероятность случайного разделения, не привязанного к исследуемому свойству. Чтобы сделать статистически значимый прогноз, необходимо значительно сократить пул анализируемых параметров.

Решением стала новая идея: использовать не фиксированные наборы параметров, а гибкие, индивидуально подобранные под каждую процедуру сравнения. Это можно сделать, проведя тримминг данных: выбросить из набора величины, сильно выходящие за пределы среднего. Независимые параметры образца, окруженные малым количеством точек (не обладающие большим количеством соседей) в тренировочном наборе данных исключаются из дальнейшего анализа.

В тестовом приложении для метода опорных векторов (support vector machine, SVM, один из наиболее популярных методов обучения, применяемый для решения задач классификации и регрессии), где изначально имелось огромное количество данных об экспрессии генов, тримминг данных сильно увеличил число и точность биомаркеров, предсказывающих ответ пациента на химиотерапию, для 10 из 10 групп по 46–235 раковых больных. При этом базовые приложения для МО не могли выявить биомаркеры необходимой точности в 3 из 10 случаев.

«Без применения консультативных систем назначение таргетных противоопухолевых препаратов имеет примерно 30–40% успеха, и это считается нормальным в современной клинике, наша методика имеет 70% успеха и более. На настоящий момент наша лаборатория является мировым лидером», — утверждает Николай Борисов.

Применение гибкого тримминга данных исключает неинформативные параметры. Этот эвристический подход, основанный на практических данных, ускоряет решение поставленной задачи за счет отказа от излишней точности. Для каждого пациента со всей имеющейся информацией о нем принимаются в расчет только пациенты с похожими характеристиками. Тренировочный набор данных подстраивается под каждую точку тестового набора, как плавающее окошко. Поэтому метод получил название «Проективный разделитель типа “плавающее окно”» (FLOating Window Projective Separator, FloWPS).

Разумеется, это не единственный способ уменьшить объем вводных данных для МО в онкологии. В пилотном исследовании пробовали метод главных компонент, но он оказался менее успешным.

Одно из основных ограничений FloWPS — время, которое затрачивается на оптимизацию параметров тримминга данных, и чем больше объем данных, тем дольше обработка. К примеру, анализ набора данных из 46 образцов занимает приблизительно 20 секунд, а из из 235 образцов — несколько часов.

Метод опорных векторов — один из самых популярных алгоритмов машинного обучения. Процедура тримминга данных значительно улучшила выявление раковых больных, отвечающих и не отвечающих на лечение. Возможно, она улучшит и работу других методов МО. Тримминг данных объединяет в себе преимущества глобальных (метод опорных векторов) и локальных (метод ближайших соседей) подходов к машинному обучению. Он может быть эффективным и для других глобальных подходов, в том числе для тех, что используются при обучении нейросетей.

Исследователи считают, что новая концепция поможет машинному обучению найти свое место в персонализированной онкологии и во многих других областях. Лаборатория Oncobox, где работает один из авторов исследования, разрабатывает курсы лечения с помощью алгоритма машинного обучения уже сейчас. 

Источник

Nicolas Borisov, Anton Buzdin. // New Paradigm of Machine Learning (ML) in Personalized Oncology: Data Trimming for Squeezing More Biomarkers From Clinical Datasets // Frontiers in Oncology, 2019, 17 July 2019; DOI:  10.3389/fonc.2019.00658

Добавить в избранное