Мария Логачева: «У борщевика очень много генов, около 55 тысяч»

О том, как сравнивать непохожие растения и похожие гены, о геномах борщевика и гречихи рассказывает кандидат биологических наук, старший преподаватель Центра молекулярной и клеточной биологии Сколтеха Мария Логачева.

Фото:
Евгений Гурко

28 февраля 1953 года Фрэнсис Крик вошел в кембриджский паб Eagle и объявил, что он и Джим Уотсон «нашли секрет жизни». В марте они собрали огромную трехмерную модель ДНК. А 25 апреля 1953 года, 70 лет назад, журнал Nature опубликовал короткую статью со скромным замечанием в конце: «От нашего внимания не ускользнуло, что постулированное нами специфическое образование пар заставляет сразу предположить возможный механизм копирования генетического материала». Мы предложили современным молекулярным биологам пофантазировать, побыть несколько минут биологами до открытия двойной спирали, а затем немедленно переместиться из этого паба в свою современную лабораторию и представить, что бы их поразило после такого путешествия во времени.

Материал выпущен при поддержке компании SkyGen.

Что бы вас поразило в вашей лаборатории после возвращения из прошлого?

Если сравнивать с состоянием на 1953-й год, — наверное, миниатюрные приборы для секвенирования. Думаю, что сразу, как стала понятна структура ДНК, — стало понятно и то, что должны существовать какие-то методы, чтобы ее определять. Но до недавнего времени это было большие, сложные, дорогостоящие приборы. Здесь можно провести сравнение с компьютерами, которые тоже в начале своего существования были огромными комплексами, занимавшими целые комнаты, а теперь те же самые мощности доступны на смартфоне. Аналогичные трансформации произошли и с секвенированием ДНК. Сейчас мы можем читать ДНК на приборах, которые немногим меньше того самого смартфона и немногим больше USB-флешки. Такими приборами SkyGen обеспечивает даже в нынешних тяжелых условиях.

Это Oxford Nanopore?

Да, у них есть несколько приборов, один — вот этот крошечный MinION, честно говоря, мы его оставили скорее как игрушку для студентов. Есть и большие, такие как PromethION. Приборы последней версии производитель выпустил немного недоделанными, с ними по всему миру сейчас проблемы. Очередное обновление, которое должно было помочь справиться с этими проблемами, не помогло, еще одно ждем со дня на день. Надеемся, что заработает.

 Расскажите о какой-нибудь вашей удаче последнего времени. Например, в январе у вас опубликована статья про сравнение профилей экспрессии генов растений. То есть сравниваются не последовательности генов, а ищется функциональное сходство, верно?

Да. Ну, формально это удача последнего времени, но на самом деле эта статья завершает очень давний проект. Мне тут подсказывает Алексей Пенин, соавтор, который как раз придумал алгоритм сравнения, что проект начался еще в 2014 году, хотя, конечно, мы не только им занимались все это время. Существенная часть работы была в получении собственных данных — там у нас как собственные данные, так и публично доступные. И с тех пор очень сильно изменились представление о том, как это все надо анализировать.

Почему, собственно, у нас там машинное обучение — не потому, что это такое модное слово, без которого ни одна статья не обходится, а потому, что мы прежде всего думали о растениях. А растения очень сложные, точнее, они не то чтобы более сложно устроены, чем животные, — они более разнообразно устроены. Вы можете легко сравнить человека и мышь. Конечно, у мыши есть хвост, у человека нет, но в целом у них все очень похоже — мозг, печень, все органы и структуры, и понятно, что чему гомологично, что чему соответствует. Совсем другое дело — растения. У них, во-первых, очень сильно различаются темпы развития, длительность жизни. Какие-нибудь эфемероиды вылезают на две недели, на месяц, дают семена и умирают, а на другой стороне этого спектра секвойя, которая живет многие сотни лет. Во-вторых, организм растений более пластичный, у них есть органы гибридной природы. Мы привыкли, что у растения есть корень, стебель, цветок. Но у некоторых растений есть органы, которые обладают признаками и того, и другого.

Собственно, если вы подумаете, скажем, про ряску и про раффлезию Арнольда, то увидите, что довольно трудно взять и сопоставить транскриптомные образцы того и другого. Они очень сильно редуцированы, причем в разных направлениях. Раффлезия — фактически один большой цветок, а ряска и цветет крайне редко, и цветки у нее крошечные, миллиметровые. Ну а если к этому разнообразию добавить еще деревья, водные растения, станет понятно, что такое прямое сопоставление в принципе не всегда возможно. Как раз для этого нам пригодились методы машинного обучения, потому что они позволяют обойтись без сопоставления образцов. Они просто подаются в программу, и дальше она как бы сама эти соответствия устанавливает, основываясь на профилях экспрессии.

А вот гены-ортологи, которые у вас рассматриваются, — если у них общее происхождение, они похожи, это разве не означает, что у них сходная функция?

Нет-нет, это очень распространенная ошибка. Ортологи — это гены, которые произошли от общего предкового гена. Вот у нас есть два вида, А и В. У них был последний общий предок. У этого предка был какой-то ген Х, дальше началось видообразование, и вариант этого гена, который находится в виде А, пусть он будет ХА, и вариант гена, который находится в виде В, ХВ, — вот они друг другу ортологи.

А функции у ХА и ХВ могут быть разными?

Функции могут быть разными вплоть до противоположных, такие примеры известны. Бывает, что буквально одна аминокислотная замена изменяет специфичность фермента или действие транскрипционного фактора. А помимо этого, ведь в чем еще сложность растений — они проходили многократные полногеномные дупликации, или ещё бывают тандемные дупликации (их мы в борщевике много нашли, кстати). И поэтому у нас уже не такая красивая картинка из учебника — один ген у одного вида, другой ген у другого вида — а чаще бывает так, что 10 генов в одном виде и пять в другом. Они называется ко-ортологами и формируют ортогруппы, группы ортологичных генов.

У растений практически всегда так. Мы какое-то время сотрудничали с коллегой, который занимается дрожжами, он нам помог с интерпретацией экспрессионных данных. И он был в ужасе: как вы вообще с растениями работаете, тут же на каждую функцию по три-пять генов! Мы вздохнули, посмеялись и сказали: это еще хорошо, когда три-пять, а чаще и больше! Каких-нибудь цитохромов бывает и по 20.

И в таких больших группах трудно понять, кто кому функционально соответствует. Эти 10 генов могут делать что-то очень похожее, быть функционально избыточными, или они могут делать что-то немного разное, или совсем разное, или, может быть, половина из них вообще ни для чего не нужна и надо их выкинуть. Информацию об этом можно получить, сравнивая паттерны экспрессии. Те пары генов, у которых паттерны экспрессии наиболее похожи, скорее всего, и функционально тоже будут наиболее похожи.

Очень просто звучит, но на самом деле непросто.

Вовсе непросто в плане расчетов. Рецензенты тоже не сразу все поняли.

И вот этот показатель сходства паттернов экспрессии — expression score, ES, который упоминается у вас в статье. Как он получается?

На вход подаем данные из экспрессионных карт (они же ещё называются транскриптомными картами). Это такие таблицы с максимально разнообразными наборами разных условий, которые отличаются по своим транскриптомным профилям, — лист, стебель, органы, ткани, стадии развития. Для каждого гена написано число чтений, которые произведены из данных нашего любимого NGS. Число чтений соответствует уровню экспрессии этого гена в данных условиях — органах, тканях и т.д. И вот такие таблицы подаются на вход в программу. Там есть, как часто бывает в машинном обучении, положительная выборка и отрицательная выборка. Положительной выборкой служат «1-1 ортологи» — та самая простая и понятная ситуация, два вида — два гена. Вы можете между ними установить взаимно однозначное соответствие, сказать, что они соответствуют одному и тому же предковому гену. Они, как правило, очень похожи по профилям экспрессии, expression score у них будет близок к 1. А отрицательная выборка — это те, у которых expression score близок к нулю, просто случайные пары. И мы ищем в тех больших группах — 5 генов одного вида, 10 видов другого вида, — ищем такие пары, которые по экспрессии друг на друга похожи настолько же, насколько похожи «1-1-ортологи». Грубо говоря, мы хотим про любую межвидовую пару генов понять: она скорее похожа так же, как похожи между собой ортологи, или скорей не похожа так же, как не похожи между собой случайные пары. Вот так, если в одной фразе.

И таким образом вы сравнили даже однодольные с двудольными, кукурузу с арабидопсисом и с гречихой.

Что проблематично, потому что если вглядеться в цветок злаков и в цветок арабидопсиса, то вы мало найдете между ними общего, и что чему соответствует — не очень-то понятно.

Хорошо, а что с борщевиком? Это тоже удача?

Борщевик — это такая большая удача. С борщевиком замечательно то, что несмотря на большую вредность и большой размер генома, он достаточно быстро и легко собрался, во всяком случае, с гораздо меньшим мучением, чем другие наши проекты. Тут ключевыми основами для сборки послужили длинные чтения, сделанные на платформе Pacific Biosciences, и технология Hi-C — это не только инструмент для исследований структуры хроматина, это прекрасный способ улучшать геномные сборки до полнохромосомного уровня. Сейчас статья подана в журнал.

Очень хочется задать практические вопросы: сможем ли мы когда-нибудь от борщевика избавиться и чем он жжется?

Да, это все почему-то спрашивают, особенно если добавить еще, что помимо собственно сборки я сейчас фокусируюсь на генах биосинтеза фуранокумаринов, прежде всего линейных. А линейные фуранокумарины — это именно те вещества, которые придают борщевику его ужасные фотосенсибилизирующие свойства, —псорален и его производные. Мы нашли кандидатные гены для некоторых стадий этого процесса биосинтеза, в частности, псораленсинтазу. И экспериментально доказали, что это действительно она, это было неочевидно, потому что та проблема, о которой я говорила, про дупликации, там встает в полный рост. 

У борщевика вообще очень много генов, около 55 тысяч. И я долго не могла поверить, я мучила первого автора нашей статьи, чтобы он искал ошибку. Он искал самые разнообразные ошибки, и не нашел. Полногеномную дупликацию недавнюю тоже искал и тоже не нашел. И тогда мы стали смотреть на взаимное расположение этих генов, и поняли, что большинство групп сходных генов находится рядом с друг другом на небольшом расстоянии, от 100 тысяч до мегабаз. А это другой механизм, тандемные дупликации. На них как-то меньше обращали внимания всегда, про них меньше известно.

А псораленсинтаза еще есть у кого-нибудь, кроме него?

Есть. Несмотря на то, что борщевик — это такой жупел, на самом деле она есть у большинства зонтичных, и у некоторых тоже уже охарактеризована, так что нынешние результаты — это не самая новая вещь, которую хотелось бы сделать. Есть другие ферменты этого пути, про которых известно только то, что они есть. Реакция происходит, а какие гены их могут кодировать, вообще не известно. Вот над этим сейчас работаем.

Так что борщевик в плане своей биохимии здесь не уникален, другие зонтичные тоже могут вызывать ожоги. Причем я даже из своего опыта могу сказать, что индивидуальная чувствительность очень отличается у разных людей. Я вот счастливо вхожу в число нечувствительных, образцы на транскриптомы и масс-спектрометрию собирала в солнечный день голыми руками.

И никаких ожогов?

Нет-нет, я с детства знаю это свойство, поэтому не сюрприз для меня. Тут можно разбираться с генетической основой этого свойства (она наверняка есть), но эксперименты уж очень неэтичные для этого нужны, так что лучше не надо.

А вот побороться с борщевиком знание генома, к сожалению, не поможет. Зная путь биосинтеза всех этих нехороших веществ, мы в принципе можем отредактировать гены, которые его осуществляют. Но такие растения будут неконкурентны в дикой среде, ведь фуранокумарины нужны для защиты от вредителей. А сделать какой-то гербицид, который будет нацелен именно на них, тоже нельзя, потому что ничего биохимически уникального в борщевике нет, как я уже сказала. Это как с «генетическим оружием» — оно едва ли возможно, потому что мы все очень похожи.

А неудачи у вас в последнее время были?

У меня, как у человека, который занимается геномикой растений с фокусировкой на de novo сборку, удача и неудача касаются одного: удача — хорошо собрался геном, неудача — не собрался. Есть у нас замечательный объект, тоже много лет им занимаемся — гречиха. Мы сборку генома сделали, опубликовали, она лучше, чем у коллег-конкурентов. Но не соответствует моим представлениям о прекрасном, потому что не до хромосом, и сейчас я работаю над улучшением.

Вы год назад на Дне ДНК про гречиху рассказывали, и сейчас еще не все хорошо?

Да, и сейчас еще нет. У нее очень много повторов — у борщевика тоже много повторов, около 80%, но у него они более короткие. Длина чтения Pacific Biosciences около 10 килобаз, а они меньше, чем длина чтения, где-то 5-6 килобаз. А у гречихи основной повторяющийся блок, такой ретротранспозон Athila — это от имени вождя гуннов, известного своими завоеваниями, и одновременно от Arabidopsis thaliana, где впервые был этот мобильный элемент описан, вот он тоже завоевывает геномы. И он длинный, 10–15 килобаз, поэтому длины чтения недостаточно, чтобы повторы влезли. И вот сейчас как раз заморочились… может быть, скоро будет уже понятно, получилось или нет.

Желаем удачи! И последний вопрос: назовите какой-нибудь значительный перелом в биологии, который произошел после открытия двойной спирали. Понятно, что их много, любой на ваш выбор.

Действительно их много, и по крайней мере для меня большинство связано с ДНК. Но если говорить только про один, то это возможность модифицировать геном. Потому что мы всегда представляли, и многие до сих пор представляют, что наша ДНК — это что-то неизменное. Возможность менять ДНК, начиная от классических методов модификации и заканчивая генетическим редактированием — это смена парадигмы.


Реклама. Рекламодатель ООО "Скайджин"
Токен - LdtCKQjfp

Добавить в избранное