Почти всё о современном секвенировании за один день
16 мая 2022 года стартовал обучающий курс «Введение в технологии NGS. Работа с данными секвенирования». Соорганизаторы курсов — АНО «Институт синтетической биологии» и Московский центр инновационных технологий в здравоохранении. В первый день прошли вводные лекции о развитии технологий секвенирования и актуальной ситуации в отрасли.
Любая достаточно развитая технология неотличима от магии, напомнил третий закон Артура Кларка руководитель образовательных проектов медико-генетического центра «Генотек» Дмитрий Кривошеев. И это в полной мере относится к секвенированию.
ХХ век был веком рождения генетики и исследования генов, век XXI стал веком геномики, анализа огромных объемов генетической информации. Вероятно, в ближайшее время наибольшую долю новых данных, которая накапливаются в мире, составит информация о генетических последовательностях.
График Национального института исследований генома человека США, представленный ниже, часто показывают, когда говорят об истории секвенирования. Стоимость чтения ДНК снижается быстрее, чем по закону Мура, — за 20 лет она упала с миллиардов до тысячи долларов за геном и продолжает уменьшаться. Падение стоимости произошло в значительной мере благодаря NGS. Секвенирование становится все более доступным и находит все новые применения.
Появились компании, работающие в сфере потребительской (direct-to consumer, DTC) генетики, такие как Ancestry.com и 23&Me, где частное лицо может получить информацию о том, откуда происходят их предки, о влиянии генетики на их здоровье и способности. В РФ эту нишу занимает «Генотек», подчеркнул докладчик.
Интересно, что начальные этапы развития Ancestry связаны с церковью мормонов — в их религиозных воззрениях важную роль играют генеалогические связи. Джеймс Соренсон, знаменитый мормонский миллиардер и филантроп, создал базу генетических данных, которую позднее приобрела Ancestry; эта компания продолжает сотрудничать с мормонами.
Большинство компаний, работающих в области потребительской генетики, не занимаются секвенированием, а используют микрочипы. С их помощью выявляют SNP (в геноме человека их примерно 4-5 млн), затем проводят биоинформатический анализ. Некоторые однонуклеотидные замены могут быть причиной серьезных заболеваний, таких как серповидноклеточная анемия, но большинство из них практически не влияет на здоровье, поэтому они не уничтожаются отбором и могут служить маркерами для популяционной генетики (подробнее на PCR.NEWS).
Каждый из нас — невероятная смесь генетических маркеров разных этносов, поэтому никакое этнически ориентированное оружие создать невозможно, отметил Дмитрий Кривошеев. Нет «генов русского» или «генов швейцарца», характерных для одной и только одной этнической группы, Можно определить только то, какая часть маркеров в геноме конкретного человека совпадает с наиболее часто встречающимися маркерами представителей определенного этноса.
Рутинной услугой DTC генетики стало выявление неандертальских компонентов в геномах европейцев. «У меня неандертальской ДНК больше, чем у среднестатистического клиента [«Генотека»], — сказал Дмитрий. — Чем это помогает в жизни? Ничем».
Затем докладчик рассказал о других приложениях генетических тестов, таких как фармакогеномика и персонализированная медицина, и о том, как полногеномный поиск ассоциаций (GWAS) помогает найти связь между отдельными SNP и теми или иными сложными признаками. К информации о «генетической предрасположенности» к спортивным успехам, тем или иным творческим занятиям надо относиться осторожно: едва ли такие сложные признаки определяются генетикой. С другой стороны, есть довольно успешные попытки оценить влияние генетических факторов на интеллект, например, полигенный предиктор «предрасположенности» к высшему образованию, использующий 74 SNP, оказался довольно точным (в этом исследовании генетические факторы объясняли 11–13% различий в уровне образования и 7–10% различий в когнитивных способностях. — PCR.NEWS).
Во время коронавирусной пандемии «Генотек» принимал участие в инициативе The COVID-19 Host Genetics — на всем известной странице Яндекса с российской статистикой заболеваемости было размещено приглашение для тяжело переболевших поучаствовать в генетическом исследовании, чтобы найти факторы, ответственные за тяжелое течение COVID-19.
Полногеномный поиск ассоциаций позволяет искать ценные признаки у растений и у животных, что важно для сельского хозяйства. Что касается генных модификаций — «все ждали, когда изменится законодательство, но быстрее изменилась технология», сказал Дмитрий Кривошеев. Сейчас стало возможным генное редактирование, которое аккуратно вносит незначительные изменения в геном, и законодательное регулирование таких изменений мягче. Но для подобных работ опять-таки необходимо секвенирование.
Наконец, новый этап в развитие микробиологии открыло метагеномное секвенирование — чтение всех геномов в образце, позволяющее оценить состояние почвы или кишечной микрофлоры без культивирования.
Секвенирование и биоинформатика — будущее биологии. «Вы самые счастливые люди», — сказал Дмитрий Кривошеев участникам курсов и пожелал им удачи от имени «Генотека».
Дмитрий Щербинин, специалист по структурной биоинформатике и преподаванию, напомнил историю технологий секвенирования, которая началась в середине ХХ века. Английский биохимик Фредерик Сенгер (1918–2013) — единственный человек, получивший две Нобелевские премии по химии, за разработку методов определения последовательности белков и ДНК. Секвенирование по Сенгеру и по Максаму – Гилберту (их теперь относят к первому поколению методов секвенирования) появились практически одновременно, но второе, основанное не на достраивании цепочки ДНК, а на ее расщеплении, не получило широкого распространения. В то же время автоматизированное секвенирование, использующее метод синтеза ДНК с терминацией, разработанный Сенгером, и капиллярный электрофорез, остается золотым стандартом и сегодня. (Сенгер предложил еще и второй метод, (+/-)-систему секвенирования, но она быстро сошла со сцены.)
Затем появилось собственно NGS — секвенирование нового поколения (next generation sequencing), оно же высокопроизводительное секвенирование. После появления методов одномолекулярного секвенирования (Pacific Bioscience и Oxford Nanopore) методы NGS стали называть «вторым поколением».
«Высокопроизводительное» оно потому, что одновременно выполняются миллионы или даже миллиарды чтений. Методы NGS, как и секвенирование по Сенгеру, представляют собой секвенирование путем синтеза (СПС, sequencing by synthesis, SBS) — они основаны на достраивании цепи, комплементарной той, которую надо прочитать. Образец расщепляется на фрагменты небольшого размера, желательно случайным образом, без предпочтения определенных сайтов (поэтому часто используют ультразвук). Каждый фрагмент закрепляется на твердой поверхности и амплифицируется. Методы амплификации — создания множественных копий фрагмента нуклеиновой кислоты — берут свое начало от полимеразной цепной реакции, изобретенной Кэри Муллисом. Множество копий одного фрагмента, локализованное на чипе, обычно называется кластером. На этих копиях строят комплементарные цепочки и в момент присоединения очередного нуклеотида тем или иным образом регистрируется сигнал.
Важную роль при выборе праймеров для амплификации играют биоинформатические подходы, отметил докладчик. Праймеры должны взаимодействовать только с участками-мишенями, не образовывать вторичных структур, иметь определенную температуру отжига (у пары праймеров она должна быть похожей). Сейчас существуют доступные сервисы для дизайна праймеров, такие как BLAST.
Дмитрий Щербинин также рассказал о секвенировании 454, созданном в компании 454 Life Sciences: эта технология не поддерживается с 2016 года, но какое-то количество секвенаторов до сих пор на ней работают. Ее особенность в том, что амплифицированные фрагменты находятся не на чипе, а на микросферах, помещенных в капельки раствора с реагентами. При достраивании цепи выделяется пирофосфат, превращается в АТФ и регистрируется свечение, вызываемое ферментом люциферазой. (Поэтому метод называется пиросеквенированием). Проблемы этой технологии — высокая стоимость и низкая точность секвенирования гомополимерных участков.
Ионное полупроводниковое секвенирование похоже на 454, но детектируется не пирофосфат, а протон, точнее, вызванное высвобождением протонов изменение рН во время синтеза комплементарной цепи. Прибор Ion Torrent от Thermo Fisher позволяет получить до 130 млн ридов за прогон и успешнее расшифровывает гомополимерные последовательности. Интересно, что и 454 Life Sciences, и Ion Torrent Systems основал один и тот же человек — американский генетик и предприниматель Джонатан Ротберг.
Позднее лидирующую позицию заняла технология Illumina/Solexa. В базе данных GenBank 80-90% последовательностей получено с помощью Illumina. Библиотека подготавливается обычным образом: к секвенируемым фрагментам присоединяют адаптеры, отвечающие за прикрепление к подложке, индексы (баркоды), которые обеспечивают идентификацию фрагментов из одного образца, сайты посадки праймеров. При достройке второй цепи используют терминирующие нуклеотиды с флуоресцентной меткой, после присоединения очередного нуклеотида лазер возбуждает флуоресценцию, она детектируется. Затем отрезается флуорофор и терминатор, и таким образом появляется возможность присоединять следующий нуклеотид. Технология Illumina интересна тем, что позволяет читать фрагмент с двух концов.
Относительный недостаток технологии Illumina — высокая цена запуска: именно поэтому многие владельцы приборов стараются набрать побольше заказов. При этом в пересчете на нуклеотид себестоимость не очень высокая.
Существенно снижает стоимость технология ABI SOLiD (Sequencing by Oligonucleotide Ligation and Detection), созданная компанией Life Technologies. В ней декодируются сразу два нуклеотида за один шаг за счет использования 8-нуклеотидных зондов, причем их фрагменты сшиваются лигазой. Этот метод также чуть быстрее, но риды короткие, и есть проблемы с палиндромами, образующими вторичные структуры.
Вершиной современных достижений в области секвенирования Мария Логачева (Сколтех) назвала технологию третьего поколения — Pacific Bioscience. Секвенирование по Сенгеру требует относительно больших количеств гомогенного материала. Сила NGS в том, что могут работать с гетерогенными матрицами. PacBio, она же SMRT (single molecule real time sequencing) ловит сигнал с единичной молекулы, что позволяет обходиться без амплификации.
Основа технологии — проточная ячейка с лунками размером около 100 нм. На дне каждой лунки находится ДНК-полимераза, связанная с фрагментами библиотеки. Технология PacBio, как и большинство современных методов секвенирования, кроме Oxford Nanopore, основана на синтезе комплементарной цепи, присоединение очередного нуклеотида детектируется с помощью флуоресцентного сигнала.
Преимущества технологии — очень длинные прочтения (10-50 т.п.н.). Практически их длина ограничена только возможностями выделения: на магнитных частицах и колонках сложно получить более длинные фрагменты. Нет проблем с прохождением сложных участков и с выявлением модифицированных нуклеотидов в матрице (например, если встречается 5’-метилцитозин вместо цитозина, время присоединения становится больше).
Минус PacBio — высокая частота ошибок (10–15%), что неизбежно при чтении единичной молекулы. Но повысить точность можно за счет кольцевого консенсусного секвенирования: при подготовке библиотек фрагменты закольцовываются, и полимераза много раз проходит по кругу. Поскольку PacBio почти не дает систематических ошибок (таких, как гомополимеры у 454 гомополимеры, у Иллюмины тринуклеотиды GGC), консенсус получается точным.
Новейший и наиболее производительный прибор, работающий на этой технологии, — Sequel II (2019). За запуск можно получить до 500 млрд нуклеотидов, время работы —10-20 часов. На самом деле производительность ниже, чем кажется, отметила докладчица, из-за кольцевого секвенирования. Но точность очень высокая (до 99,99%). Мария Логачева показала данные из статьи 2021 года, которые подтверждают, что при секвенировании геномов кишечной палочки и золотистого стафилококка с покрытием более 50 удается добиться точного совпадения с референсом.
Плюсы технологии обуславливают ее широкое применение. С помощью PacBio секвенируют сложные участки генома, с повторами, богатыми GC, например, при синдроме ломкой Х-хромосомы или боковом амиотрофическом склерозе. Другой важный пример — транскриптомика, особенно когда необходимо отследить события альтернативного сплайсинга в удаленных участков гена (хотя Мария Логачева отметила, что для анализа транскриптома чаще используют Oxford Nanopore). Технологию используют для детекции эпигенетических маркеров, и последнее, но не по значимости — для сборки геномов de novo. (О сборке растительных геномов Мария недавно рассказывала на Дне ДНК в Пущино.) Технология PacBio позволила секвенировать геном засухоустойчивого злака Oropetium thomaeum, а также геном аксолотля, который в 10 раз больше генома человека.
О флагмане NGS Illumina — более 17 000 приборов этой компании поставлено по всему миру, более 250 в России и СНГ — рассказал Игорь Шаповалов («Альбиоген»). Компания «Альбиоген» входит в ГК «Р-Фарм» и является официальным дистрибьютором Illumina в РФ.
Nехнологию разработала компания Solexa, которая в 2004 году приобрела у компании Manteia технологию молекулярных кластеров. В 2005 году с помощью секвенирования путем синтеза был прочитан геном фага phiX-174, а в 2006 году на рынок выше первый коммерческий секвенатор — Genome Analyzer. (Illumina приобрела компанию Solexa годом позже.) Таким образом, технологии уже 16 лет.
Появление на рынке Genome Analyzer произвело революцию, резко выросли объемы данных. Однако в актуальной линейке Illumina аналогом первого прибора можно считать самую маленькую модель — iSeq100: он менее чем за день позволяет получить 1,2 Gb; подобный результат на Genome Analyzer требовал четырех дней. Самый производительный — NovaSeq6000 (3000 Gb за два дня).
Технология продолжает развиваться, отметил докладчик. Появляются новые варианты использования флуорофоров, новые подходы к расположению кластеров, увеличивающие их плотность, коротковолновые лазеры, сверхразрешающая оптика и пр. Приборы становятся проще в использовании, наборы реактивов заменяются картриджами. При этом качество данных остается высоким.
Игорь Шаповалов подчеркнул, что все библиотеки Illumina, не зависимо от способа подготовки, выглядят одинаково и могут быть секвенированы на любом приборе компании. Он перечислил три основных способа: Bead-Linked Transposomes (магнитные частицы, несущие ферменты; наиболее простой и быстрый метод, подходящий для разнообразных материалов), TruSeq Ligation (обеспечивает высокое качество, позволяет получать библиотеки из ДНК и РНК), а также AmpliSeq for Illumina, разработанный в ThermoFisher, на основе мультиплексной ПЦР.
Первые два метода позволяют получить полногеномную библиотеку, а таргетирование с помощью ПЦР или зондов, комплементарных интересующим последовательностям, — определенные участки генома. На принципе зондов построены наборы для экзомного секвенирования, различные панели., применяемые в медицине.
Основные области применения NGS — онкология, микробиология, репродуктивное здоровье, сельское хозяйство, генетические заболевания, молекулярная и клеточная биология.
Итеративный метод поиска мутаций в онкологии дает неудовлетворительные результаты, последовательная проверка мутаций, от частых к более редким, требует много времени и биопсийного материала, и в итоге он может оказаться дороже одного NGS-исследования. Сегодня существует различные NGS-панели — для выявления наследственной предрасположенности, на конкретные группы онкозаболеваний, с возможностью исследования ДНК и РНК, порознь или параллельно. Например, панель TruSight Oncology 500 включает 523 гена.
Два основных направления NGS исследований в области репродуктивного здоровья — скрининг беременных на трисомию и моносомию неинвазивным методом по крови матери (неинвазивная пренатальная диагностика, НИПТ) и скрининг эмбрионов при ЭКО, также для определения хромосомных нарушений.
Рутинные исследования сельскохозяйственных растений и животных в основном используют биочипы, но без NGS биочипы не могут быть созданы, подчеркнул докладчик.
Что касается генетических заболеваний человека — орфанные заболевания редкие, но их много, и в конечном счете от них страдает немалое количество людей. Многие мутации случайные, в плохо описанных генах, и часто только NGS позволяет успешно завершить «диагностическую одиссею».
Игорь Шаповалов напомнил, что у Illumina есть приборы для in vitro диагностики (NextSeq550 Dx, MiSeqDx), зарегистрированные как медицинские изделия.
Наконец, в фундаментальных исследованиях, молекулярной и клеточной биологии сейчас возник большой спрос на омиксные исследования — комбинации геномики с транскриптомикой, протеомикой, эпигенетикой и т.п.
«Будем надеяться, что удешевление (секвенирования) будет продолжаться, и у каждого будет сделан полногеномный анализ», — сказал в заключение Игорь Шаповалов. Из аудитории звучали заинтересованные вопросы о текущих поставках Illumina. «Мы работаем над поставками, самый правильный вариант получить ответ — написать нам», — ответил докладчик.
Технологию третьего поколения от британской компании Oxford Nanopore представил Тимур Ягудин (ООО «СкайДжин»). Эта технология не требует достраивания цепи: принцип ее в продвижении цепи ДНК или РНК через пору, при этом в поре меняется ток ионов, эти изменения регистрируются и записывается в виде исходных данных в формате Fast5. (Подробнее на PCR.NEWS.)
Компания основана в 2005 году, принципы технологии были сформулированы еще в 1996-м, но все компоненты системы — мембраны, нанопоры, моторные белки — постоянно модифицируются. Нанопорой может быть, например, 9-субъединичный трансмембранный белок-липопротеин CsgG из E.coli, но это не единственный вариант.
При подготовке библиотеки на 5’-конец нашивается моторный белок (вопреки распространенному мнению, он замедляет продвижение молекулы через пору, а не ускоряет), на 3’-конец — тетер, частица липидной природы, которая осаждает библиотеку на мембрану с порами.
Докладчик перечислил основные преимущества нанопора: длинные прочтения, быстрая пробоподготовка без амплификации, прохождение анализа в реальном времени, с возможностью остановить реакцию и дозагрузить библиотеку или дозаправить буфер АТФ. Нанопор позволяет выявлять модификации ДНК и РНК без бисульфитной конверсии — пока распознаются 6 модификаций, в будущем добавятся и другие, — а также секвенировать труднодоступные области.
Во время лекции Тимур Ягудин вынул из кармана и показал аудитории стандартную проточную ячейку, с которой можно получить около 30 гигабаз данных. Самый маленький из приборов, MinION, ненамного больше, отметил он.
Докладчик рассказал о пробоподготовке РНК и ДНК, представил линейку приборов и перечислил применения, в которых нанопоровое секвенирование сейчас вносит весомый вклад: микробиология), транскриптомика, сборка геномов de novo. Новая химия Q20, повышающая точность, позволяет уже не использовать короткие прочтения для сборки геномов. Ее пробники успели приехать в РФ до наступления кризиса, отметил Тимур Ягудин, и показали себя очень хорошо.
Среди интересных новинок ONT — ячейка на 3000 каналов производительностью не менее 2500 Gb, а также метод Duplex, который позволяет секвенировать последовательно матричную и комплементарную цепи молекулы ДНК и повышает точность прочтений до Q30. Теперь можно сказать, что претензии к точности нанопорового секвенирования больше не актуальны. То, что можно назвать недостатком, — для нанопора важна чистота препарата, поскольку контаминанты сильнее влияют на процесс секвенирования, чем на мостиковую ПЦР.
О платформе GeneMind китайской компании SESANA рассказал ее представитель Валентин Жужин. Компания предлагает высокопроизводительную систему для секвенирования ДНК и РНК GenoLab M, которая основана на достраивании цепи (технология называется SURF-seq) и поддерживает имеющиеся на рынке протоколы NGS. Есть публикации китайских авторов, которые сравнивают его с NovaSeq 6000. Возможна быстрая поставка приборов в Россию.
Роман Юнес представил платформу секвенирования китайской компании MGI, у которой сейчас более 1500 сотрудников на всех континентах и более 2000 приборов. Линейка секвенаторов MGI включает DNBSEQ-G400, DNBSEQ-G50, DNBSEQ-T7. (Об этой платформе на PCR.NEWS.)
Технология предусматривает создание ДНК-наноклубка (DNA Nanoball) вместо кластера — это длинная нить ДНК, содержащая 300–500 копий фрагмента. Технология DNBSEQ позволяет избежать проблем, связанных с амплификацией (подробнее на PCR.NEWS). Как выделение ДНК, так и пробоподготовку можно проводить и вручную, и автоматически.
Роман Юнес рассказал о химии секвенирования CoolMPS, которая имеет важное отличие, например, от иллюминовской. Открепление обычной флуоресцентной метки оставляет «шрам»-лиганд, накопление «шрамов» снижает качество чтения. CoolMPS использует нуклеотиды без меток, а выявляются они с помощью четырех видов биспецифических антител, которые распознают сам нуклеотид и блокирующую группу. Точность не падает с нарастанием длины, в отличие от традиционной химии. Также в MGI разработали изящный метод, позволяющий проводить парноконцевое секвенирование.
В заключение ознакомительной части снова выступил Дмитрий Щербинин. Его второй доклад был посвящен микрочипам (их также называют микроэрреи, от microarrays). Строго говоря, микрочипы не относятся к методам секвенирования, но тесно связаны с ними. Как и секвенирование, микроэрреи могут применяться для анализа экспрессии генов, определения SNP, идентификации организмов, исследования альтернативного сплайсинга.
Микрочипы, по сути, выросли из саузерн-блоттинга — они также основаны на принципе комплементарности. На подложке находятся олигонуклеотиды, расположенные определенным образом, и с ними взаимодействуют меченые нуклеиновые кислоты из образца. После гибридизации проводятся лазерное сканирование, детекция с помощью CCD камеры и анализ изображения. Положения флуоресцентных точек на чипе дает характеристику последовательности.
Первый прототип микрочипа Affymetrix (теперь бренд называется Applied Biosystems и принадлежит компании Thermo Fisher) появился в 1989 году, а в 1994-м началось коммерческое производство чипов и сканеров. D 1997 году на микрочипах была исследована полногеномная экспрессия у дрожжей. Сейчас исследователи могут заказывать чипы под свои задачи. Изготовление микрочипов автоматизировано и напоминает производство компьютерных микрочипов.
Бывают разные типы микроэрреев, отметил докладчик, не все они основаны на нуклеиновых кислотах. С помощью чипов могут детектироваться белки (антитела и антигены, лиганды), клетки, гликаны. Бывают такие оригинальные способы детекции, как посадка на связанный белок антитела с прикрепленной к нему ДНК; последующая кольцевая амплификация выращивает у антитела длинный ДНК-хвост.
Среди недостатков микрочипов докладчик упомянул высокую стоимость, большое количество информации, осложняющее обработку, а также, о чем иногда забывают, ограниченный срок хранения.
На этом обзорные лекции закончились, и начались занятия по пробоподготовке для NGS.