Запись ДНК на ленту кассеты — новый формат хранения данных

ДНК рассматривают как перспективный носитель информации при нынешнем взрывном росте объемов данных, однако технических решений, которые позволили бы компактно хранить большие объемы информации, пока недостает. Авторы статьи в Science Advances разработали кассету, данные на ленту которой записываются с помощью ДНК. Данные можно многократно считывать, удалять и перезаписывать. Для демонстрации возможностей ученые записали на кассету фрагменты изображения (фотографии китайского фонарика), а затем декодировали его с помощью автоматизированной системы. Цикл адресации, считывания, перезаписи и повторного считывания файла занял 50 минут. Каждый фрагмент данных удалось записать и считать без повреждений, чтобы затем с помощью секвенирования и декодирования ДНК восстановить полную картинку.

Изображение:
Устройство для записи и считывания закодированных в ДНК данных на кассету. 
Credit:
Science Advances (2025). DOI: 10.1126/sciadv.ady3406 | CC BY-NC

Объемы данных в наши дни растут с невероятной скоростью. Такой взрывной рост приводит к тому, что хранилища данных на основе транзисторов достигли пределов закона Мура, поэтому необходима разработка принципиально новых носителей. В качестве перспективного варианта рассматривают ДНК из-за высокой плотности (около 455 эксабайт/г, 1 эксабайт = 1018 байт) и длительного времени хранения без потребности в электричестве. Однако разработке такого накопителя данных препятствует ряд ограничений: точный синтез последовательности ДНК трудно проводить в больших масштабах, а носители для хранения самой ДНК не обладают достаточной емкостью, которая обеспечила бы компактизацию. Авторы статьи в Science Advances разработали кассету, на ленте которой можно хранить закодированные в ДНК данные, причем этот накопитель обеспечивает возможность многократного чтения и записи. Адресация, извлечение данных, удаление, запись файла и повторное извлечение проводятся полностью автоматически, один такой набор операций выполняется в течение 50 минут.

В качестве носителя для ДНК ученые использовали полиэфирно-нейлоновую композитную ленту, размеченную в формате штрихкода. Белые участки обладали волокнистой гидрофильной структурой, в них загружали ДНК. Черные участки заполняли полидиметилсилоксаном, чтобы создать гидрофобный барьер для физического разграничения данных в разных разделах.

Помимо физического разбиения, штрихкоды создают адресную информацию. Например, имя папки, записываемой на ДНК-накопитель, можно записать в виде штрихкода Code-128 (этот стандарт позволяет кодировать цифры и буквы латинского алфавита) и затем использовать для поиска так же, как абсолютный путь в компьютерной файловой системе.

Содержащиеся в папке файлы хранятся в ДНК-содержащих участках штрихкода и последовательно нумеруются. Например, если закодировать «JK Li» как папку, то адрес «JK Li_5», будет указывать на пятый кодирующий (белый) участок в штрихкоде «JK Li», который содержит искомый файл.

Кроме того, штрихкоды можно генерировать по определенной кодировке аналогично символьным ссылкам в компьютерной системе — их можно будет эффективнее обрабатывать и группировать с помощью продвинутых алгоритмов, например поиска сходства и категоризации на основе искусственного интеллекта.

Чтение файлов с ДНК-накопителя данных не должно расходовать нанесенные на ленту пулы олигонуклеотидов, в которых закодирована информация. Кроме того, система должна поддерживать удаление и замену отдельных файлов. Чтобы добиться этого, ученые закодировали два цифровых файла — один текстовый и одно изображение — используя подход DNA Fountain. К полученным 100-нуклеотидным фрагментам добавили сайт узнавания рестриктазы для удаления файлов на 3′ конце, праймерные последовательности для детекции на обоих концах и участок для заякоривания одной из цепей на ленте-носителе.

Синтезированные олигонуклеотиды наносили на ленту и отмывали несвязавшиеся фрагменты. При денатурации закрепленного олигонуклеотида высвобождалась одна из его цепей, которую авторы секвенировали для считывания данных. Вторая цепь оставалась закрепленной, и ее можно было восстановить до двуцепочечного олигонуклеотида. Такой подход обеспечивает многократное считывание файлов ДНК с ленты без повреждения исходной информации — исследователи убедились, что после 10 циклов считывания количество копий ДНК на участке ленты осталось практически неизменным.

Принцип удаления и повторной записи основан на использовании рестриктазы. Конструируя олигонуклеотиды для перезаписи информации, ученые руководствовались тем, что разрезание должно происходить в начале 5′-конца сайта распознавания, а сам сайт должен быть как можно короче из соображений экономии. Они выбрали рестриктазу Mbo I с сайтом узнавания в 4 нуклеотида (5′-GATC), которая позволяла сохранить участок заякоривания на ленте, чтобы к нему можно было присоединить новый фрагмент. Ученые убедились, что после 10 циклов «стирания» и повторной записи файла количество копий ДНК практически не менялось.

Принцип многократной записи, чтения, удаления и повторной записи данных на ленту кассеты.
Credit:
Science Advances (2025). DOI: 10.1126/sciadv.ady3406 | CC BY-NC

Авторы охарактеризовали возможности носителя — емкость, скорость адресации и скорость записи. По их расчетам, 1 км ленты может содержать 545 400 разделов данных. Экспериментально полученная скорость адресации составила 1 570 файлов/с, скорость записи — закрепления олигонуклеотидов из раствора на целевом участке ленты — 2,3 файла/с при времени осаждения 1 мин и длине участка 50 см. Максимальная загрузка ДНК составила 5 × 1011 копий/мм3 или 28,6 мг на км. В ходе проверки авторам удалось записать 156,6 кб данных в один раздел и считать их без потерь. Из экспериментальных данных следует, что на километре ленты может храниться 74,7 ГБ фактических данных, хотя по теоретическим расчетам максимальная вместимость может достигать 362 петабайт на километр.

Еще одно требование к накопителю данных — его долговечность. Для защиты ДНК, а следовательно, записанной информации от разрушения авторы покрыли ленту защитным слоем цеолитных имидазольных каркасов (ZIF) — ее пропитали 2-метилимидазолом и обработали раствором нитрата цинка. Полученный защитный слой можно было быстро (в течение 15 секунд) удалить, чтобы получить доступ к файлам ДНК, а его восстановление занимало около 10 минут. Полученный способ должен обеспечить крайне длительное хранение данных без их повреждения (по расчетам, более 345 лет при комнатной температуре).

Наконец, авторы публикации автоматизировали систему — они разработали кассету для ДНК-ленты, которая была сопоставима по размеру с коммерческими ленточными накопителями. Конструкция содержала четыре основных части: микрокомпьютер, моторную систему, систему адресации и систему подачи жидкости. Предустановленная программа в микрокомпьютере управляла тремя другими системами, чтобы обеспечить автоматическую адресацию файлов ДНК, их чтение, удаление и повторную запись.

Компакт-кассета, на ленте которой записаны данные с помощью ДНК, и система считывания и перезаписи этих данных.
Credit:
Science Advances (2025). DOI: 10.1126/sciadv.ady3406 | CC BY-NC

Для проверки надежности этой системы ученые взяли изображение китайского фонарика, разбили его на четыре фрагмента наподобие пазла и закодировали каждый из кусочков в ДНК. Они случайным образом выделили четыре раздела на ленте, куда записали эти картинки (Puzzle 1.png, c7_2, Puzzle 2.png, c8_6, Puzzle 3.png, e4_5 и Puzzle 4.png, b6_8). В адрес e4_5 они предварительно записали текстовый файл — чтобы успешно сохранить и восстановить изображение фонарика, требовалось заменить этот файл на «Puzzle 3.png» в ходе записи. Ошибка в каком-либо из процессов привела бы к тому, что хотя бы некоторые фрагменты картинки не будут считаны корректно, следовательно, исходное изображение не удастся восстановить. Однако система сработала успешно. Исследователи показали, что считывание проходит в четыре этапа с учетом снятия и восстановления защитного покрытия и занимает 25 минут, а перезапись файла и последующее считывание — 50 минут. Восстановление всей картинки, то есть перезапись одного файла и считывание трех оставшихся, заняло около 150 минут; все четыре фрагмента картинки удалось восстановить. Авторы подчеркивают, что этот процесс можно сократить до 47 минут при дальнейшей оптимизации.



ДНК пластмассового кролика

Источник

Jiankai Li et al., A compact cassette tape for DNA-based data storage. // Sci. Adv. 11, eady3406 (2025). DOI: 10.1126/sciadv.ady3406

Добавить в избранное