ДНК: идеальный накопитель

Вопреки распространённому мнению, недолговечность — отнюдь не главная проблема придуманных человеком цифровых накопителей информации. В самом деле, перфокарты и перфоленты способны сохранять данные на протяжении сотен лет, но часто ли вы использовали их в последние сорок? Магнитные барабаны, ленты и диски гарантируют десятки лет беспроблемного хранения — и тем не менее в самых современных персоналках их тоже уже не видно. Не успев осыпаться, выходят из моды оптические диски, и даже NAND эволюционирует на глазах — и лет через десять (как раз номинальный срок для таких чипов) прочитать сегодняшние «флэшки» наверняка будет проблематично. Кто-то грезит «голографией», но, положа руку на сердце, верите ли вы, что она протянет дольше своих предшественников?

Правильный ответ таким образом заключается не в собственно сроке жизни, а в быстрой смене технологий хранения информации. С одной стороны, этот технологический галоп — благо, ибо позволяет нам наращивать информационные аппетиты, не задумываясь об ограничениях. С другой, это же и проблема: ведь даже мелочь вроде семейного фотоальбома чёрт знает на что записать, чтобы десятилетием позже его по-прежнему можно было просмотреть! С массивами специальных данных ситуация куда хуже: «ключи» к форматам и интерфейсам быстро теряются, после чего про информацию проще забыть.

Потратив полвека на разработку идеального накопителя, мы должны признать, что идеал по-прежнему не достигнут. Каждый год приносит что-нибудь новенькое, что-нибудь более быстрое или ёмкое. И может быть поэтому всё чаще слышится голос небольшой группы энтузиастов-отщепенцев, призывающих почти буквально «вернуться к истокам». Их ругают, называя их труды бесполезной тратой времени, но за последние пятнадцать лет они добились бесспорных успехов. Здесь «группа» не означает, что люди работают в стенах одного института или компании, а только лишь, что объединёны общей идеей. И идея в целом простая: идеальный накопитель информации давно построен. Природой. Это спираль молекулы ДНК.

Несколько упрощая, можно сказать, что для живой клетки спираль ДНК выступает в качестве программы. Клетка, словно станок с числовым программным управлением, считывает с ленты ДНК инструкции, следуя которым, собирает белок. Информационная плотность её огромна: согласно последним оценкам, в одном грамме ДНК можно записать свыше 400 эксабайт — и чтобы представить, насколько велика эта цифра, вспомните, что ещё несколько лет назад всю информацию, накопленную человечеством, оценивали менее чем в две тысячи эксабайт. Даже сделав скидку на неточность, это позволяет считать спираль ДНК самым плотным способом упаковки цифровых данных из всех, практически доступных человеку.

Уникальную вместимость ДНК легко объяснить, воспользовавшись бритвой Оккама: природа, пытаясь минимизировать неблагоприятные внешние воздействия, очевидно, решила задачу хранения информации применением наименьшего количества материалов. Впрочем, собственно ёмкость — опять-таки не самое ценное, что есть в ДНК. Куда ценнее её «технологическая» зрелость.

Считается, что механизм хранения генетической информации появился на Земле одновременно с самой жизнью, то есть как минимум 3,5 миллиарда лет назад (была то спираль ДНК или родственная ей спираль РНК, в контексте нашего разговора несущественно). К сожалению, до нас не дошли столь древние ДНК-цепочки (в естественной среде такая молекула существует около миллиона лет), но те фрагменты, что удалось выделить из законсервированных в кристаллах соли образцов четвертьмиллиардной давности, имеют ту же структуру, что и ДНК-спираль в современных живых существах. Мы можем прочитать их, используя те же инструменты, которыми пользуемся для чтения ДНК дрозофилы, свиньи, человека. Иначе говоря, эффективность хранения информации в ДНК удостоверена самим временем: ни один из придуманных нами накопителей и близко не стоит по степени отлаженности.

Так почему не попробовать записать на ДНК нужную нам, а не матери-природе, информацию? Такие эксперименты ведутся с начала XXI века. Генные инженеры научились не только читать, резать, клеить, копировать, скручивать ДНК-спираль, но и «записывать» в неё, т.е. синтезировать ленту с нужным наполнением. Принцип простой: нолик кодируют нуклеотидами аденином или цитозином (A и C), единичку гуанином или тимином (G и T), после чего остаётся лишь собрать двойную спираль нужной длины. Как вы понимаете, простота обманчива, но за пятнадцать лет экспериментов удалось не только вскрыть узкие места, а и предложить решения.

Прежде всего, спираль ДНК не может быть бесконечно длинной — отчасти из-за естественных ограничений, отчасти по причине несовершенства современной «пишущей» техники. Это вынуждает разбивать «файл» на отрезки, вмещающие примерно сто байт каждый. Для чтения, впрочем, ДНК всё равно тоже пришлось бы резать, поэтому основная проблема — пометить отрезки, чтобы после чтения их можно было собрать в первоначальном порядке. Принимая во внимание механическую, термическую, химическую хрупкость ДНК (отклонение от комфортных для белковой жизни условий сказывается на сохранности нуклеотидных цепочек губительно), необходимо принять меры и для коррекции ошибок. Всё это заставляет помечать отрезки порядковыми номерами и подвергать помехоустойчивому кодированию (например, кодом Рида-Соломона — тем самым, который применяется, в частности, для оптических дисков).

Последнее достижение, о котором сейчас трубит научная пресса, связано как раз с защитой от неблагоприятных воздействий и принадлежит швейцарским учёным. Они научились обёртывать отрезки ДНК-спирали в нанометровых размеров защитную оболочку из кварцевого стекла. Таким образом удалось, сохранив на ДНК рекордные 83 килобайта данных, прочитать их спустя неделю хранения при температуре 70 градусов Цельсия. При отрицательных температурах данные на таком накопителе сохранились бы на протяжении миллионов лет.

При всей сенсационности, эта работа даёт представление о том, как далеки мы от использования ДНК в качестве искусственного накопителя. Писать в ДНК — всё ещё очень медленное и дорогое удовольствие: запись вышеупомянутых восьми десятков килобайт встала в полторы тысячи американских долларов. Читать из ДНК — удовольствие столь же медленное и дорогое: чтение человеческого генома (длина которого, грубо, измеряется в гигабайтах) хотя бы за тысячу долларов пока остаётся мечтой. К тому же читать можно только файл целиком, доступ к произвольной ячейке организовать удастся лишь после того, как мы научимся читать ДНК единой лентой, без разделения на фрагменты. Но по крайней мере ДНК легко копируется, а это в свою очередь позволяет оптимистам рисовать следующую заманчивую картинку недалёкого будущего.

Итак, представьте, что себестоимость записи и чтения спирали ДНК упала на несколько порядков (к тому идёт). Узнать собственный геном и определить свою предрасположенность к опасным заболеваниям теперь — дело пяти минут и одного визита к врачу. Но теперь грех не применить ДНК и в качестве идеального накопителя. Файл X записывается на ДНК-спираль и (в биореакторе размером со среднюю кастрюлю) тиражируется миллионами миллионов копий. Каждая из них обёртывается защитной оболочкой (хотя бы и по методу, предложенному швейцарцами), после чего помещается в некую инертную жидкость, сливается в пробирку и отправляется, например, в морозильную камеру, где сможет пролежать сотни лет. Или в подземное хранилище на полюсах, где пролежит миллионы.

Не слишком практично? Не слишком. Семейный фотоархив так хранить вряд ли кто-нибудь станет. Однако ёмкость и гарантированная технологическая зрелость такого накопителя позволяют решить с его помощью задачу куда более масштабную и, в общем, важную для цивилизации: организовать архив всей накопленной человеком информации.

ДНК-архив способен вместить всё, вплоть до самых мелких личных страничек и мгновенных сообщений, практически каждый бит, сгенерированный человечеством. Всё то, что влияет на нас, но нигде не сохраняется, и без чего восстановить ход событий для потомков будет невозможно (эту проблему называют цифровой амнезией). Гарантом сохранности станет сама природа: механизм записи и чтения спирали ДНК не изменился за миллиарды лет — значит, хватит и на наш век!

P.S. В статье использованы иллюстрации Heino Boekhout, Miki Yoshihito, Petra B. Fritz.

Что будем искать? Например,ChatGPT

Мы в социальных сетях