Big Data и реинкарнация магнитной ленты

Big Data / Технологии
автор: Андрей Васильков  07 марта 2014

Перспективные задачи порой дают второе дыхание устаревающим технологиям. На них опираются всякий раз, когда требуется проверенное годами решение. Так происходит сейчас и с применением кассет для хранения больших объёмов данных.

Магнитная лента впервые была использована для хранения программного кода на вычислительной машине UNIVAC в 1951 году. Активное использование кассет для хранения любой информации продолжалось до недавнего времени. Картриджи стримеров оставались одним из самых выгодных и надёжных вариантов хранения архивных копий.

Магнитная лента на ЭВМ UNIVAC (фото: briosolutions.com).

Магнитная лента на ЭВМ UNIVAC (фото: briosolutions.com).

Постепенно спрос на них снижался. Этому способствовало появление жёстких дисков со всё большей плотностью записи и низкой ценой. К 2008 году магнитная лента уже с трудом могла составлять конкуренцию дисковым массивам даже в специфических областях применения.

К 2012 году темпы снижения объёмов рынка ленточных накопителей составили 14% в год, и технологию уже мысленно хоронили. Однако тогда же случилось наводнение в Таиланде, которое продолжалось сто семьдесят пять дней. Среди затопленных индустриальных зон оказались и те, на которых выпускалась продукция для Western Digital, Seagate и Toshiba. Общее число производимых в мире жёстких дисков сократилось на четверть. Цены на них взлетели до 60%, а качество изготовления упало.

Примерно в то же время был запущен целый ряд долгосрочных научных проектов, генерирующих огромное количество данных. Если их обработку удобнее выполнять на массивах оперативной или флеш-памяти (IMDG / SSD), то оптимальный способ хранения определяется надёжностью и низкой себестоимостью. Вариантов организации последнего оставалось не так уж много.

Новые эксперименты CERN на БАКе, исследования в области генетики и радиоастрономии — всё это потребовало вновь искать оптимальные способы хранения информации. Так магнитная лента получила вторую жизнь.

Один только проект SKA будет ежедневно генерировать поток данных, превышающий совокупный объём трафика в интернете (изображение: SPDO/Swinburne Astronomy Productions).

Один только проект SKA будет ежедневно генерировать поток данных, превышающий совокупный объём трафика в интернете (изображение: SPDO/Swinburne Astronomy Productions).

Глава подразделения обработки и хранения данных CERN Альберто Пэйс (Alberto Pace) отмечает, что у современных роботизированных ленточных библиотек есть четыре преимущества по сравнению с массивами жёстких дисков.

Первое из них (как ни странно) — скорость. Да, роботу может потребоваться до срока секунд, чтобы только выбрать нужную кассету из архива и поместить её в считывающее устройство. Однако затем линейное чтение осуществляется в четыре раза быстрее, чем с сетевых дисковых хранилищ.

Второе — надёжность. Если магнитная лента порвётся, то её можно просто склеить за несколько секунд. При этом будут утрачены сотни мегабайт данных, но бόльшую часть удаётся автоматически восстановить за счёт избыточности. Когда из строя выходит жёсткий диск, то часто все терабайты данных на нём утрачиваются безвозвратно.

На конкретных цифрах это выглядит более наглядно. Общий объём данных CERN сегодня превышает 50 ПБ. Ежегодно из них утрачивается свыше ста терабайт по причине поломки жёстких дисков (бывает, что какой-то RAID-массив разрушается целиком). Менее гигабайта в год теряется из-за повреждений магнитных лент.

Ленточное хранилище данных в CERN (фото: hardware.slashdot.org).

Ленточное хранилище данных в CERN (фото: hardware.slashdot.org).

Третье — минимальное потребление энергии за счёт хранения в неактивном состоянии. Лента протягивается через магнитные головки только для операций чтения/записи, а бόльшую часть времени находится внутри картриджа. Поэтому ленточные накопители в десятки раз экономичнее массивов жёстких дисков при длительной эксплуатации.

Четвёртое — безопасность. Случайно или злонамеренно удалить все данные с жёстких дисков можно за несколько минут. Оператор просто не успеет заметить и остановить процесс, а восстановление потребует такого же объёма чистых жёстких дисков. Полное стирание всех кассет заняло бы месяцы, а потому скрыто сделать это практически невозможно.

Сотрудники научно-исследовательской лаборатории IBM в Цюрихе указывают ещё на два важных отличия. В настоящее время средняя стоимость хранения гигабайта составляет четыре цента для кассет и десять — для жёстких дисков. Вдобавок гарантированное время хранения кассет в шесть раз больше.

Картридж для стримера — пассивное устройство. Лежащая в архиве магнитная лента разрушается очень медленно. При адекватных условиях хранения она остаётся читаемой даже через тридцать лет. Жёсткий диск устроен гораздо сложнее. Его конструкция рассчитана на периодическую или даже круглосуточную работу. Длительное пребывание в неактивном состоянии приводит к нарушению функционирования его механической части. В пролежавшем более пяти лет диске при первом же включении может заклинить шпиндельный двигатель.

Обслуживание системы StorageTek (фото: bnl.gov).

Обслуживание системы StorageTek (фото: bnl.gov).

Конечно, недостатков у ленточных накопителей тоже хватает. Роботизированное хранилище требует обслуживания, а из-за малого времени произвольного доступа такие системы уже никогда не станут доминирующим (и тем более — единственным) вариантом. Однако кассеты по-прежнему занимают важное место в иерархической структуре хранения информации.

С «большими данными» сейчас сталкиваются не только в науке. Они проникают во все сферы жизни и активно внедряются в современные бизнес-процессы. Согласно отчёту Эндрю Лёна (Andrew Leung) из Университета штата Калифорния, около 90% информации на любом предприятии теряет актуальность через несколько месяцев. Эти данные ещё обладают ценностью, но вряд ли понадобятся в ближайшее время. Магнитная лента — идеальный вариант для их архивации.

Картридж Sony LTX2500G (фото: itdevicesonline.com).

Картридж Sony LTX2500G (фото: itdevicesonline.com).

Современные картриджи стримеров имеют ёмкость свыше шести терабайт при использовании максимальной степени сжатия, но этого всё равно недостаточно. Два года назад Fujifilm создала прототип кассеты ёмкостью 35 ТБ. Сейчас компания работает над способами увеличить объём одного картриджа до ста терабайт.

Поделиться
Поделиться
Tweet
Google
 
Читайте также
Дата-центр АНБ перегружен и не справляется с объёмом данных PRISM
Дата-центр АНБ перегружен и не справляется с объёмом данных PRISM
5D-память, или Как сохранить большие объёмы информации на века
5D-память, или Как сохранить большие объёмы информации на века
Кассеты ёмкостью 35 ТБ заменят жёсткие диски в перспективных хранилищах данных
Кассеты ёмкостью 35 ТБ заменят жёсткие диски в перспективных хранилищах данных
  • Dmitry Makashov

    Если бы вы разобрали LTO ленту, вы бы поняли что она не может порваться.
    Если лента порвется, то её склеивание ничем не поможет.
    Обычно полностью «битые» ленты всё таки выбрасываются.

    • Андрей Васильков

      Разобрать _ленту_ у меня вряд ли получится. Объясните свои соображения Альберто Пэйсу. Видимо, он до сих пор не знает и заставляет сотрудников своего отдела восстанавливать повреждённые картриджи. Полностью «битую» ленту вряд ли видели даже они.
      http://is.gd/cQFkz2

      • Dmitry Makashov

        разобрать ленту можно классической отверткой.
        Восстанавливаются поврежденные картриджи уж точно не склеиванием за пару минут

    • Кирилл Васильев

      Могу сфотографировать порванную ленту LTO-5, самопорванную, без внешних воздействий.

  • Роман Лактионов

    с такой плотностью записи, как на тридцати годах хранения скажется перемагничивание? явно, как-то решили, но как?

    зачем ХРАНИТЬ экзабайты raw data?

    also у левого чувака на верхнем фото шнобель срезало.
    http://www.loc.gov/pictures/item/97505507/

    • Бумбараш

      «шнобель срезало»
      В чорную дыру заглянул.

  • Я думаю, это тупиковая ветвь развития техники. Кто работал с магнитными лентами меня поймут.

Хостинг "ИТ-ГРАД"
© ООО "Компьютерра-Онлайн", 1997-2017
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.
«Партнер Рамблера» Почта защищена сервером "СПАМОРЕЗ" Хостинг "Fornex"