Важнейший актив любой современной компании – это её данные. Их потеря или искажение может произойти в любой момент по множеству причин. Фатальными могут стать последствия технического сбоя оборудования, ошибки в работе легитимных программ или запуск вредоносных, последствия сетевой атаки или влияние человеческого фактора. Чем больше хранится и обрабатывается на предприятии данных, тем сложнее его ИТ-инфраструктура, и тем выше вероятность отказа хотя бы одного узла сети в каждый момент времени.
Универсальным средством защиты данных считается их резервное копирование. Квалифицированный системный администратор знает, как с помощью встроенных утилит и сторонних программ создавать инкрементный и дифференциальный бэкап серверов и рабочих станций, отдельных каталогов, дисков и RAID-массивов. Однако с ростом масштабов количество в какой-то момент переходит в качество. Традиционные для домашнего использования и малых офисов решения оказываются малоприменимы в сфере Big Data из-за того, что не рассчитаны на оперативное управление петабайтами резервных копий. Для этого требуются принципиально иные подходы.
По мере роста объёмов главной проблемой становится низкая скорость всех операций с данными. С аппаратной стороны решения очевидны. Узкие места устраняются при помощи оптоволоконных сетей с высокой пропускной способностью, многоядерных процессоров с поддержкой новых инструкций и массивов твердотельных накопителей вместо медленных жёстких дисков. Однако гораздо важнее здесь программная оптимизация, устраняющая лишнюю нагрузку и снижающая системные требования.
На практике данные часто становятся «большими» из-за их избыточности. Особенно это актуально для виртуальных машин, каждая из которых хранит однотипный набор файлов гостевой ОС и стандартных приложений, общие программные компоненты и библиотеки. Снизить объём резервных копий в разы и ускорить время их создания помогают технологии дедупликации. На уровне Big Data они должны быть сквозными – то есть обеспечивать автоматическое устранение избыточности в копиях со всех узлов, имеющих централизованное управление.
Решают эту задачу специализированные программно-аппаратные комплексы, которые могут быть реализованы непосредственно у клиента, или предоставляться как услуга. В первом случае речь идёт о масштабируемых системах класса PBBA (purpose-built backup appliance), использующих для резервного копирования дополнительное серверное оборудование. Во втором варианте обслуживание осуществляется по модели BaaS (backup as service) с использованием облачных технологий. Иногда применяются оба варианта, дополняя возможности друг друга.
Среди современных решений для резервного копирования «больших данных» можно выделить EMC Isilon, Commvault Simpana, NetApp SnapVault и Symantec NetBackup. Все они предлагают высокий уровень производительности за счёт интеллектуальных подходов к процессу периодического создания резервных копий и рассчитаны на системы хранения данных с интенсивной нагрузкой.
По данным IDC, наибольший практический опыт в этой сфере накоплен у Symantec. Свыше двух миллионов компаний во всём мире применяют NetBackup, помогая совершенствовать методы восстановления физических и виртуальных сред. К примеру, часто из резервной копии требуется восстановить отдельные файлы. В обычном случае для этого пришлось бы последовательно считать весь бэкап, а затем распаковать его как архив, пропустив при извлечении все файлы, кроме нескольких выбранных.
Реализованная в NetBackup технология V-Ray обеспечивает возможность оперативно и выборочно восстановить нужные файлы. Она эффективно выполняет дедупликацию и распределение заданий, а также автоматически подключает к системе резервирования новые виртуальные системы. В результате снижается общая нагрузка на сеть и время выполнения всех операций обслуживания копий.
Сторонние решения для интеллектуального управления процессом автоматического резервирования могут взаимодействовать с NetBackup при помощи API OST (OpenStorage Technology). Например, Sepaton S2100-ES3 выполняет резервное копирование со скоростью 80 ТБ/час без заметного снижения производительности сетевой системы хранения данных.
К политике управления резервными копиями предъявляются жёсткие требования. В частности, они должны храниться в зашифрованном виде для защиты конфиденциальных данных, гарантии их целостности и подлинности. Современные комплексы резервного копирования выполняют прозрачное шифрование бэкапов по алгоритму AES (Rijndael) с длиной ключа 128 или 256 бит. Ускорение этой ресурсоёмкой процедуры на аппаратном уровне достигается за счёт использования отдельного набора инструкций AES-NI. Он интегрирован в ядро современных процессоров Intel и AMD, но может быть задействован только при наличии соответствующей поддержки со стороны программного обеспечения.
Различные оптимизации процессов резервного копирования появляются постоянно. Для их внедрения порой требуется не просто использовать новую версию программы, а установить дополнительное серверное оборудование. Приобретение новых компонентов может оказаться столь же затратным шагом, как и использование старых схем создания бэкапов. Первые требуют существенных вложений, а вторые приводят к ежедневным потерям денег и времени. Поэтому общая тенденция крупных компаний – миграция от персональных систем класса PBBA в сторону аутсорсинга ИТ-услуг резервного копирования по схеме BaaS.