Проблема на миллион долларов: сколько стоят аварии в ЦОДах

В «Облаках и ЦОДах» мы, с основном, говорим о технологиях, которые так или иначе развивают рынок, меняют его, выводят на новый уровень. Делают дата-центры быстрее, меньше и мощнее. Примеров подобных чудес сегодня масса — от ARM-чипов и жёстких дисков, наполненных гелием, до жидкостного охлаждения и различных уровней программной определяемости. Конечно, большинство новых технологий оказывается удовольствием достаточно дорогим, так что каждый оператор сам для себя решает, в какую часть дата-центра вкладывать больше денег, а в какую — меньше. Но на чём точно не стоит экономить, так это на системах, определяющих надёжность ЦОДа.

Собственно говоря, средняя надёжность российских ЦОДов увеличивается, а время простоя уменьшается. Об этом красноречиво свидетельствуют сертификаты международных институтов, выдаваемых нашим операторам дата-центров. Однако время простоя или отказа дата-центра — это величина, которую всегда следует закладывать в расходы, причём как операторам ЦОДов, так и клиентам, арендующим что-либо в коммерческой инфраструктуре.

То, что время простоя — наиболее критичный параметр работы ЦОДа и одна из самых больших статей расходов, подтвердили недавно исследователи Emerson Network Power. Были опрошены 584 человека, занимающихся в своих компаниях непосредственным управлением дата-центром, и выводы оказались неутешительными. Деньги, которые ежедневно теряют операторы ЦОДов на простоях, — это совершенно немыслимые суммы. Такие цифры, конечно, отрезвляют. Но лишь для того, чтобы понять, каким образом их можно уменьшить.

Формально исследование проводили не специалисты Emerson, а сотрудники Ponemon Institute. Emerson является партнёром, который спонсирует это сложное исследование регулярно. Правда, регулярность тут понятие несколько условное: предыдущее исследование «Cost of Data Center Outages» проводилось в 2010 году. С другой стороны, в Ponemon Institute потрудились сравнить показатели и отследили, как они изменились за прошедшие три года.

Фактически исследование поделилось на две части. В первой части было опрошено 450 управляющих ЦОДами на предмет частоты происшествий и ключевых причин проблем в дата-центрах. Вторую часть было решено сегментировать несколько иначе — анализировались 67 дата-центров (не менее 200 квадратов полезной площади в каждом), чтобы понять структуру и величину затрат, возникающих при авариях в ЦОДах.

Судя по всему, по мере развития технологий и укрупнения ЦОДов увеличение расходов, связанных с происшествиями и остановками в дата-центрах, является закономерным. И это, пожалуй, первая плохая новость на сегодня: средняя стоимость минуты простоя в крупном ЦОде выросла на 41% по сравнению с 2010 годом и составляет теперь $7 900. Чтобы ощутить, насколько на самом деле велика эта цифра, достаточно узнать, что дата-центр средней надёжности простаивает около 119 минут в год, и это генерирует потери в $901 500. Вдумайтесь только: около миллиона долларов недополученной прибыли в год! Строго говоря, немного меньше миллиона, поскольку в стоимость простоя входит и восстановление, однако это не сильно облегчает проблему. При этом частичные остановки ЦОДа, то есть аварии на уровне отдельных серверов или стоек, прибавляют ещё 56 минут ко времени простоя, что запросто добавляет к имеющимся девяти сотням тысяч ещё $350 400. Конечно, ЦОД уровня TIER IV простаивает не более 24 минут в год ($189 600 в пересчёте на недополученную прибыль), но приведённые в исследовании цифры являются усреднённым показателем для 67 дата-центров, уровень сертификации которых, увы, не указывается.

Однако есть и хорошие новости. Цена времени простоя ЦОДов возросла, но вместе с технологическим усовершенствованием их длительность значительно сократилась. Разумеется, большая часть опрошенных отметила, что у них случались аварии за последние два года, с момента прошлого опроса: 91% респондентов отметили те или иные происшествия в ЦОДах. В 2010 году об авариях в ЦОДах сообщили 95% ИТ-профессионалов, а четыре процента в пересчёте на доллары США — это весьма немалая сумма, даже в масштабах американского рынка дата-центров.

В среднем в корпоративных инфраструктурах и у операторов было не менее двух полных отключений ЦОДа, а также около шести частичных (на уровне серверов или стоек) и одиннадцати мелких происшествий. С 2010 эти показатели опять-таки сократились, что не может не радовать. Три года назад в отчёте Ponemon Institute говорилось о двух с половиной полных отключениях, 7 частичных и 10 мелких происшествиях в ЦОДах исследуемых компаний.

От неприятных цифр переходим к причинам, которые и спровоцировали подобные показатели. Исследователи потрудились пересчитать ключевые причины в денежном выражении, чтобы акцентировать внимание на наиболее опасных и дорогих источниках проблем. Итак, сложности с ИТ-оборудованием обходятся в среднем в $959 тыс. (здесь и далее имеется в виду «средний чек», то есть сумма недополученной прибыли и расходов на восстановление), последствия кибер-преступлений оцениваются в $882 тыс., провалы систем бесперебойного питания обходятся в $478 тыс., аварии систем охлаждения стоят $517000 в год, перебои в работе генераторов — в $501 тыс., погодно-климатические условия генерируют проблем на $436 тыс., а человеческий фактор — на $380 тыс. У названных происшествий тоже есть свои причины, но о них нетрудно догадаться, просто исходя из самих источников проблем. Гораздо более примечателен тот факт, что 83% респондентов сталкивались с каждой из этих проблем за последние два года. При этом 52% ИТ-профессионалов считают, что большую часть причин из этого списка можно устранить. Вопрос в том, почему же не устраняют.

Причин может быть масса. Одна из них в том, что я уже упомянул — в скорости развития технологий. И эта скорость зачастую несопоставима с уровнем подготовки специалистов. Да, человеческий фактор находится на последнем месте в списке причин аварий в ЦОДах, однако неисправность оборудования, кибер-преступность, отказ UPS-систем — все это находится в зоне ответственности ИТ-персонала, занимающегося обслуживанием центра. Как неизбежное зло стоит воспринимать разве что климатические условия: на них мы объективно не можем повлиять. Но все остальное в руках сотрудников ЦОДов, а это значит, что большинство проблем действительно можно предотвратить.

Говоря о предотвращении потерь, связанных с авариями в дата-центрах, замечу, что в Ponemon Institute не остались голословными и предложили комплекс мер, посредством которых можно решить значительную часть проблем.

Установить доступность ЦОДа как главный приоритет, стоящий превыше стандартных для индустрии установок на сокращение издержек и увеличение энергоэффективности.
Изучать и использовать все лучшие практики отрасли по проектированию ЦОДов и способам резервирования данных.
Заложить определённый бюджет и человеческий капитал на восстановление в случае незапланированного простоя.
Регулярно осуществлять проверку генераторов и коммутационного оборудования, чтобы быть уверенными в наличии аварийного питания.
Регулярно тестировать или мониторить состояние UPS-системы.
Внедрить процесс управления инфраструктурой ЦОДа (DCIM).

Вот и получается «список на миллион долларов»: если последовать этим советам, то количество аварий значительно сократится — а значит, и бюджет останется в компании.