Даунтайм в десятую процента: почему зависают «облака» и правда ли дешевле хранить данные локально?

Минута, две, полчаса даунтайма: от такой неприятности не застрахован никто. Даже крупнейшие и старейшие из интернет-бизнесов периодически сталкиваются с неполадками, которые выбрасывают их из Сети. Но произошедшее в последние семь дней больше напоминает эпидемию, нежели череду случайностей. Один за другим, с разницей в сутки–двое, «упали» сайты и сервисы нескольких брендов мирового значения — оставив миллионы пользователей в недоумении, а партнёров и клиентов — не у дел. Самое время задуматься о гарантиях на аптайм…

Первой — устроив своеобразную прелюдию — ушла в офлайн газета New York Times. Веб-сайт одного из информационных столпов англоязычного Веба выключился 14 августа на два часа, и причина не установлена до сих пор. Предполагается, что это не было атакой: просто случайность (система рухнула буквально за минуты до планировавшейся рутинной проверки). Редакция держалась молодцом, сохранив даже чувство юмора (в редакционном «Твиттере» пообещали, что если починить сайт не удастся, то свежие материалы будут публиковаться в 140-символьном формате), что, впрочем, не помешало котировкам издательства рухнуть вниз, а конкурентам (в частности, Wall Street Journal) подсуетиться и переманить к себе часть аудитории, предоставив на ту же самую пару часов бесплатный доступ ко всем своим материалам.

Следующей стала Microsoft, потратившая всю вторую половину недели на попытки восстановить нормальную работоспособность почтовика Outlook.com, облачного накопителя SkyDrive и некоторых других популярных сервисов. Трое суток они пребывали в неадекватном состоянии, отшивая хоть не и всех, но большинство пользователей. Формальную причину поломки как будто установили (из-за нестыковок клиентского и серверного софта получилось что-то вроде самопроизвольного DDoS’а), но восстановительных работ это не ускорило: Outlook вернули в строй только на выходных.

И ещё до того, как Microsoft закончила свой ремонт, эстафету приняла Google. 17 августа «отключились» её центральный сайт и большинство сервисов: Gmail, Drive, Blogger, YouTube, прочие. На протяжении нескольких минут три четверти запросов к серверам Google возвращались с ошибкой. Что-то не работало совсем (поиск), что-то сохранило работоспособность отчасти (насчёт YouTube есть разные сведения), но — факт: по данным как минимум одного стороннего наблюдателя (GoSquared), число просматриваемых пользователями Сети веб-страниц в момент сократилось на 40%. К счастью, апокалипсис оказался недолгим: уже пять минут спустя Google вернулась к норме — однако причина случившегося осталась неизвестной.

Наконец, в этот понедельник блэкаут настиг крупнейшего интернет-ритейлера Amazon.com. И центральный сайт (по крайней мере для США и Канады), и облачные Amazon Web Services (компания, впрочем, настаивает, что их работа не прерывалась, просто возникли трудности с административным доступом) пробыли в отключке полчаса. И были возвращены к жизни опять же без упоминания причин.

Деловая пресса, взбудораженная невиданным стечением обстоятельств, бросилась оценивать ущерб, нанесённый простоем, но, погудев немного, сошлась на том, что он минимален. Amazon, считая по среднестатистическим продажам в минуту, недополучила около трёх миллионов долларов выручки. Google за пять минут недопоказала рекламы на полмиллиона. Всё это, как вы понимаете, едва заметно на фоне миллиардных квартальных оборотов. В случаях же с Microsoft и New York Times основной ущерб и вовсе логичней измерять не деньгами, а репутацией.

Сложней подсчитать убытки клиентов. Сколько, к примеру, потеряли компании, пользующиеся Google Drive, GMail или Outlook, оставшись совсем без или почти без почты и документов на срок от пяти минут до трёх суток?

Впрочем, давайте вернёмся к этому вопросу позже, а пока обратите внимание на странную деталь, объединяющую все перечисленные выше инциденты: причины их не разглашаются (и даже майкрософтовское объяснение кажется скорее PR-отпиской, нежели серьёзным обоснованием). Почему? Либо они ещё не установлены, либо компании не желают выносить сор из избы — выставляя в негативном свете свою ИТ-инфраструктуру. Ведь Amazon, Google, Microsoft — это не три сервера, посаженных на домашний интернет-канал. Google тратит на поддержание и расширение своей инфраструктуры почти полтора миллиарда долларов в квартал, Amazon — ещё больше! Их системы диверсифицированы, продублированы, оптимизированы на случай высоких нагрузок и непредвиденных обстоятельств — и, честно говоря, совершенно непонятно, как могли они разом взять и «сломаться», если слабые места, удар по которым приведёт к поломке сразу всей конструкции, должны отсутствовать у них по определению.

Google гарантирует для своего облака аптайм в 99,9%, что означает около восьми часов непредвиденного простоя в год (запланированные техработы сюда обычно не включаются). Amazon даёт гарантию уже на 99,95% аптайма в месяц. По факту и та и другая обеспечивают даже лучший результат. Достигается это фантастически сложными средствами. Та же Google принципиально держит только серверы собственной разработки с минимально необходимой конфигурацией (читайте: минимумом неизвестных дыр), хранит пользовательские данные в файловых системах с избыточным кодированием, распределёнными по дюжине дата-центров, разбросанных по всем континентам Земли, за исключением Антарктиды (кое-кто, впрочем, считает, что на самом деле гугловских дата-центров в разы больше, просто компания этого не афиширует). Так что ни пожар, ни землетрясение, никакой вообще локальный катаклизм теоретически не в состоянии ни повредить данные, ни тем более «выключить» сервисы Google.

Что ж, тот факт, что такие поломки всё-таки случаются, напоминает: идеал недостижим, даунтайм у облаков будет, и клиенты, от них зависящие, неизбежно будут страдать. Что, в свою очередь, подводит некоторый фундамент под утверждение: облакам никогда не достичь надёжности, сравнимой с локальными системами (только за последние полгода это мнение звучало в комментариях не раз). Но я предлагаю вам задуматься вот над чем. Перекроют ли убытки, причинённые несколькоминутным простоем, скажем, сервисов Google, тех расходов, которые необходимы, чтобы построить дома или в офисе ИТ-инфраструктуру, сравнимую с гугловской по надёжности (обеспечить те самые 99,9% рабочего времени)? Наверняка дешевле потерпеть.

И потом, согласитесь, девять из десяти рядовых компьютерных пользователей, столкнувшись с минутным зависанием их любимого веб-сайта, скорее всего, даже не поймут, где именно проблема. «Не работает интернет»? Позвонить провайдеру или сисадмину, перезагрузить компьютер. Ну а пока загрузится, сайт уже и починили.