Гиперконвергентная система NetApp HCI — обзор, разбор, настройка и краш-тест

NetApp HCI — гиперконвергентное решение корпоративного уровня, которое объединяет в себе вычислительные ресурсы и ресурсы хранения на базе all-flash-накопителей. Наиболее подходящий сценарий для применения NetApp HCI — развертывание гибкой, быстро масштабируемой ИТ-инфраструктуры в публичном, частном или гибридном облаках.

Рассмотрим архитектуру NetApp HCI подробно: покажем, чем это решение отличается от других гиперконвергентных платформ, проведем анбоксинг устройства, настроим и развернем HCI, а также расскажем о результатах краш-теста платформы в лаборатории #Techlab.

Гиперконвергенция особого рода

Фото: netapp.сom

NetApp HCI, как и большинство решений подобного класса, построено на базе серверов стандартной архитектуры и программного обеспечения, которое объединяет эти серверы в отказоустойчивый «эластичный» кластер с собственным интегрированным и масштабируемым уровнем хранения. Однако у NetApp есть одно принципиальное отличие от других HCI. Согласно классификации International Data Corporation (IDC), архитектура системы относится к типу дезагрегированных гиперконвергентных решений. То есть роли хранения и виртуализации в NetApp HCI физически разделены.

На заре рынка гиперконвергенции хранение данных, вычисления и даже коммутация были реализованы в одном железе. То есть: брали гипервизор, устанавливали его на несколько «железных» серверов — а функциональность хранения разделяли между виртуальными машинами (ВМ), которые для отказоустойчивости разносили по серверам. Самое сложное при таком подходе — обеспечить не только отказоустойчивый, но и высокопроизводительный общий слой хранения. Потому что ВМ на традиционном HCI не могут напрямую обращаться к СХД, они обращаются к виртуальному кластеру, который работает с ВМ на одном железе и конкурируют за одни и те же аппаратные ресурсы и сеть.

Перечислим главные составляющие в подходе HCI, общие для всех архитектур:

Простота развертывания системы: весь кластер разворачивается как единое целое, под одним управлением и в своем развернутом состоянии не требует дополнительной «досборки»
Апгрейды выполняются так же просто, как и первоначальное развертывание (а иногда и проще)
Удобный графический интерфейс: администратор управляет виртуализацией и хранением из единого, хорошо знакомого интерфейса, со всеми интегрированными в него опциями типа VVOLs, VAAI, защиты данных и т. п.

Теперь — об отличиях подхода к HCI у NetApp:

1. SolidFire. Кластер хранения реализован на основе проверенного SDS-решения SolidFire на базе операционной системы Element OS. Это софт для развертывания all-flash scale-out СХД на базе серверов стандартной архитектуры, на котором построена инфраструктура хранения у ряда топовых облачных провайдеров.

2. Element OS не стали устанавливать на виртуальные машины, чтобы не создавать bottleneck’и, а выделили для них узлы целиком. Узлы объединяются по высокоскоростной сети 10/25 Гбит/с. Получился высокопроизводительный отказоустойчивый SDS-кластер хранения, который способен выдерживать экстремальные нагрузки и обеспечивать гарантированную производительность в высококонкурентной среде, не обделяя при этом вычислительные узлы.

3. VMware. На вычислительные ноды предустанавливается гипервизор лидера отрасли VMware. Бонус: при лицензировании vSphere не приходится платить так называемый «налог на HCI» — ядра узлов хранения не требуют лицензии гипервизора. Это позволяет развязать масштабирование ресурсов и добавлять емкость, не покупая лицензии и ненужные ядра. При этом комплекс HCI работает как единый организм.

4. NetApp Deployment Engine — специальный движок, который отвечает за развертывание кластера и позволяет запустить весь комплекс настолько быстро насколько это возможно. Управление кластером осуществляется через знакомый всем vCenter и специальный плагин NetApp HCI, который содержит исчерпывающий набор функций для управления.

Основные преимущества такого подхода:

простота настройки HCI и единое управление: многие инженеры уже знают, как работать с виртуализацией от VMware, поэтому HCI не вызовет у них особых трудностей
гибкость и масштабируемость: потребности дата-центра не растут линейно, ни одному приложению не требуется одновременно и вычислительные ресурсы, и ресурсы хранения в четко определенном соотношении, как это происходит у конкурентов
Предсказуемая гарантированная производительность без привязки и расположению данных — благодаря умному механизму QoS в SolidFire. Плюс к этому инлайн-дедупликация, инлайн-компрессия, фоновые пост-процессы — работают всегда и никак не лицензируются

Минус такого подхода — высокая точка входа: для старта необходимо как минимум 4 узла хранения и 2 узла для вычислений.

Обзор компонентов NetApp HCI

Для наглядности рассмотрим два разных форм фактора. Один — четырехузловое шасси, другой — самостоятельный рэковый узел в собственном шасси. В комплекте также идет пара Ethernet-коммутаторов Mellanox SN2010 для объединения узлов в кластер.

Вычислительные ноды

Ноды устанавливаются в 2-юнитовое шасси. В шасси два общих блока питания и четыре слота под сами узлы. Внутри — сервер x86 в компактном исполнении, два современных процессора Intel, 16 слотов под оперативную память, 4 сетевых порта SFP+, два медных порта 10 Гб и один интеллектуальный интерфейс IPMI.

IPMI подключать необязательно, но он существенно экономит время, т. к позволяет выполнять lights out операции по перезагрузке, управлению питанием, заливке новой прошивки в режиме out-of-band.

Медные порты RJ45 используются для out-of-band управления. Это ссобенно важно для управления хранением. Для отказоустойчивости все порты дублированы.

По процессорам и памяти есть различные конфигурации: от 8 до 40 ядер и от 384 Гб до 1 ТБ памяти на сервер.

Подключение сервера гибкое — поддерживаются варианты от 2 до 6 кабелей.

Выбор зависит от размера ноды и требований по разделению различных видов трафика (managment, storage, трафика виртуальных машин и vMotion).

Также имеется boot-девайс, на котором хранятся все необходимые образы для установки гипервизора ESXi последних редакций, vCenter и Netapp Deployment Engine — чтобы всё происходило максимально просто, без участия администратора.

Для решения задач, которые требуют применение графических ускорителей — например, VDI или искусственный интеллект, есть ноды в виде 1- и 2-юнитовых серверов c графическими процессорами Tesla M10 и Turing T4.

Узел хранения

Узел хранения — 1-юнитовый рэковый сервер. В России доступно три варианта конфигурации по 12 NVMe-накопителей в форм-факторе U.2, но разного объема — 960 Гб, 1,92 ТБ и 3,84 ТБ.

В зависимости от конфигурации установлены разные процессоры и разный объем оперативной памяти. Поскольку в нашем случае нода с накопителями по 1,9 ТБ — под радиаторами стоят 14-ядерные процессоры и 512 Гб памяти. Эти ядра и память целиком отводятся под функции хранения, гарантируют производительность не менее 100 тыс. IOPS при времени отклика меньше миллисекунды. Это позволяет NetApp HCI обеспечивать качество сервиса (QoS), которого не достигает ни одна другая гиперковергентная платформа. При этом гипервизорные лицензии на ядра не требуются.

В рамках одного кластера можно смешивать ноды с разными дисками и даже разных поколений. Главное отличие от просто сервера с дисками — в том, что NVDIMM-модули выступают в роли NVRAM. Суммарно на сервер здесь отводится 32 Гб энергонезависимого кэша на запись для снижения задержек и для повышения производительности всей системы. Данные туда попадают уже сжатыми и передаются на NVRAM других нод кластера перед тем, как отправить подтверждение хосту об успешной записи.

Сзади всё стандартно: два блока питания, два 25 Гб порта, два медных гигабитных под management и один IPMI.

Коммутация

Для подключения любых нод требуется 10 или 25Gb Ethernet-сеть. Можно использовать уже имеющиеся коммутаторы. NetApp предлагает коммутаторы Mellanox SN2010, на борту у которых 18 портов SFP+ 10/25Gb и 4 порта QSFP 40/100Gb.

Конфигурация Mellanox несложная и генерируется в нужном виде в зависимости от сценария развертывания и количества узлов. Отличительной особенностью также является форм-фактор половинной ширины, т. е. пара коммутаторов занимает всего 1U.

Настройка NetApp HCI

Процесс настройки и развертывания HCI упрощен и во многом автоматизирован. Порядок такой:

— После принятия пользовательского соглашения, выбираем версию гипервизора и vCenter

— Задаем логин и пароль

— Выбираем топологию сети

— Узлы должны определиться автоматически

— Задаем сетевые настройки узлов — DNS и NTP-серверы, IP-адреса

— NetApp Deployment Engine проверяет корректность сетевых настроек

— После этого запускаем HCI

Развертывание происходит в несколько этапов. Сначала настройки «разливаются» по всем узлам кластера. При этом изменяется IP-адрес узла, на котором выполняется развертывание.

Тем временем, остальные узлы также изменяют свои настройки — на них разворачивается кластер хранения. Процесс недолгий: даже на большом количестве узлов кластер хранения настраивается за несколько минут.

После чего запускается гипервизор — процесс тоже полностью автоматический. Далее можно развернуть vCenter, подключив к нему серверы. Стоит обратить внимание, что в процессе установки vCenter на него же устанавливается Element Plug-in, который превращает vCenter в единую консоль управления всем HCI-комплексом. На завершающем этапе настраивается Distributed Switch, чтобы виртуальная инфраструктура была полностью готова к работе.

Выходим на финишную прямую. Разворачиваем Management Node, которая отвечает за мониторинг, управление и централизованные сервисные операции — такие, например, как обновление прошивки. Финиш.

Масштабирование

В дальнейшем, если возникнет потребность модернизировать HCI, развернуть на ней дополнительные облачные сервисы, сделать это будет так же просто.

Интеграция

NetApp известен файловым доступом на классических системах хранения FAS. В то время как «под капотом» HCI — SolidFire, исключительно блочное хранилище. Возможна ли интеграция между этими решениями? Разумеется.

Во время настройки NetApp HCI, и конкретно файловых сервисов, можно выбрать опцию Data Fabric, которая и открывает возможность установки дополнительных файловых сервисов.

Большинство заказчиков NetApp HCI — это уже «взрослые» компании, у которых своя инфраструктура, в том числе системы хранения NetApp. Платформа NetApp HCI без проблем интегрируется в существующую инфраструктуру. К примеру, можно настроить резервное копирование NetApp HCI на действующую систему FAS. Это позволяет сэкономить: большинство решений HCI могут организовывать катастрофустойчивую конфигурацию только с другой такой же системой, что подразумевает двукратное увеличение бюджета.

Краш-тест

В NetApp HCI практически всё задублировано: диски, узлы, коммутаторы. Даже если что-то из этого ломается, система продолжает работать.

Сбой дисков

Если в NetApp HCI выходит из строя диск, ему будет дано 5 минут на то, чтобы вернуться в нормальный режим работы. Если же за это время диск не появится в составе узла, начнется rebuild — информация будет восстановлена на другие диски. В процессе ребилда система испытывает краткосрочную просадку производительности.

Даже в случае когда жесткий диск вышел из строя, система не уходит в деградированное состояние — она восстанавливает свою избыточность методом «самоисцеления». Т. е. информация заново распределяется по оставшимся дискам, и продолжается нормальная работа (в отличие от традиционных массивов RAID).

В системе может выйти из строя не один, а несколько дисков — NetApp HCI будет поддерживать нормальную работу до тех пор, пока у нее есть место для восстановления избыточности данных. При этом потери данных не происходит.

После того как система закончила восстановление избыточности, мы можем вернуть диски на место (или заменить на новые), и система включит их в состав кластера хранения, перераспределив данные по всей имеющейся емкости.

Потеря связности внутри кластера

Порты NetApp HCI задублированы, поэтому потеря одного линка не приведет к сбою в работе кластера. Если будут потеряны два порта, и узел перестанет быть видимым для кластера, система начнет ребилд информации, чтобы предоставить избыточный доступ к данным на оставшихся узлах, после чего система полностью восстановится и сможет работать в нормальном режиме.

Вывод

NetApp HCI — гиперконвергентное решение, которое позволяет быстро масштабировать ИТ-инфраструктуру, соответствуя росту бизнеса. Возможность гибкой интеграции с существующими HCI-системами и СХД позволяет сэкономить и повысить управляемость инфраструктурой. Можно сказать, что NetApp HCI — это образцовая энтерпрайз-архитектура, надежность и производительность которой избавляют владельцев от компромиссных решений.

Полную видеоверсию анбоксинга и краш-теста NetApp HCI можно посмотреть на YouTube-канале ITGLOBAL.COM.