Зачем нужен Monitoring and Еvent Management и как ITSM-системы позволяют эффективно реагировать на события в IT-инфраструктуре

В IT-среде крупных корпораций системы мониторинга за минуту могут создавать тысячи инцидентов, потому что неизбежно ломаются компьютеры, принтеры, выходят из строя серверы, перестает работать ПО, IT-услуги становятся недоступными. Задача специалистов IT-отделов — оперативно отработать все инфраструктурные инциденты и восстановить доступность IT-услуг. Но помимо реальных событий, требующих незамедлительных действий, есть ложные, которые не требуют оперативной реакции. Такие спам-инциденты перегружают ITSM-систему, снижают эффективность сотрудников и качество услуг.

В этом материале мы рассказали, что такое практика Monitoring and Event management, зачем управлять событиями и как ITSM-системы позволяют эффективно их обрабатывать.

Что такое Monitoring and Event Management

Практика «Управление событиями и мониторинг» обеспечивает автоматизированный процесс управления и мониторинга событий, которые проходят через IT-инфраструктуру: прием сообщений о событиях из систем мониторинга, накопление, корреляция событий на основе преднастроенных правил, выделение важных событий и осуществление реакции на них.

Например, есть поставщик IT-услуг (IT-отдел) и ITSM-система, в которой автоматизированы процессы управления событиями. В типовом случае, если происходит сбой, то пользователь создает инцидент в системе, специалист IT-отдела берет его в работу, решает неисправность и закрывает запись.

Чтобы фиксировать инциденты проактивно, не дожидаясь жалоб пользователей, специалисты IT-отдела обычно подключают системы мониторинга к ITSM-системе и работают с инфраструктурными инцидентами. Но не все события IT-инфраструктуры требуют реакции. Например, кратковременные потери доступности, пиковые нагрузки на одном из серверов или обычные события, на которые необходимо реагировать, только когда их становится аномально много (слишком частые попытки авторизации или резкое повышение очередей сообщений).

Если принимать все события без предварительного анализа, то ITSM-система будет перегружена ложными инцидентами, а первая линия поддержки не справится с потоком записей. У сотрудников может упасть мотивация к работе, потому что им придется реагировать на ложные события в ущерб обработке действительно важных  инцидентов, которые требуют пристального внимания. Поэтому важно настроить правила обработки событий, чтобы большую часть работ по реализации практики ITSM-система выполняла автоматизировано, без привлечения сотрудников.

В каких областях применима практика «Управление событиями»

Практику «Управление событиями» можно применять к аспектам любых услуг, которые необходимо контролировать и можно автоматизировать:

  • элементы конфигурации. Коммутатор в сети должен всегда оставаться включенным;
  • условия окружающей среды. В помещении дата-центра обнаружен пожар и задымление;
  • мониторинг использования лицензий на программное обеспечение. Через месяц заканчивается действие лицензии на ПО и ее необходимо продлить;
  • физическая безопасность. На территории компании обнаружено незаконное проникновения;
  • обычная деятельность. Отслеживание производительности сервера.

Какие бывают события

Согласно библиотеке ITIL, все события можно разделить на три типа: информационные, предупреждающие и исключительные. У каждого есть свои особенности и роль в Event Management.

Информационные события передают сообщения пользователям и чаще всего не требуют от них никаких действий. Например:

  • запланированная рабочая нагрузка завершена;
  • электронное письмо дошло до получателя.

Предупреждающие события означают необычную ситуацию. Она может как устраниться сама собой, так и потребовать вмешательство службы поддержки. Например:

  • загрузка памяти сервера достигает 5% от максимально допустимого уровня производительности;
  • время завершения транзакции на 10% больше обычного.

Исключительные события указывают на ненормальную ситуацию, для устранения которой требуются активные действия службы поддержки. Например: 

  • сервер, который обеспечивает работу IT-услуги, стал полностью недоступным;
  • загрузка процессора устройства превышает допустимый уровень;
  • сканирование ПК выявляет установку несанкционированного ПО.

Каждое событие, независимо от своего типа, может быть как реальным инцидентом, который требует реакции специалистов службы поддержки, так и ложным. Поэтому успешность применения практики Monitoring and Event Management напрямую зависит от корректной настройки правил корреляции событий.

Почему важно управлять событиями

Предварительную обработку событий в теории можно возложить на систему мониторинга, но в реальности у многих систем ограниченная функциональность. Поэтому в ITSM-системах, таких как зарубежная Servicenow или российская SimpleOne, есть специальные модули, которые позволяют:

Обнаруживать инциденты на ранней стадии

Часто система может обнаружить инцидент до того, как он негативно повлияет на работу IT-инфраструктуры. Это необходимо, чтобы сотрудники быстро приняли меры и предотвратили простои и финансовые потери компании.

Предоставлять качественные услуги

Раннее обнаружение инцидентов и их решение позволяют бизнесу предоставлять качественные услуги клиентам. Например, если в банкомате заканчиваются наличные, то в системе появится инцидент и сотрудники компании быстро решат эту проблему.

Настраивать правила

Можно самостоятельно настраивать правила, чтобы система производила корреляцию событий, т.е. автоматически определяла тип событий, оценивала их на соответствие правилам и принимала решение: игнорировать, создать, деактивировать, обновить количество обращений или отправить событие на повторную проверку.

Уменьшать количество спам-инцидентов

Фильтрация событий позволяет применять механизм защиты «антидребезг» и создавать только реальные инциденты, которые требуют активных действий от специалистов службы поддержки.

Анализировать инциденты

При подключении модуля все события хранятся централизованно в ITSM-системе, поэтому менеджер инцидентов или другие ответственные за процесс сотрудники IT-отдела могут видеть общую картину по инцидентам, анализировать информацию и фильтровать ее по разным параметрам: дате, времени и т.д.

Повышать эффективность сотрудников

Уменьшение ложных инцидентов помогает специалистам освободить время для работы над событиями, которые непосредственно влияют на работу IT-инфраструктуры, увеличить эффективность и качество своей работы.

Как работают модули для управления событиями

Разберем процесс управлениями событиями по шагам на примере модуля «События и мониторинг», который появился в новом релизе российской ITSM-системы SimpleOne.

Пошаговая схема работы модуля Monitoring and Event Management в ITSM-система SimpleOne

1. Получение «сырых» сообщений от системы мониторинга

Системы мониторинга собирают информацию о процессах, которые происходят в IT-инфраструктуре. Например, произошла внезапная пиковая нагрузка сервера. Каждая из них отправляет сообщение с сырыми неструктурированными данными на end-point платформы SimpleOne в виде POST запроса.

Для обработки сообщений система использует механизм импорта данных, который уже реализован в платформе SimpleOne. После получения сообщения происходит сверка атрибутов на соотвествие преднастроенному набору значений нескольких атрибутов (составной ключ).

Настройка атрибутов, получаемых из сырых данных, и выбор тех, которые будут использоваться в качестве составных ключей

Данные атрибуты — уникальные идентификаторы, определяющие объект, о котором система мониторинга отправляет сообщение. Это может быть атрибут с ID или комбинация нескольких атрибутов. Если ранее приходили подобные сообщения, то им присваивается тот же ключ. Если их не было, то создается новый.

Механизм импорта данных преобразует сырые данные в запись таблицы сообщений. Данные в их исходном или преобразованном скриптами виде переносятся из атрибутов источника в целевые колонки. В созданную запись сообщения добавляется ссылка на ключ.

Настройка соотношения полей для импорта данных. Определяет соотношение полей источника мониторинга и целевой таблицы

2. Обработка по правилам мониторинга

Каждое сообщение система проверяет на соответствие правилам мониторинга и на наличие ранее созданных событий с таким же ключом.

3. Корреляция событий мониторинга

  • Если ранее созданного события нет, то при несоответствии условиям правила система игнорирует сообщение системы мониторинга, а при соответствии — создает новое событие.
  • Если существует ранее созданное событие, то при несоответствии нового сообщения условию правила событие деактивируется.
  • Если сообщение удовлетворяет условию правила мониторинга, то в существующем событии обновляется количество обращений.

4. Выполнение правил события мониторинга

Система проверяет тип события и в зависимости от него применяет разные наборы условий для дальнейшей обработки. Если событие соответствует правилу, то для него наступает период «антидребезга», то есть отложенная повторная проверка, чтобы не создавать реакцию на случайные и единичные события. Так как за это время событие может быть деактивировано и реакция уже не потребуется.

5. Повторная проверка

После того, как период «антидребезга» прошел, система проверяет событие повторно на соответствие этому же правилу. Если условия правила все еще соблюдаются, то событие неслучайное и требует реакции. Если же нет — реакция отменяется.

6. Выполнение итоговых действий

Для событий, которые прошли все предыдущие этапы, выполняются все заданные необходимые действия: создание записи, обновление записи или выполнение пользовательского скрипта.

Карточка инфраструктурного инцидента с результатом работы модуля «События и мониторинг»

Вывод

Функциональность современных ITSM-систем позволяет автоматически анализировать события, отсеивать ложные и создавать реальные инциденты, которые требуют быстрой реакции IT-отдела. С помощью специальных модулей бизнес может не только контролировать работу IT-оборудования и ПО, но и спасать жизни сотрудников в случае задымленности или пожара в помещении.

Сейчас представители среднего и крупного бизнеса столкнулись с уходом зарубежных вендоров с российского рынка, прекращением обновления их продуктов и приостановкой технического обслуживания. Поэтому большинство пользователей иностранных решений, таких как ServiceNow, в ближайшее время планирует мигрировать на аналогичные российские системы с похожей функциональностью.

В качестве альтернативы на российском рынке представлена ITSM-система SimpleOne, которая входит в реестр отечественного ПО Минцифры. Модуль «События и мониторинг» включает в себя лучшие практики ITIL и позволяет интегрировать SimpleOne с любой системой активного мониторинга (AMS), поддерживающей интеграцию по REST API. С его помощью компании смогут забыть о спам-инцидентах и освободить время специалистов службы поддержки для решения важных событий IT-инфраструктуры.

Что будем искать? Например,ChatGPT

Мы в социальных сетях