Методы проактивного мониторинга информационных систем::Журнал СА 1-2.2018
www.samag.ru
     
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Наука и технологии
Подписка
Где купить
Авторам
Рекламодателям
Магазин
Архив номеров
Контакты
   

  Опросы
1001 и 1 книга  
12.02.2021г.
Просмотров: 10470
Комментарии: 11
Коротко о корпусе. Как выбрать системный блок под конкретные задачи

 Читать далее...

11.02.2021г.
Просмотров: 10903
Комментарии: 13
Василий Севостьянов: «Как безболезненно перейти с одного продукта на другой»

 Читать далее...

20.12.2019г.
Просмотров: 17794
Комментарии: 2
Dr.Web: всё под контролем

 Читать далее...

04.12.2019г.
Просмотров: 16344
Комментарии: 13
Особенности сертификаций по этичному хакингу

 Читать далее...

28.05.2019г.
Просмотров: 17140
Комментарии: 7
Анализ вредоносных программ

 Читать далее...

Друзья сайта  

Форум системных администраторов  

sysadmins.ru

 Методы проактивного мониторинга информационных систем

Архив номеров / 2018 / Выпуск №1-2 (182-183) / Методы проактивного мониторинга информационных систем

Рубрика: Наука и технологии

Без фото ДУБРОВИН М.Г., Тюменский государственный университет, Тюмень, dubrovin.mg@gmail.com

Без фото ГЛУХИХ И.Н., д. т. н., проф., Тюменский государственный университет, Тюмень, igluhih@utmn.ru

Методы проактивного мониторинга информационных систем

В статье отражена значимость применения методов проактивного мониторинга для оперативного определения и устранения критических и аварийных ситуаций в информационных системах, а также для прогнозирования их дальнейшего поведения. Изложены основные задачи проактивного мониторинга, а также дан тематический обзор работ, посвященных данному направлению

Введение

В настоящее время практически все современные организации и предприятия для автоматизации выполнения бизнес-процессов или процессов деятельности используют различные информационные системы разной сложности. Учитывая высокую стоимость информационных систем, а также существенные потери от простоев, вызванных сбоями в информационных системах, наиболее острым и принципиальным вопросом становится надежность функционирования применяемых средств. В связи с этим важной задачей в обеспечении надежности информационных систем является решение проблемы оперативности обнаружения аварийных и критических ситуаций и скорости их устранения.

Для обеспечения работоспособности информационных систем применяются различные автоматизированные системы мониторинга, заключающиеся в постоянном наблюдении и периодическом анализе объектов системы с отслеживанием динамики происходящих с ними изменений.

Согласно докладу ACFE от 2014 года, организации, использующие мониторинг и анализ данных в ИT-системах, снизили свои средние потери по сравнению с теми организациями, которые эти инструменты не использовали, на 59,7% [1].

В ИТ-системах для обнаружения неисправностей используются различные методы мониторинга, из которых наибольшей распространенностью пользуются реактивный и проактивный мониторинги.

При реактивном мониторинге система получает информацию о состоянии компонентов ИТ-системы в реальном или псевдореальном времени. Это позволяет реагировать на множество аварийных ситуаций, которые могут прогрессировать в ИТ-системе. Аварийные ситуации обычно говорят о неисправности в сети или означают аномальное поведение компонентов ИТ-системы, которое может привести к неисправности. Системы реактивного мониторинга позволяют определять только часть проблем в сложных ИТ-системах, испытывая затруднения при анализе функционирования сложных распределенных приложений. При этом диагностика и локализация ошибок в ИТ-системах производится после обнаружения неполадок, так же как и определяются только проблемы, уже существующие в аппаратном или программном обеспечении [7].

Более совершенными являются средства проактивного мониторинга, которые не только обеспечивают дистанционный мониторинг в режиме реального времени, регулярные проверки исправности компонентов ИТ-системы, но и позволяют прогнозировать критические состояния системы и на ранней стадии, а также генерировать предупреждения об ошибках, для того чтобы предотвратить возникновение отказов в работе ИТ-системы. Такой мониторинг позволяет анализировать работоспособность распределенных многоуровневых приложений и пр. Главным отличием этих систем от реактивных является понимание логики распределенных приложений, а также способность предсказывать на основе анализа накопленных данных возможные сценарии развития текущей ситуации. За счет этого системы проактивного мониторинга могут выявлять и предсказывать гораздо больше проблем в ИТ-системе, что позволяет устранять неполадки еще на этапе их зарождения и развития. Системы такого типа позволяют не только выявить конкретный некорректно работающий в данный момент аппаратный или программный элемент ИТ-системы, но и предсказать возможность отказа этого элемента в будущем, за счет чего обеспечивается более стабильная работа ИТ-системы и минимизируются издержки, вызванные с ее простоем [7].

Методы проактивного мониторинга

На данный момент существует множество подходов для мониторинга и прогнозирования состояния ИТ-инфраструктуры. Рассмотренные методы отличаются набором входных данных, методами анализа и реализации, формой представления результатов и другими факторами.

В 2003 году на конференции по интеллектуальному анализу данных опубликована статья, в которой рассматриваются прогнозирование потенциальных проблем и выполнение корректирующих действий в крупных кластерных системах. Алгоритм подразумевает сбор исторических данных о надежности, доступности и производительности систем за большой период времени. Для прогнозирования производительности используются модели временных рядов [4].

В 2005 году на международном симпозиуме института инженеров электротехники и электроники предложен метод прогнозирования неисправностей в интернет-сетях и объединенных сетях с использованием получаемых пассивно симптомов и активных проверок. На основании пассивно собранных симптомов с помощью матрицы, отображающей взаимосвязи между симптомами и неисправностями, выводятся гипотезы о наличии в сети определенных неисправностей. Проводится оценка выбранных гипотез, и если они объясняют все симптомы и не порождают симптомы, которые не наблюдаются в сети, то выдается сообщение об источниках неисправностей. В противном случае осуществляется поиск новых симптомов или обнаружение недостающих для подтверждения гипотез с помощью активных проверок [3].

В 2008 году на научно-практической конференции российскими авторами были озвучены результаты по прогнозированию аппаратных сбоев в системе мониторинга кластерных технологий. Для получения желаемых результатов использован следующий алгоритм прогнозирования. Для того чтобы построить прогноз, по некоторому промежутку времени (период основания прогноза) строится аппроксимирующая функция, которая затем вычисляется в другом промежутке времени (период упреждения прогноза). В ходе исследования было рассмотрено несколько алгоритмов поиска приближающих функций. Среди них был выбран алгоритм, основанный на методе наименьших квадратов, в котором аппроксимирующая функция ищется в виде линейной комбинации некоторых заранее выбранных функций, называемых базисными. Так как значения оцениваемых параметров ограничены и зачастую периодичны, то в качестве базисных функций были выбраны cos (2p/αi X), sin (2p/αi X) и 1, где αi задают периоды колебаний. Коэффициенты линейной комбинации вычисляются автоматически для заданного набора параметров αi. Поэтому необходимо заранее выбрать такие αi, которые соответствуют сезонным периодам колебаний наблюдаемых характеристик [5].

В 2009 году представлена модель использования нейронной сети для мониторинга вычислительных центров. На вход нейронов подаются входные векторы с текущими значениями показателей работы серверов, после чего нейроны обрабатывают входные параметры согласно своим весовым коэффициентам и выдают результирующий сигнал. Сигналы со всех нейронов первого слоя суммируются, и на выходе получается результирующий вектор. Данная система мониторинга позволяет, помимо визуализации текущего состояния системы, анализировать состояние и выявлять возможные причины неправильной работы вычислительного центра. Кроме того, система мониторинга способна подстраиваться под изменения в структуре вычислительного центра, обеспечивая гибкую оценку состояния, что позволяет убрать ложные сообщения об ошибках в работе вычислительного центра. На основе статистики работы вычислительного центра можно прогнозировать поведение системы на несколько шагов вперед в случае возникновения каких-либо сбойных ситуаций [6].

В 2010 году в международном журнале по компьютерным наукам и информационной безопасности опубликована статья, которая рассматривает использование модели нейронной сети для автоматической настройки производительности СУБД [2]. Нейронная сеть оценивает показатели производительности на основе обученного набора данных. На первом этапе сеть обучается с использованием хорошо определенного обучающего набора для желаемого результата. На второй фазе в сеть вводится новый набор, который может быть частью набора обучающих данных, а может и не быть, и сеть дает значимый результат. Для правильной работы нейронной сети важно выбрать правильную функцию активации, скорость обучения, количество обучающих циклов и значительное количество узлов в скрытом слое. Коррекция применяется в соответствии с алгоритмом настройки, чтобы увеличить производительность системы. Предложенная система не учитывает резкие скачки в рабочей нагрузке, правильность алгоритма зависит от правильно выбранного учебного набора данных.

В 2011 году в российском научном журнале «Спецтехника и связь» опубликована статья, в которой предлагается методика прогнозирования поведения СУБД Oracle, построенная на основе теории массового обслуживания. Методика позволяет спрогнозировать приближение точки краха системы (бесконечного времени обработки запроса), определить проблемные подсистемы (процессорная подсистема или подсистема ввода/вывода), сделать прогноз потенциальной масштабируемости. В качестве математической модели рассмотрена модель Эрланга-С (система массового обслуживания с очередями) в нотации статистик СУБД Oracle [8]. Предлагаемая автором методика прогнозирования поведения СУБД Oracle позволяет сделать прогноз возможной масштабируемости системы, предназначена для целей последующего проектирования и не предназначена для управляющего воздействия.

В 2012 году в статье журнала Томского государственного университета систем управления и радиоэлектроники предлагается использование алгоритма прогнозирования Хольта–Винтерса для прогнозирования неисправностей в локальных сетях. Метод Хольта–Винтерса является усовершенствованием метода экспоненциального сглаживания временного ряда. Экспоненциальное сглаживание обеспечивает наглядное представление о тренде и позволяет делать краткосрочные прогнозы. Отличие от экспоненциального сглаживания заключается в способности метода обнаруживать тренды, относящиеся к коротким периодам в моменты времени, непосредственно предшествующие прогнозным, и экстраполировать эти тренды на будущее [10]. Несмотря на то что в методе используется линейная экстраполяция, для большинства показателей текущего состояния локальной сети ее оказывается достаточно.

В 2016 году предложена модель прогнозирования отказов оборудования на основе алгоритма машинного обучения Random Forest [9]. Автор указывает, что применение методов прогнозирования, основанных на прецедентах, не применимо в случаях, когда поломки оборудования происходят достаточно редко или нет достаточно большой статистики. В отличие от других видов моделей обучение осуществляется на данных, которые соответствуют нормальному режиму функционирования объекта исследования (т.е. в то время, когда не было поломок и других аномалий). Тем самым модель учится прогнозировать, каким должен быть сигнал при нормальном режиме работы. В том случае, если в определенный момент времени фактическое значение сигнала отличается от прогнозируемого «нормального» значения сигнала, фиксируется аномальное поведение и сигнализируется о возможной поломке.

На основе анализа рассмотренных источников можно выделить требования, реализация которых позволит повысить качество проактивного мониторинга ИТ-систем.

Большинство представленных вариантов рассматривают мониторинг отдельных компонентов ИТ-систем. Подобные системы, направленные на отслеживание некоторых компонентов ИТ-системы в изоляции, не учитывают состояние других подсистем ИТ-системы, влияющих на ее общее состояние. Для полноценного анализа информационной системы мониторинг должен быть комплексным и включать анализ следующих подсистем:

  • База данных. Программные настройки СУБД, отвечающие за доступ, хранение и индексирование данных.
  • Оборудование. Аппаратный комплекс, включающий в себя основные компоненты сервера: процессор, оперативная память, дисковая подсистема, сетевой интерфейс.
  • Архитектура информационной сети. Функциональное взаимодействие и сетевая топология компьютерной сети, объединяющей серверы, клиентские рабочие места, а также СУБД с установленным лицензионным программным обеспечением.
  • Логика доступа к данным. Характеризуется запросами и их структурой в существующей модели БД.
  • Бизнес-процессы, реализованные в ИС. Сервисный слой приложения включает бизнес-логику приложения, а также интерфейс системы.
  • Также комплексно необходимо рассматривать характеристики информационной системы, влияющие на ее работоспособность. Для полноценного анализа система мониторинга должна анализировать совокупность характеристик работоспособности информационной системы, включающую показатели надежности, производительности и безопасности.

Система мониторинга должна не только анализировать и прогнозировать состояние работоспособности информационной системы, а также определять возможные причины неправильной работы, но и вырабатывать действия, которые необходимо предпринять для устранения проблемы в случае ее обнаружения и возвращения информационной системы в нормальное состояние.

Развитые системы мониторинга способны прогнозировать изменение состояния системы по событийному принципу на один шаг вперед, т.е. что будет, если произойдет определенное событие. Этого часто недостаточно для правильного управления ИТ-системы. Рассмотрим распределенную информационную систему, которая включает несколько серверов, отвечающих за определенный сервис. При выходе из строя одного из серверов нагрузка распределится на оставшиеся, при этом нагрузка на каждом из серверов возрастет. Системы, реализованные по принципу прогнозирования на один шаг вперед, способны предвидеть такой сценарий, но не способны прогнозировать последующую нагрузку (будущее состояние) оставшихся узлов. Еще одним недостатком такого подхода является то, что в рассматриваемой ситуации при возрастании нагрузки на других серверах система мониторинга будет сообщать о высокой нагрузке на серверах как об ошибке, несмотря на то что такая нагрузка в этой конкретной ситуации является адекватной. В свою очередь, ложные сообщения могут скрыть действительно важные сбои в работе ИТ-системы, что может привести к более тяжелым последствиям как для всей системы, так и для определенного сервиса в частности. Из проведенного анализа можно сделать вывод, что для качественной оценки система мониторинга должна иметь гибкую систему оценки работы ИТ-системы, а также уметь прогнозировать события на несколько шагов вперед.

Для прогнозирования изменения состояния системы наиболее востребованными являются модели нейронных сетей. Гибкость структуры нейронной сети, возможность к самообучению, возможность работать с неполными данными делают ее наиболее подходящим инструментом для прогнозирования состояния в отличие от статистических методов.

Заключение

В работе рассмотрены преимущества проактивного мониторинга и актуальность рассматриваемой тематики. Проанализированы существующие методы прогнозирования неисправностей в ИТ-системах. Выявлены требования для комплексной системы проактивного мониторинга. eof

  1. Report to the Nations on Occupational Fraud and Abuse. [Электронный ресурс] // Association of Certified Fraud Examiners (ACFE). 2014. URL: https://www.acfe.com/rttn/docs/2014-report-to-nations.pdf (Дата обращения: 06.12.2017).
  2. Rodd S. F., Kulkarni U. P. Adaptive tuning algorithm for performance tuning of database management system //arXiv preprint arXiv:1005.0972. – 2010.
  3. Tang Y., Al-Shaer E. S. Boutaba R. Active Integrated Fault Localization in Communication Networks// Integrated Network Management Proceedings. IM’2005. IEEE/IFIP International Symposium on. – May 2005. – pp. 543-556.
  4. Sahoo R. K. et al. Critical event prediction for proactive management in large-scale computer clusters //Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining. – ACM, 2003. – С. 426-435.
  5. Ардентов А. А., Московский А. А., Первин А. Ю., Стоцкий М. В. Алгоритмы прогнозирования аппаратных сбоев в системе мониторинга кластерных установок // XII научно-практическая конференция университета города Переславля. – 2008, № 6. – С. 84-95.
  6. Петраков В. А., Богачев Д. Н. Применение нейронных сетей в мониторинге вычислительных центров // Известия Южного федерального университета. Технические науки. – 2009, № 2. – С. 82-87.
  7. Ролик А.И., Тимофеева Ю.С., Турский Н.И. Управление устранением неисправностей в ИТ-системах // Вестник НТУУ «КПИ». Информатика, управление и вычислительная техника. – 2008, № 49. – С. 95-108.
  8. Трухачев А.А., Ивкина Е.А. Применение методики прогнозирования масштабируемости для построения систем высокой доступности на основе СУБД Oracle // Спецтехника и связь. – 2011, №6.
  9. Шаханов Н.И., Варфоломеев И.А., Ершов Е.В., Юдина О. В. Прогнозирование отказов оборудования в условиях малого количества поломок // Вестник Череповецкого государственного университета. – 2016, №6 (75).
  10. Шелупанов А.А., Исхаков С.Ю., Тимченко С.В. Прогнозирование в системе мониторинга локальных сетей // Доклады Томского государственного университета систем управления и радиоэлектроники. – 2012, № 1-2. – С. 100-103.

Ключевые слова: проактивный мониторинг, прогнозирование работоспособности, ИТ-система, нейронная сеть.


Methods of proactive monitoring of information systems

Dubrovin M.G., Tyumen State University, Tyumen, dubrovin.mg@gmail.com

Gluhih I.N., Doctor of Technical Science, professor, Tyumen State University, Tyumen, igluhih@utmn.ru

Abstract: The article shows the importance of applying proactive monitoring methods for the rapid identification and elimination of critical and emergency situations in information systems, as well as for predicting their future behavior. The main tasks of proactive monitoring are outlined, and a thematic overview of the work devoted to this area is given.

Keywords: proactive monitoring, performance prediction, IT system, neural network.


Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-41
Fax: (499) 277-12-45
E-mail: sa@samag.ru