www.samag.ru
     
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Подписка
Архив номеров
Где купить
Авторам
Рекламодателям
Контакты
   

  Опросы
  Статьи

Мониторинг  

Какая задача мониторинга отнимает больше всего времени?

Многие системные администраторы тратят до 30% рабочего времени на рутину мониторинга. Но

 Читать далее...

Рынок труда  

Какие навыки вы хотите развивать в 2026 году?

Рынок труда меняется быстро. Еще вчера его называли рынком соискателей, а сегодня

 Читать далее...

Книжная полка  

От сисадмина до архитектора: книги, которые прокачают ваш стек в этом году

Новинки от издательства «БХВ» отличаются тем, что в них часто делается упор

 Читать далее...

Автоматизация  

Автоматизируем рутину: что реально работает?

Многие сисадмины автоматизировали что-то за последний год. Но далеко не все остались

 Читать далее...

Защита ИТ-системы  

Практическая защита: что вы внедрили и что мешает?

Какие меры безопасности реально внедрить в реальных условиях – и что не

 Читать далее...

Вопрос-ответ  

Обеспечиваем безопасную эксплуатацию базы данных

Что для вас чаще всего является причиной инцидентов с БД? Как вы

 Читать далее...

Книжная полка  

От «безопасного» Linux до Контролируемого взлома

Издательство «БХВ» продолжает радовать читателей интересными новинками и в наступившем году. Вы можете

 Читать далее...

1001 и 1 книга  
19.03.2018г.
Просмотров: 13271
Комментарии: 0
Машинное обучение с использованием библиотеки Н2О

 Читать далее...

12.03.2018г.
Просмотров: 13379
Комментарии: 0
Особенности киберпреступлений в России: инструменты нападения и защита информации

 Читать далее...

12.03.2018г.
Просмотров: 10836
Комментарии: 0
Глубокое обучение с точки зрения практика

 Читать далее...

12.03.2018г.
Просмотров: 5800
Комментарии: 0
Изучаем pandas

 Читать далее...

12.03.2018г.
Просмотров: 6646
Комментарии: 0
Программирование на языке Rust (Цветное издание)

 Читать далее...

19.12.2017г.
Просмотров: 6516
Комментарии: 0
Глубокое обучение

 Читать далее...

19.12.2017г.
Просмотров: 9379
Комментарии: 0
Анализ социальных медиа на Python

 Читать далее...

19.12.2017г.
Просмотров: 5967
Комментарии: 0
Основы блокчейна

 Читать далее...

19.12.2017г.
Просмотров: 6196
Комментарии: 0
Java 9. Полный обзор нововведений

 Читать далее...

16.02.2017г.
Просмотров: 10345
Комментарии: 0
Опоздавших не бывает, или книга о стеке

 Читать далее...

17.05.2016г.
Просмотров: 13787
Комментарии: 0
Теория вычислений для программистов

 Читать далее...

30.03.2015г.
Просмотров: 15257
Комментарии: 0
От математики к обобщенному программированию

 Читать далее...

18.02.2014г.
Просмотров: 17579
Комментарии: 0
Рецензия на книгу «Читаем Тьюринга»

 Читать далее...

13.02.2014г.
Просмотров: 12444
Комментарии: 0
Читайте, размышляйте, действуйте

 Читать далее...

12.02.2014г.
Просмотров: 10440
Комментарии: 0
Рисуем наши мысли

 Читать далее...

10.02.2014г.
Просмотров: 8658
Комментарии: 4
Страна в цифрах

 Читать далее...

18.12.2013г.
Просмотров: 7259
Комментарии: 0
Большие данные меняют нашу жизнь

 Читать далее...

18.12.2013г.
Просмотров: 6068
Комментарии: 0
Компьютерные технологии – корень зла для точки роста

 Читать далее...

04.12.2013г.
Просмотров: 5707
Комментарии: 0
Паутина в облаках

 Читать далее...

03.12.2013г.
Просмотров: 6017
Комментарии: 1
Рецензия на книгу «MongoDB в действии»

 Читать далее...

Друзья сайта  

 Какая задача мониторинга отнимает больше всего времени?

Архив номеров / 2026 / Выпуск №3 (280) / Какая задача мониторинга отнимает больше всего времени?

Рубрика: Администрирование /  Мониторинг

 

 

Какая задача мониторинга
отнимает больше всего времени?

Многие системные администраторы тратят до 30% рабочего времени на рутину мониторинга. Но никто не говорит, какая именно рутина мешает.

Комментируют ситуацию Максим Захаренко, СЕО «Облакотека» и Ришат Салихов, старший системный архитектор ICL Services.

 

Максим Захаренко,
СЕО «Облакотека»

«Идеальный порог — это всегда баланс. С одной стороны, важно не пропустить реальную проблему, с другой — не перегрузить команду шумом. На практике это достигается только через настройку под конкретную инфраструктуру и регулярный пересмотр правил»


Анализируя работу инфраструктурных команд, можно заметить, что больше всего времени съедает не настройка мониторинга, а борьба с его последствиями.

Самая болезненная тема — это алерты. Когда система генерирует слишком много уведомлений, большая часть из которых не требует действий, команда постепенно перестает им доверять. В итоге важные сигналы теряются на фоне шума. И люди тратят часы не на решение проблем, а на фильтрацию того, что вообще стоит внимания.

Если говорить про конкретный пример, то мы, например, недавно отключали алерты по кратковременным всплескам нагрузки на CPU. Они срабатывали слишком часто, но не влияли на пользовательский опыт и в итоге только отвлекали команду. После корректировки порогов количество ложных срабатываний заметно снизилось.

На втором месте — анализ логов. В теории все логируется, но на практике быстро найти причину инцидента сложно: данные разбросаны, нет единого контекста, поиск неудобный. Особенно это заметно в распределённых системах и облачных средах.

Ещё одна проблема — интеграция. У компаний редко бывает один инструмент. Обычно это набор решений, которые слабо связаны между собой. В результате, чтобы понять картину, нужно переключаться между несколькими системами.

Обработка инцидентов тоже часто занимает больше времени, чем должна. Причина простая — нет четких runbook’ов. Каждый раз команда фактически заново решает одну и ту же задачу вместо того, чтобы следовать отработанному сценарию. Это увеличивает время, затраченное на восстановления сервисов, и создает дополнительную нагрузку на специалистов. При этом накопленный опыт не фиксируется и не масштабируется, а значит, проблема воспроизводится от инцидента к инциденту.

Идеальный порог — это всегда баланс. С одной стороны, важно не пропустить реальную проблему, с другой — не перегрузить команду шумом. На практике это достигается только через настройку под конкретную инфраструктуру и регулярный пересмотр правил.

Если обобщить, то главная задача сегодня — не просто собирать метрики, а выстраивать осмысленный мониторинг, который помогает принимать решения, а не создает дополнительную нагрузку.



Ришат Салихов,
старший системный архитектор ICL Services

«Корректные пороги и сам мониторинг в рабочем состоянии — это всегда результат постепенной настройки. Сначала система запускается с базовыми параметрами, затем накапливается статистика, и уже на ее основе все адаптируется под реальные условия. Универсального решения здесь не существует»


Если смотреть на проблему шире, то дело не столько в самих задачах мониторинга, сколько в отсутствии выстроенных процессов. Когда мониторинг внедрен формально и не до конца настроен, инженеры постоянно сталкиваются с одними и теми же ситуациями и каждый раз решают их заново. В итоге время уходит не на развитие или улучшение системы, а повторяющуюся ручную работу.

Если говорить про конкретную рутину, то больше всего времени, как правило, съедают ложные срабатывания. Это следствие некорректно настроенных алертов: система сигнализирует о проблеме, инженер подключается, начинает разбираться , в итоге выясняется, что ничего критичного не произошло. В таком режиме большая часть времени уходит не на устранение инцидентов, а на проверку их релевантности.

При этом многие другие задачи, которые обычно упоминаются — интеграции, отчетность, работа с логами — на практике не являются основной ежедневной нагрузкой. Чаще это либо разовые активности, либо задачи, которые настраиваются один раз и дальше требуют минимального участия.

Что касается отключения алертов, чаще всего из мониторинга убирают не критичные метрики утилизации инфраструктуры. Например, второстепенные показатели по сети или отдельные параметры по дискам, которые не влияют напрямую на доступность сервисов, но при этом создают дополнительный шум и отвлекают инженеров.

Говоря об идеальном пороге срабатывания, универсального значения здесь нет. Да, существуют базовые ориентиры — например, по загрузке CPU, но дальше все зависит от конкретной инфраструктуры. В нагруженных системах такие пороги обычно сдвигаются выше, потому что стандартные значения будут давать слишком много срабатываний. В менее загруженных их могут снижать, чтобы вовремя заметить аномалии.

В целом корректные пороги и сам мониторинг в рабочем состоянии — это всегда результат постепенной настройки. Сначала система запускается с базовыми параметрами, затем накапливается статистика, и уже на ее основе все адаптируется под реальные условия. Универсального решения здесь не существует.

Так, грамотно выстроенные процессы позволят тонко настроить мониторинг — это означает выявлять «возможную» проблему (с помощью превентивных механизмов) и снизить трудозатраты на решение инцидентов (оперативное оповещение об инциденте с описанием корневой причины и с возможным сценарием устранения проблем).

 

 

Ключевые слова: мониторинг, алерты, шум, порог срабатывания, логи


Подпишитесь на журнал

Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-45
E-mail: sa@samag.ru