Бесперебойная работа ИТ-инфраструктуры в режиме 24/7 Как обеспечить ее в нынешних условиях?::Журнал СА
www.samag.ru
     
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Подписка
Архив номеров
Где купить
Наука и технологии
Авторам
Рекламодателям
Контакты
   

  Опросы
  Статьи

Событие  

В банке рассола ждет сисадмина с полей фрактал-кукумбер

Читайте впечатления о слете ДСА 2024, рассказанные волонтером и участником слета

 Читать далее...

Организация бесперебойной работы  

Бесперебойная работа ИТ-инфраструктуры в режиме 24/7 Как обеспечить ее в нынешних условиях?

Год назад ИТ-компания «Крок» провела исследование «Ключевые тренды сервисного рынка 2023». Результаты

 Читать далее...

Книжная полка  

Читайте и познавайте мир технологий!

Издательство «БХВ» продолжает радовать выпуском интересных и полезных, к тому же прекрасно

 Читать далее...

СУБД PostgreSQL  

СУБД Postgres Pro

Сертификация по новым требованиям ФСТЭК и роль администратора без доступа к данным

 Читать далее...

Критическая инфраструктура  

КИИ для оператора связи. Готовы ли компании к повышению уровня кибербезопасности?

Похоже, что провайдеры и операторы связи начали забывать о требованиях законодательства

 Читать далее...

Архитектура ПО  

Архитектурные метрики. Качество архитектуры и способность системы к эволюционированию

Обычно соответствие программного продукта требованиям мы проверяем через скоуп вполне себе понятных

 Читать далее...

Как хорошо вы это знаете  

Что вам известно о разработках компании ARinteg?

Компания ARinteg (ООО «АРинтег») – системный интегратор на российском рынке ИБ –

 Читать далее...

Графические редакторы  

Рисование абстрактных гор в стиле Paper Cut

Векторный графический редактор Inkscape – яркий представитель той прослойки open source, с

 Читать далее...

День сисадмина  

Учите матчасть! Или как стать системным администратором

Лето – время не только отпусков, но и хорошая возможность определиться с профессией

 Читать далее...

День сисадмина  

Живой айтишник – это всегда движение. Остановка смерти подобна

Наши авторы рассказывают о своем опыте и дают советы начинающим системным администраторам.

 Читать далее...

Виртуализация  

Рынок решений для виртуализации

По данным «Обзора российского рынка инфраструктурного ПО и перспектив его развития», сделанного

 Читать далее...

Книжная полка  

Как стать креативным и востребованным

Издательский дом «Питер» предлагает новинки компьютерной литературы, а также книги по бизнесу

 Читать далее...

Книжная полка  

От создания сайтов до разработки и реализации API

В издательстве «БХВ» недавно вышли книги, которые будут интересны системным администраторам, создателям

 Читать далее...

Разбор полетов  

Ошибок опыт трудный

Как часто мы легко повторяем, что не надо бояться совершать ошибки, мол,

 Читать далее...

1001 и 1 книга  
19.03.2018г.
Просмотров: 6004
Комментарии: 0
Машинное обучение с использованием библиотеки Н2О

 Читать далее...

12.03.2018г.
Просмотров: 6715
Комментарии: 0
Особенности киберпреступлений в России: инструменты нападения и защита информации

 Читать далее...

12.03.2018г.
Просмотров: 4006
Комментарии: 0
Глубокое обучение с точки зрения практика

 Читать далее...

12.03.2018г.
Просмотров: 2918
Комментарии: 0
Изучаем pandas

 Читать далее...

12.03.2018г.
Просмотров: 3724
Комментарии: 0
Программирование на языке Rust (Цветное издание)

 Читать далее...

19.12.2017г.
Просмотров: 3727
Комментарии: 0
Глубокое обучение

 Читать далее...

19.12.2017г.
Просмотров: 6218
Комментарии: 0
Анализ социальных медиа на Python

 Читать далее...

19.12.2017г.
Просмотров: 3072
Комментарии: 0
Основы блокчейна

 Читать далее...

19.12.2017г.
Просмотров: 3370
Комментарии: 0
Java 9. Полный обзор нововведений

 Читать далее...

16.02.2017г.
Просмотров: 7190
Комментарии: 0
Опоздавших не бывает, или книга о стеке

 Читать далее...

17.05.2016г.
Просмотров: 10566
Комментарии: 0
Теория вычислений для программистов

 Читать далее...

30.03.2015г.
Просмотров: 12284
Комментарии: 0
От математики к обобщенному программированию

 Читать далее...

18.02.2014г.
Просмотров: 13917
Комментарии: 0
Рецензия на книгу «Читаем Тьюринга»

 Читать далее...

13.02.2014г.
Просмотров: 9047
Комментарии: 0
Читайте, размышляйте, действуйте

 Читать далее...

12.02.2014г.
Просмотров: 7009
Комментарии: 0
Рисуем наши мысли

 Читать далее...

10.02.2014г.
Просмотров: 5319
Комментарии: 3
Страна в цифрах

 Читать далее...

18.12.2013г.
Просмотров: 4549
Комментарии: 0
Большие данные меняют нашу жизнь

 Читать далее...

18.12.2013г.
Просмотров: 3357
Комментарии: 0
Компьютерные технологии – корень зла для точки роста

 Читать далее...

04.12.2013г.
Просмотров: 3079
Комментарии: 0
Паутина в облаках

 Читать далее...

03.12.2013г.
Просмотров: 3325
Комментарии: 0
Рецензия на книгу «MongoDB в действии»

 Читать далее...

02.12.2013г.
Просмотров: 2949
Комментарии: 0
Не думай о минутах свысока

 Читать далее...

Друзья сайта  

 Бесперебойная работа ИТ-инфраструктуры в режиме 24/7 Как обеспечить ее в нынешних условиях?

Архив номеров / 2024 / Выпуск №7-8 (260-261) / Бесперебойная работа ИТ-инфраструктуры в режиме 24/7 Как обеспечить ее в нынешних условиях?

Рубрика: ИТ-инфраструктура /  Организация бесперебойной работы

 

Бесперебойная работа
ИТ-инфраструктуры в режиме 24/7

Как обеспечить ее в нынешних условиях?

Год назад ИТ-компания «Крок» провела исследование «Ключевые тренды сервисного рынка 2023». Результаты исследования показали, что 60% опрошенных компаний испытывают сложности с обеспечением бесперебойной работы ИТ-инфраструктуры. Как изменилась за год ситуация? Адаптировались ли российские компании к новым условиям? И что необходимо сегодня для поддержания устойчивости имеющейся ИТ-инфраструктуры?

Вопросы экспертам:
1. Как организовать мониторинг ИТ-инфраструктуры?
2. Какие системные параметры нужно мониторить в первую очередь, а что – менее критично?
3. Какого функционала не хватает в имеющихся на рынке ИТ-решениях для мониторинга?
4. Как должна быть организована работа ИТ-отдела и штатных системных администраторов для круглосуточной поддержки бесперебойной работы ИТ-инфраструктуры? Поделитесь своим опытом.
5. Можно ли создать надежную защиту от всех угроз? Что для этого необходимо?

 

Евгений Кудрявцев,
старший системный администратор группы ИТ-компаний TeamIdea


«На мой взгляд, в первую очередь рынку не хватает российского ПО по мониторингу, (аналогичную Zabbix, например), а также российской сетевой инфраструктуры»

1. Для этого используется специализированное ПО для мониторинга состояния сети и технической инфраструктуры.

Например, это Zabbix, универсальное решение с открытым исходным кодом, подходящее для использования в любой модели сети.

Еще из open source решений можно выделить Prometheus, Nagios. Среди коммерческих – Datadog, New Relic, Paessler PRTG.

Выбор ПО для мониторинга зависит от размера и сложности ИТ-инфраструктуры, бюджета, требований к функциональности, а также от наличия специалистов, способных работать с выбранным ПО.

2. В первую очередь необходимо мониторить сетевую составляющую компании, а также серверную часть и систему антивирусного ПО.

3. На мой взгляд, в первую очередь рынку не хватает российского ПО по мониторингу, (аналогичную Zabbix, например), а также российской сетевой инфраструктуры.

4. Для организации работы есть общие правила, и наша компания также им следует. Это:

  • Делегирование задач по уровням L1, L2, L3: служба поддержки, инженерная служба, специалисты высшей категории для решения нестандартных проблем.
  • Централизованная система тикетов.
  • Обеспечение мониторинга систем.
  • Обеспечение бэкапирования систем и служб.
  • Автоматизация процессов.
  • Обеспечение сетевой и софтверной защиты предприятия.
  • Своевременное обновление серверного и сетевого железа.
  • Дублирование критически важных сервисов

5. Для такой защиты нужно использовать proxy службы, физические сетевые шлюзы, актуальное антивирусное ПО. Также необходимо закрывать все сетевые порты, иметь действующие SSL сертификаты, обеспечивать защиту от фишинга.

В идеальном раскладе компьютеры должны быть в доменной зоне с авторизацией по ключам. Написать регламенты и инструкции для них, и постоянно их актуализировать.



Елизавета Лаврова,
генеральный директор ООО «Трипитака»


«На ИТ-рынке не хватает универсальных систем, которые могут закрывать все имеющиеся объекты для мониторинга»

1. Для полного и всеохватывающего мониторинга ИТ-инфраструктуры нужно как минимум:

  • собрать от бизнеса информацию: какие ИТ-сервисы критически важны для основных бизнес-процессов, а без которых можно какое-то время обойтись;
  • собрать информацию от ИТ-специалистов о том, работа каких системных сервисов критически важна.

По собранной информации следует проранжировать все объекты мониторинга на предмет их критичности и настроить нужные уведомления и уровни эскалации проблемы.

Пример: перестала работать торговая программа на базе 1С. Дежурному администратору сразу же поступает звонок.

Сообщение дублируется в группу Телеграм, где подключены все ИТ-специалисты.

Если в течении 30 минут статус проблемы не изменился, идет звонок руководителю ИТ.

2. Их набор зависит от бизнес-систем, которые используются в компании. Но всегда есть базовые параметры, за которыми нужно следить. Это:

  • Доступность системы.
  • Доступность приложения/веб-сервиса.
  • Загрузка CPU.
  • Количество свободного RAM.
  • Количество свободного места на дисках.
  • Загрузка сетевых интерфейсов.

3. Не хватает универсальных систем, которые могут закрывать все имеющиеся объекты для мониторинга.

Так, например, Zabbix больше подходит для мониторинга самих серверов и сервисов, но для мониторинга приложений и пользовательского опыта он неприменим.

ELK удобен для мониторинга приложений, но для мониторинга серверов и сервисов он очень неудобен.

Очень важной задачей является разработка универсального решения, но пока что никто этого не сделал.

4. Работа ИТ для круглосуточной поддержки должна быть такой, чтобы как минимум должны были:

  • организованы три смены дежурства, чтобы в любое время в доступе был человек, ответственный за решение проблемы;
  • определен уровень критических сервисов: что “тушим” в первую очередь;
  • написаны инструкции, как и что делать;
  • определен уровень эскалации: когда и кого уведомляем о проблеме;
  • после сбоя обязательно должен быть проведен анализ проблемы, чтобы дополнить инструкции по восстановлению и, возможно, поменять объекты мониторинга.

5. Создать надежную защиту от всех угроз, к сожалению, на сто процентов невозможно, но можно к этому стремиться.

Для этого как минимум нужно:

  1. Сделать систему резервного копирования и обязательно настроить сохранение нескольких последних копий во вне контура компании, используя, например S3 хранилище стороннего провайдера.
  2. Разработать disaster recovery план по компании.
  3. Настроить грамотный мониторинг систем, сервисов и приложений.
  4. Организовать сменную работу дежурных администраторов.
  5. Написать регламенты и инструкции для них, и постоянно их актуализировать.



Виталий Федоров,
генеральный директор INTELVISION


«Исходя из нашего опыта в организации ИТ-отдела, первоочередной задачей является составление план-графика дежурств системных администраторов»

1. Наша компания специализируется на внедрении современных технологий в жилые и коммерческие здания. В каждом проекте по цифровизации зданий мы сталкиваемся с обширной ИТ и инженерной инфраструктурой, которую необходимо поддерживать в рабочем состоянии круглосуточно, 365 дней в году, с минимальным коэффициентом доступности не менее 99.5%. Это необходимо для обеспечения жильцов здания доступом ко всем сервисам и услугам.

Для организации мониторинга ИТ-инфраструктуры, мы используем специализированные инструменты мониторинга, которые позволяют отслеживать состояние и производительность ИТ-системы в режиме реального времени, среди которых Prometheus, Zabbix, Grafana и другие средства, например, специализированные модули мониторинга для BMS/SCADA систем.

Изначально для организации системы мониторинга необходимо запроектировать важные разделы с учётом резервирования оборудования и сетей, и с возможностью удалённого доступа к обслуживаемым системам.

Также необходимо определить ключевые метрики и параметры для мониторинга, такие как доступность серверов, использование ресурсов и активов, сетевой трафик, настроить оповещения, чтобы узнавать о любых проблемах или сбоях в реальном времени.

Соблюдение этих мер поможет обеспечить непрерывную работу ИТ-инфраструктуры любой сложности.

2. Выбор параметров для мониторинга зависит от конкретных потребностей и особенностей системы, и может быть адаптирован в соответствии с требованиями компании.

Традиционно в первую очередь важен мониторинг доступности серверов, что поможет быстро выявить сбои и принять меры по их устранению, ошибки и журналы событий для выявления угроз безопасности, а также объем сетевого трафика, где можно увидеть утечки данных. К менее критичным параметрам, относятся, например, температура оборудования или мониторинг источников питания.

3. На мой взгляд, сегодня не хватает предиктивных систем, есть недостаток прогнозирования возможных внештатных ситуаций или проблем с оборудованием на основе мониторинга данных. Интеграция с искусственным интеллектом позволила бы заранее предсказывать возможные сбои или проблемы в ИТ-инфраструктуре. Не хватает ещё функционала машинного обучения и аналитики.

4. Исходя из нашего опыта в организации ИТ-отдела, первоочередной задачей является составление план-графика дежурств системных администраторов, четкое определение и распределение их обязанностей, проведение обучения или переобучения сотрудников отдела, настройка системы отслеживания инцидентов и обеспечение эффективного взаимодействия ИТ-отдела с другими отделами.

5. Нельзя создать абсолютно надежную защиту от всех угроз, так как киберугрозы постоянно эволюционируют, и новые уязвимости в информационных системах появляются с каждым днем. Однако можно принять определенные меры для повышения уровня безопасности, которые помогут сократить риски и обеспечить более надежную защиту.

Необходимо создать многоуровневую защиту, использовать двухфакторную аутентификацию, регулярно обновлять ПО, обязательно создавать резервные копии данных и постоянно модернизировать политику безопасности.



Александр Щукин,
технический директор хостинг-провайдера Tendence.ru


«По нашему опыту для круглосуточной поддержки бесперебойной работы ИТ-инфраструктуры наилучшим образом подходит скользящий график дежурств. Для всех сотрудников отдела на равноправной основе заранее составляется график, по которому каждый специалист несколько раз в месяц выполняет функции дежурного инженера»

1. Пакетов для задачи наблюдения и контроля за сетью значительное количество. Пожалуй, одни из самых развитых и распространённых является Zabbix. Это ПО с открытым исходным кодом разрабатывается уже много лет и предоставляет множество возможностей для мониторинга и реагирования на события.

Имеется специализированное ПО для мониторинга ИТ-инфраструктуры и у производителей сетевого оборудования, например, The Dude от Mikrotik.

Не зависящий от платформы стандарт SNMP предназначен для мониторинга сетевых устройств. При желании с его помощью можно организовать сбор информации о состоянии оборудования и сервисов в собственный программный продукт.

2. Пожалуй, в ИТ-инфраструктуре важно всё, мониторить следует все узлы и сервисы на них, ведь все они несут какие-то функции иначе бы просто не действовали. Из наиболее важных параметров можно выделить сетевую связность маршрутизаторов и серверов, так как если нет связи с ними, мониторинг предоставляемых ими сервисов уже не имеет смысла.

Также критически важными являются работа серверов DNS, актуальность и своевременный перевыпуск SSL-сертификатов и точное время на оборудовании, его синхронизация.

4. По нашему опыту для круглосуточной поддержки бесперебойной работы ИТ-инфраструктуры наилучшим образом подходит скользящий график дежурств. Для всех сотрудников отдела на равноправной основе заранее составляется график, по которому каждый специалист несколько раз в месяц выполняет функции дежурного инженера. Крупные дата-центы предоставляют помещения для операторов, в которых ведутся дежурства в непосредственной близости от оборудования.

5. 100%-ной защиты, конечно же, не существует, но постараться приблизиться к этому показателю, предусмотрев известные угрозы, можно. Помимо совсем уж очевидных мер по использованию антивирусов и межсетевых экранов необходимо создание и поддержание в актуальном состоянии регламентов действий для всех сотрудников при любых критических событиях. Чем более осведомлены о порядке своих действий в любых нештатных ситуациях будут ответственные специалисты, тем скорее и легче будут устранены последствия и возвращена норма.

Также важным элементом защиты от угроз является взаимодействие с профильными участниками рынка и государственными организациями. В России такой организацией является НКЦИ – Национальный координационный центр по компьютерным инцидентам.



Андрей Малов,
директор по продукту «ТТК.Облако»


«Идеальной защиты не бывает. Но есть разумный уровень защищенности, обеспеченный за разумные деньги. Всегда нужно искать золотую середину: взвешивать, какова ценность информации в сравнении со стоимостью средств защиты этой информации»

1. С одной стороны, средства для мониторинга ИТ-инфраструктуры существуют уже десятки лет, и какие-то ноу-хау здесь вряд ли появятся. Меняется лишь выбор систем, например, для современных инфраструктур (таких как Kubernetes) используются open source решения – Zabbix, Prometheus.

С другой стороны, процесс внедрения системы мониторинга – непрерывный. В процессе модернизации инфраструктуры улучшаются и системы мониторинга: вносятся корректировки в пороги срабатывания, в триггеры, в параметры мониторинга.

2. Какие системные параметры нужно мониторить в первую очередь, а что – менее критично? Это зависит от тех параметров SLA, которые вы гарантируете бизнесу.

Например, мы в первую очередь мониторим все, что касается SLA: сетевую доступность, доступность виртуальных машин в ЦОДе, доступность аппаратного обеспечения, производительность систем хранения данных.

Во вторую очередь мы мониторим параметры, которые могут помочь нам в расследовании инцидентов. Например, если речь идет о производительности, то мы отслеживаем количество ошибок на портах, загрузку сетевых коммутаторов, хостов и так далее.

Также очень важно проводить мониторинг всего, что касается средств защиты информации, межсетевых экранов, системы обнаружения вторжений.

4. Работа ИТ-отдела и штатных системных администраторов для круглосуточной поддержки бесперебойной работы ИТ-инфраструктуры обычно выстраивается по стандартам – ITIL, ITSM, ИТ-сервис менеджмент. Как правило, есть три линии поддержки, которые обеспечивают бесперебойную работу любой ИТ-инфраструктуры.

Первая линия – дежурная смена, которая работает 24/7 и обрабатывает типовые запросы.

Вторая линия – инженеры, которые обрабатывают более сложные запросы.

И третья линия – эксперты технической поддержки вендора, решающие задачи, связанные с выявленными багами, с исправлением ошибок в прошивке устройств и так далее.

Есть и второй вариант: отдать ИТ-инфраструктуру на аутсорсинг, например, в облачные решения, и получить ее бесперебойный сервис с гарантированным SLA от провайдера облака.

5. Идеальной защиты не бывает. Но есть разумный уровень защищенности, обеспеченный за разумные деньги. Всегда нужно искать золотую середину: взвешивать, какова ценность информации в сравнении со стоимостью средств защиты этой информации.

Например, мы в облаке предоставляем клиенту набор средств, гарантирующих защиту от 95% угроз (антивирусная защита, это защита среды актуализации, сетевой экран, система обнаружения вторжений, сканеры уязвимости). Далее, в зависимости от запросов клиента, этот список расширяется.



Антон Баланов,
ТОП-менеджер, ИТ-МБА профессор и советник по экономике и социологии РАЕН


«Создание абсолютно надёжной защиты от всех возможных угроз является практически невыполнимой задачей. Однако можно значительно снизить риски, используя комплексный подход»

1. Для эффективного мониторинга ИТ-инфраструктуры рекомендуется следовать нескольким ключевым принципам.

Мониторинг должен охватывать все критически важные компоненты инфраструктуры: серверы, сетевое оборудование, системы хранения данных, приложения, базы данных и так далее. Это позволит получить целостную картину состояния ИТ-среды.

Использование единой системы мониторинга, которая агрегирует данные со всех элементов инфраструктуры, облегчает управление и анализ. Примеры таких решений – Zabbix, Nagios, Prometheus.

Внедрение автоматизированных механизмов сбора, обработки и визуализации данных повышает эффективность и снижает нагрузку на ИТ-персонал.

Система мониторинга должна быть масштабируемой и адаптируемой под меняющиеся потребности организации.

Возможность интеграции с другими ИТ-системами (Service Desk, CMDB, системы управления инцидентами) обеспечивает комплексный подход к управлению ИТ-средой.

2. Ключевые параметры для мониторинга. Наиболее критичными являются следующие системные параметры:

  • Доступность и работоспособность серверов, сетевого оборудования, приложений.
  • Загрузка процессора, оперативной памяти, дискового пространства.
  • Производительность ключевых сервисов и приложений.
  • Состояние сетевых соединений, пропускная способность каналов.
  • Логи событий и ошибок в системах.
  • Менее критичными, но также важными для мониторинга являются следующие параметры:
  • Состояние источников бесперебойного питания (UPS).
  • Температурный режим оборудования.
  • Использование лицензий программного обеспечения.
  • Состояние резервного копирования.

3. Несмотря на многообразие ИТ-решений для мониторинга, существуют следующие области, где требуется дальнейшее развитие функционала. Это-

  • Интеграция с облачными сервисами и SaaS-приложениями.
  • Возможности предиктивной аналитики и прогнозирования инцидентов.
  • Автоматизация реагирования на инциденты (автоматическое восстановление, масштабирование ресурсов).
  • Удобные средства визуализации и отчетности.
  • Расширенные возможности по кастомизации и разработке собственных мониторинговых решений.

4. Для круглосуточной поддержки бесперебойной работы ИТ-инфраструктуры рекомендуется следующая организация работы ИТ-отдела:

  • Разделение ролей и зон ответственности между системными администраторами.
  • Внедрение системы эскалации и передачи смены между сменами.
  • Использование систем автоматического оповещения о критических инцидентах.
  • Наличие регламентов и процедур реагирования на различные типы инцидентов.
  • Периодические тренировки и учения по отработке действий в нештатных ситуациях.
  • Наличие резервных каналов связи и оборудования для обеспечения отказоустойчивости.

Опыт показывает, что эффективная организация работы ИТ-отдела, сочетание автоматизации и человеческого фактора, позволяет обеспечить высокую доступность и надёжность ИТ-инфраструктуры.

5. Создание абсолютно надёжной защиты от всех возможных угроз является практически невыполнимой задачей. Однако можно значительно снизить риски, используя комплексный подход.

Технические меры:

  • Многоуровневая система защиты (межсетевые экраны, антивирусы, системы обнаружения вторжений).
  • Регулярное обновление программного обеспечения и устранение уязвимостей.
  • Использование средств шифрования, аутентификации и авторизации.
  • Резервное копирование данных и возможность быстрого восстановления.

Организационные меры:

  • Разработка и внедрение политик информационной безопасности.
  • Обучение пользователей правилам кибергигиены.
  • Регулярный аудит и тестирование системы защиты.
  • Планирование и отработка действий в случае инцидентов.

Юридические меры:

  • Соблюдение требований законодательства в области информационной безопасности.
  • Заключение соглашений с поставщиками и партнерами об обеспечении безопасности.

Комбинация технических, организационных и юридических мер позволяет создать многоуровневую систему защиты, значительно снижающую риски возникновения инцидентов. Однако полностью исключить угрозы невозможно, поэтому важна готовность к оперативному реагированию и восстановлению.



Дмитрий Нетребин,
технический директор компании «Рускомтехнологии»


«В идеале, специалисты должны сосредоточиваться не на поиске брешей, а на усилении инфраструктуры и разработке стратегий защиты»

1. В целом, существует два основных сценария организации мониторинга инфраструктуры в компаниях: использование различных распределенных систем мониторинга и мониторинг с помощью централизованной системы.

Первый вариант представляет собой традиционный подход, при котором применяются различные инструменты, такие как Zabbix для мониторинга инфраструктуры, Prometheus для сбора данных с приложений, специализированные средства мониторинга баз данных, Zipkin для трассировки, а также инструменты для оценки пользовательского опыта, такие как Яндекс.Метрика и Google Analytics для веб-приложений и AppsFlyer для мобильных приложений. Также может осуществляться отдельный мониторинг логов и безопасности, а вся информация визуализируется в Grafana.

С одной стороны, этот подход привлекателен, поскольку большинство из этих инструментов являются open source и условно бесплатными. С другой стороны, при более детальном рассмотрении выявляются существенные недостатки, такие как:

  • необходимость значительных затрат ресурсов и времени на первоначальную настройку;
  • актуализация данных в ручном режиме;
  • необходимость содержать большой штат команды мониторинга, которая будет заниматься всеми этими процессами;
  • защита от возможного «шторма алертов». Ведь даже после настройки каждой системы в отдельности, в случае инцидентов, мы можем столкнуться со «штормом алертов», когда будут поступать десятки и сотни различных событий. В таких ситуациях придется собрать рабочую группу с привлечением разных команд для совместного поиска причин проблемы. А в это время сама проблема будет нарастать и все больше влиять на конечных пользователей.

Таким образом, мы подходим ко второму сценарию организации мониторинга: использование централизованной системы мониторинга, основанной на APM (Application Performance Management) и Observability. APM охватывает все, что относится к мониторингу приложений, включая пользователей, код, инфраструктуру и аналитику, а наблюдаемость (observability) дополняет это мониторингом сети, безопасности и логов, что делает подход максимально комплексным.

Говоря о подходе APM + Observability, прежде всего, необходимо рассмотреть взаимосвязь между производительностью и безопасностью. Это обусловлено тем, что эти два аспекта не могут функционировать изолированно друг от друга. APM-платформа на базе ИИ предлагает интегрированный подход, позволяющий командам оперативно реагировать на инциденты, при этом учитывая как производственные показатели, так и потенциальные угрозы.

Для эффективного мониторинга необходимо интегрировать APM-инструменты с существующей ИТ-инфраструктурой. Вы устанавливаете агент на серверах, что позволяет собирать данные о производительности и состоянии систем в режиме реального времени. Такой подход гарантирует, что компании располагают актуальной информацией, необходимой для принятия оперативных решений.

При этом агенты автоматически сканируют окружение, обнаруживают применяемые технологии и внедряются в эти процессы. Таким образом, нет необходимости вручную прописывать их внутрь приложения или добавлять метки OpenTracing для отслеживания трассировок.

Важным элементом мониторинга является возможность анализа больших объемов данных с использованием алгоритмов искусственного интеллекта. APM позволяет выявлять аномалии и потенциальные угрозы, а также обеспечить быстрое реагирование на инциденты. Этот подход исключает ручной поиск первопричин и существенно сокращает жизненный цикл инцидентов.

Следующим важным аспектом является необходимость объединения различных метрик, что позволяет провести комплексный мониторинг производительности приложений, серверов, сетей и баз данных. APM на базе ИИ показывает корреляции между этими метриками, что в свою очередь способствует выявлению возможных проблем безопасности.

Транспарентность взаимодействий между компонентами системы также играет важную роль в обеспечении безопасности. Понимание того, как именно взаимодействуют эти компоненты, позволяет анализировать возможные пути атак и отслеживать точки входа для злоумышленников. Это знание критически важно для построения эффективной защиты.

Наконец, следует отметить, что поддержание системы мониторинга в состоянии постоянного обновления является необходимым условием для ее успешного функционирования. В идеале нужна платформа APM с модулем безопасности, который подключен к международным библиотекам Common Vulnerabilities and Exposures (CVE) и National Vulnerability Database (NVD), обеспечивая тем самым надежность и устойчивость ИТ-инфраструктуры компании.

2. Какие системные параметры нужно мониторить в первую очередь? (для ИИ нет такого понятия менее критично, так как все мониторится как совокупность элементов).

1) Производительность приложений
Время отклика: Мониторинг времени отклика приложений помогает выявить задержки, которые происходят внутри приложения, сравнивая текущие показатели с базовыми линиями за аналогичные время суток, день недели и с учетом сезонности.
Пропускная способность: Обратите внимание на увеличение или резкое изменение объема трафика к приложениям, так как это может быть сигналом о потенциальных угрозах.

2) Использование ресурсов
ЦП и память: Повышенное использование процессора или памяти может указывать на вторжение, вирус или злоумышленное ПО.
Дисковое пространство и I/O: Необычное поведение с хранилищем данных может быть признаком утечки данных или атаки.

3) Логи и события
Мониторинг журналов: Журналы событий и логи приложений могут содержать ценные сведения о попытках несанкционированного доступа и других подозрительных действиях.
Системные вызовы: Аномалии в системных вызовах могут указывать на нежелательную активность в системе.

4) Сетевые взаимодействия
Сетевой трафик: Отслеживание входящего и исходящего сетевого трафика помогает выявить аномальные модели, которые могут указывать на атаки.
Сетевые соединения: Количество соединений, особенно к нестандартным портам, может быть признаком потенциальной угрозы.

5) Управление доступом
Аутентификация и авторизация: Мониторинг успешных и неуспешных попыток аутентификации может помочь в выявлении попыток взлома учетных записей.
Изменения в правах доступа: Необычные изменения в правах доступа пользователей должны вызывать подозрения и дополнительное внимание.

6) Безопасность на уровне приложений
Уязвимости кода: Автоматизированный анализ уязвимостей в коде поможет выявить потенциальные опасности и риск перед запуском приложения в продукционной среде.
Сертификация и шифрование: Проверка конфигураций для обеспечения надлежащего шифрования данных и защиты соединений.

3. Какого функционала не хватает в имеющихся на рынке ИТ-решениях для мониторинга? Во-первых, многие из современных решений по мониторингу безопасности не обеспечивают достаточно мощной аналитики, основанной на искусственном интеллекте. Это ограничивает возможности по выявлению сложных угроз и аномалий.

Я сейчас это сравниваю с APM-платформами на базе ИИ, которые могут выявлять не только наличие уязвимостей, но и определять индекс критичности в зависимости от используемого уязвимого модуля, его доступа в интернет и возможности прямого подключения к базам данных, что может привести к потенциальной утечке конфиденциальной информации.

Кроме того, недостаточно развиты механизмы автоматического реагирования на инциденты. В то время как базовые инструменты мониторинга могут сигнализировать о наличии проблемы, они часто не способны указать на конкретные уязвимости в инфраструктуре. Это особенно критично в ситуациях, когда атака происходит, например, на банк, где время имеет решающее значение и счет идет буквально на минуты.

Точечный анализ и быстрое обнаружение уязвимостей необходимы для того, чтобы команда могла оперативно реагировать на угрозы. Если бы процессы расследования и реагирования на инциденты могли инициироваться автоматически, это значительно ускорило бы время реакции и снизило бы нагрузку на команды безопасности. В идеале, специалисты должны сосредоточиваться не на поиске брешей, а на усилении инфраструктуры и разработке стратегий защиты.

4. Как должна быть организована работа ИТ-отдела и штатных системных администраторов для круглосуточной поддержки бесперебойной работы ИТ-инфраструктуры организации? База для мониторинга безопасности в рамках APM-платформы на базе ИИ – это первая линия поддержки, состоящая из 1–2 дежурных администраторов. Они передают отчеты о брешах в инфраструктуре в отдел разработки/безопасности, данные о проблемах в коде – разработчикам, проблемы с БД – DBA’шникам. Данные по обнаруженным проблемам уже будут содержать сведения о критичности, влиянии инцидента на все окружение и, самое главное, корневую причину.

Задачи: управление и отслеживание мониторинга на дашбордах.

Навыки: знание инфраструктуры, опыт работы с инструментами мониторинга, понимание системных протоколов и сетевых технологий.

5. Создать надежную защиту от всех угроз невозможно, но можно значительно уменьшить риски, используя многоуровневый подход к безопасности:

1) Основной принцип заключается в том, что в системе должны быть несколько уровней защиты, включая сетевые экран, антивирус, системы предотвращения вторжений (IPS), шифрование данных и т.д.

2) Регулярно обновляйтесь: патчи и обновления программного обеспечения предотвращают эксплуатацию известных уязвимостей.

3) Команда всегда должна на шаг опережать угрозу – так что неплохо разбирать все громкие кейсы на рынке и сразу проверять брешь на своей системе.

4) Усильте команду с помощью APM-платформы на базе ИИ «Ключ-Астром», которые будет 24/7 мониторить безопасность системы:

  • Выявляйте аномалии в системе.
  • Выявляйте проблемы, связанных с безопасностью, через анализ задержек и утечек памяти.
  • Быстро реагируйте на подозрительные действия пользователей.
  • Анализируйте логи для выявления вторжений и аномалий.  eof 


Ключевые слова:
ИТ-инфраструктура, бесперебойная работа, безопасность, утечка памяти, ИТ-отдел.

 


Подпишитесь на журнал

Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-45
E-mail: sa@samag.ru