www.samag.ru
     
Поиск   
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Журнал "Системный администратор"
Журнал «БИТ»
Подписка
Архив номеров
Где купить
Авторам
Рекламодателям
Контакты
   

  Опросы
  Статьи

Мониторинг  

Какая задача мониторинга отнимает больше всего времени?

Многие системные администраторы тратят до 30% рабочего времени на рутину мониторинга. Но

 Читать далее...

Рынок труда  

Какие навыки вы хотите развивать в 2026 году?

Рынок труда меняется быстро. Еще вчера его называли рынком соискателей, а сегодня

 Читать далее...

Книжная полка  

От сисадмина до архитектора: книги, которые прокачают ваш стек в этом году

Новинки от издательства «БХВ» отличаются тем, что в них часто делается упор

 Читать далее...

Автоматизация  

Автоматизируем рутину: что реально работает?

Многие сисадмины автоматизировали что-то за последний год. Но далеко не все остались

 Читать далее...

Защита ИТ-системы  

Практическая защита: что вы внедрили и что мешает?

Какие меры безопасности реально внедрить в реальных условиях – и что не

 Читать далее...

Вопрос-ответ  

Обеспечиваем безопасную эксплуатацию базы данных

Что для вас чаще всего является причиной инцидентов с БД? Как вы

 Читать далее...

Книжная полка  

От «безопасного» Linux до Контролируемого взлома

Издательство «БХВ» продолжает радовать читателей интересными новинками и в наступившем году. Вы можете

 Читать далее...

1001 и 1 книга  
19.03.2018г.
Просмотров: 13369
Комментарии: 0
Машинное обучение с использованием библиотеки Н2О

 Читать далее...

12.03.2018г.
Просмотров: 13482
Комментарии: 0
Особенности киберпреступлений в России: инструменты нападения и защита информации

 Читать далее...

12.03.2018г.
Просмотров: 10939
Комментарии: 0
Глубокое обучение с точки зрения практика

 Читать далее...

12.03.2018г.
Просмотров: 5859
Комментарии: 0
Изучаем pandas

 Читать далее...

12.03.2018г.
Просмотров: 6703
Комментарии: 0
Программирование на языке Rust (Цветное издание)

 Читать далее...

19.12.2017г.
Просмотров: 6574
Комментарии: 0
Глубокое обучение

 Читать далее...

19.12.2017г.
Просмотров: 9424
Комментарии: 0
Анализ социальных медиа на Python

 Читать далее...

19.12.2017г.
Просмотров: 6032
Комментарии: 0
Основы блокчейна

 Читать далее...

19.12.2017г.
Просмотров: 6252
Комментарии: 0
Java 9. Полный обзор нововведений

 Читать далее...

16.02.2017г.
Просмотров: 10403
Комментарии: 0
Опоздавших не бывает, или книга о стеке

 Читать далее...

17.05.2016г.
Просмотров: 13858
Комментарии: 0
Теория вычислений для программистов

 Читать далее...

30.03.2015г.
Просмотров: 15331
Комментарии: 0
От математики к обобщенному программированию

 Читать далее...

18.02.2014г.
Просмотров: 17642
Комментарии: 0
Рецензия на книгу «Читаем Тьюринга»

 Читать далее...

13.02.2014г.
Просмотров: 12507
Комментарии: 0
Читайте, размышляйте, действуйте

 Читать далее...

12.02.2014г.
Просмотров: 10501
Комментарии: 0
Рисуем наши мысли

 Читать далее...

10.02.2014г.
Просмотров: 8711
Комментарии: 4
Страна в цифрах

 Читать далее...

18.12.2013г.
Просмотров: 7320
Комментарии: 0
Большие данные меняют нашу жизнь

 Читать далее...

18.12.2013г.
Просмотров: 6128
Комментарии: 0
Компьютерные технологии – корень зла для точки роста

 Читать далее...

04.12.2013г.
Просмотров: 5750
Комментарии: 0
Паутина в облаках

 Читать далее...

03.12.2013г.
Просмотров: 6071
Комментарии: 1
Рецензия на книгу «MongoDB в действии»

 Читать далее...

Друзья сайта  

 Не теряя управления

Архив номеров / 2014 / Выпуск №5 (138) / Не теряя управления

Рубрика: Администрирование /  Управление ИТ-инфраструктурой

Алексей Бережной АЛЕКСЕЙ БЕРЕЖНОЙ, независимый консультант, системный архитектор, специалист по системам виртуализации и резервного копирования, alexey.berezhnoy@tech-center.com

Не теряя управления

В статье описываются методы отказоустойчивости ИТ-инфраструктуры. Особое внимание уделяется вопросам сохранения управляемости серверов под нагрузкой

Как часто в своей работе мы забываем о некоторых на первый взгляд незначительных мелочах, которые, будучи упущенными, могут если не сыграть злую шутку, то заставить понервничать. Когда в эксплуатацию вводится новое оборудование, мало кто отдает себе отчет, что по прошествии времени с ним могут происходить удивительные вещи. И временная потеря управления по причинам, от нас не зависящим, может стать одним из событий, которые надолго остаются в нашей памяти.

С чего все началось, или Рассказ о небольшом происшествии

В свое время под моим началом оказался интересный проект по организации резервного копирования на предприятии с филиальной структурой. Аппаратное и программное обеспечение было подобрано с учетом требований заказчика, была выбрана централизованная топология резервного копирования в соответствии с уровнем организации, схема ротации носителей была настроена с учетом местной специфики. Несмотря на то что компания функционировала круглосуточно, большая часть персонала работала по 40-часовой рабочей неделе, в общем, атмосфера была довольно спокойной.

В один прекрасный день, точнее, в одну прекрасную ночь, меня поднял с постели звонок «горячей линии» той самой компании, где уже более полугода все шло тихо и ровно. Проблема оказалась в том, что менеджеры одного из дальних филиалов затеяли в выходные дни круглосуточную рекламную акцию. Как обычно, по доброй старой российской традиции, руководство центрального филиала об этом знало, но особого значения этому не придало, а ИТ-департамент, в том числе и системного администратора, вообще «забыли» предупредить.

И в самый ответственный момент оказалось, что система учета бонусов просто не работает. Инициативные менеджеры вспомнили об ИТ-службе и подняли среди ночи своего системного администратора. Он и определил, что SQL-сервер, на котором находилась база данных учета бонусов, вглухую занят каким-то очень прожорливым процессом. Проанализировав сетевой трафик, системный администратор в офисе заказчика справедливо пришел к выводу, что этот самый загадочный процесс как раз и является порождением задачи резервного копирования, запущенной, кстати, в выделенное и заранее согласованное «окно бэкапа». И теперь все это нужно каким-то образом остановить.

Ситуация осложнялась тем, что программа резервного копирования игнорировала любые попытки установки приоритетов распределения ресурсов. То есть, несмотря на любые настройки, программа-агент при интенсивной работе все равно сгребала под себя все, что можно: память, процессорное время, и начинала гнать данные сплошным потоком по сетевому интерфейсу. Кстати, довольно приличное ПО. Пока работа шла в штатном режиме, и процесс копирования запускался в специально выделенное «окно бэкапа», такой расклад всех (и заказчика в первую очередь) вполне устраивал. А тут ситуация внештатная, как говорится, «предупреждать надо». Проблемы не было бы вовсе, если бы ИТ-службу оповестили заранее. Перенастроить задания копирования на другое время – дело нескольких минут, и все прошло бы без сучка и задоринки. Но традиционно пренебрежительное отношение к ИТ сыграло свою роль, и результат не заставил себя ждать.

Выяснить причину – это хорошо, но надо как-то решать проблему. Поначалу задача казалась тривиальной: подключиться через удаленную консоль управления к серверу резервного копирования и остановить запущенное задание. Но дело в том, что подключиться к серверу управления и по совместительству медиасерверу [1] было невозможно из-за высокой нагрузки на сетевой интерфейс. Аналогичная ситуация была и с агентом резервного копирования, работавшим в тот момент на сервере SQL, – попытки остановить процесс через управляющую консоль системы резервного копирования потерпели фиаско.

Все старания на предмет подключиться по протоколу RDP (речь идет о Windows-системе) и даже посредством оснастки MMC «Удаленное управление компьютером»), чтобы штатными средствами остановить процесс копирования и продолжить работу, не увенчались успехом. Учтем и тот факт, что заказчик экономил на всем. Поэтому и KVM-switch, и средства удаленного управления типа iLO отсутствовали.

Казалось, оставался единственный на тот момент выход: послать кого-либо из местного персонала, например, охранника, чтобы выполнить холодную перезагрузку сервера SQL. С риском сорвать мероприятие и, если «повезет», разрушить базы данных.

К счастью, была еще одна лазейка, которой не воспользовались сотрудники местного подразделения ИТ. На серверах внутри периметра была установлена и запущена служба сервера Telnet. Делалось это как некий заменитель удаленного управления, для случаев, когда понадобится «что-то сделать с серверами» в сложной ситуации. Еще одна возможность, прозорливо предоставленная для ИТ-службы, – предустановленные утилиты Sysinternals [2] от Марка Руссиновича. В итоге я просто подключился к серверу по Telnet и с помощью команды pskill убил бесполезный на тот момент процесс резервного копирования. К слову сказать, на успех мероприятия данный инцидент не оказал слишком большого влияния, хотя и заставил всех понервничать.

Реже причинами подобных происшествий бывают незапланированные скачки потребления ресурсов (например, генерация «тяжелых» запросов на сервере Баз данных) или утечка памяти из-за криво работающего очередного обновления, призванного «улучшить работу системы». Но в данной статье мы коснемся в основном вопросов снижения сетевой нагрузки и поиска обходных путей для обеспечения бесперебойной работы системы в любой ситуации. Что же касается других причин, в конце статьи будет представлено несколько полезных рекомендаций.

Статью целиком читайте в журнале «Системный администратор», №5 за 2014 г. на страницах 22-26.

алексей

Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-45
E-mail: sa@samag.ru