Автор:
Владимир Брюков
|
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
Редкий сисадмин не жалуется на чрезмерную нагрузку, постоянные авралы и задержки после работы, в то время как его начальство, напротив, зачастую склонно утверждать, что для штатной должности у него мало работы, а потому его вполне можно заменить приходящим ИТ-специалистом. Очевидно, что оценки обеих сторон, сделанные без изучения объема загрузки штатного сотрудника, неизбежно грешат изрядной долей субъективизма и могут способствовать принятию ошибочного кадрового решения.
Распределение Пуассона и статистика ИТ-инцидентов
На наш взгляд, наиболее адекватным способом определения потребности компании в оптимальном штате сисадминов является использование соответствующих статистических методов, которые уже давно используется для оптимизации систем массового обслуживания (СМО). При этом основной задачей теории СМО является изучение и оптимизация режима функционирования обслуживающей системы, в том числе и с использованием методов статистики.
Вполне очевидно, что процесс поддержания в рабочем состоянии локальной ИТ-сети носит двусторонний характер. С одной стороны, то есть со стороны персонала сети, наблюдается случайный (с точки зрения времени поступления) поток требований на устранение компьютерных инцидентов – отказов в ИТ-оборудовании, которые привели к прекращению работы одного или сразу нескольких пользователей локальной сети. С другой стороны, то есть со стороны работающих в компании сисадминов, идет встречный поток работ по устранению ИТ-инцидентов, который зависит от времени их возникновения, а, следовательно, также носит случайный характер.
С точки зрения статистической науки процесс возникновения инцидентов в локальной сети можно рассматривать как случайный (стохастический) марковский процесс. Случайный процесс называется марковским в том случае, если вероятностные характеристики этого процесса в будущем, т.е. в момент времени t+1, зависят только от его состояния в настоящий момент времени t и не зависят от его предыдущих состояний.
Следует заметить, что оба встречных потока – как поток требований, сигнализирующих о возникновении инцидентов, так и поток сисадминских работ по их устранению – достаточно хорошо описывается законом распределения Пуассона. При этом пуассоновским распределением называется вероятностное распределение дискретного типа, которое моделирует случайную величину, представляющую собой число событий, произошедших за фиксированное время, при условии, что данные события происходят с некоторой фиксированной средней интенсивностью и независимо друг от друга. Распределение Пуассона играет ключевую роль в теории массового обслуживания.
Теперь посмотрим, как можно использовать статистические методы для оптимизации процесса устранения инцидентов в локальной сети на конкретном примере крупной компании, в которой работают два сисадмина. Допустим, что руководство этой компании, обеспокоенное слишком длительными простоями в связи с инцидентами, решило подробно изучить данную проблему с целью оптимизации штатной численности сисадминов.
На первом этапе данного исследования необходимо обеспечить подробное документирование всех инцидентов, возникающих в локальной сети. С этой целью в компании должен вестись журнал регистрации ИТ-инцидентов. При этом каждый инцидент и работы по его устранению должны фиксироваться записью, содержащей следующую информацию:
- порядковый номер инцидента;
- дату и время его возникновения;
- описание характера инцидента (какие сбои возникли в ИТ-оборудовании);
- перечень работ по устранения инцидента;
- дата и время устранения инцидента;
- причина инцидента, оценка оперативности его устранения и меры по профилактике.
По всей видимости, ведение такого рода журнала лучше поручить техническому отделу, контролирующему работу сисадминов. После того как компанией будет накоплена достаточно большая статистика по инцидентам, например, за 800 последних рабочих часов, можно приступать ко второму этапу нашего исследования.
На основе журнала регистрации ИТ-инцидентов нужно все 800 часов наблюдений сгруппировать по частоте зафиксированных инцидентов. В результате у нас получилось шесть групп наблюдений, с количеством зарегистрированных в течение каждого часа инцидентов от 0 до 5 случаев – см. таблицу 1.
Таблица 1. Фактическое и теоретическое распределение (согласно закону Пуассона) частоты инцидентов по результатам 800 часов наблюдений
№ группы наблюдений |
Количество инцидентов в течение одного часа, m |
Фактическая частота инцидентов, S факт.
|
Общее количество инцидентов в группе наблюдений, S факт.*m |
Теоретическая частота инцидентов, согласно распределению Пуассона, Sтеор. |
Расчеты для получения χ2факт. по формуле (3) |
1 |
0 |
83 |
0 |
90 |
0,59 |
2 |
1 |
187 |
187 |
197 |
0,51 |
3 |
2 |
218 |
436 |
215 |
0,05 |
4 |
3 |
172 |
516 |
156 |
1,59 |
5 |
4 |
94 |
376 |
85 |
0,91 |
6 |
5 |
46 |
230 |
37 |
2,10 |
Итого |
- |
800 |
1745 |
781 |
5,75 |
Источник: расчеты автора
При этом среднее значение потока ИТ-инцидентов, а, следовательно, и потока обращений на их устранение находится по следующей формуле:
(1)
где m – количество обращений за устранением инцидентов в течение одного часа; Sфакт. – фактическая (эмпирическая) частота данных обращений.
Следовательно, 800 часов наблюдений за работой локальной сети показало, что в среднем от пользователей к сисадминам поступает 2,181 обращения по поводу инцидентов в час.
Прежде чем перейти к последующим расчетам нам необходимо убедиться в том, что фактическая (эмпирическая) частота обращений по поводу инцидентов соответствует их теоретическим частотам, вычисленным согласно распределению Пуассона. При этом расчеты нужно сделать по следующей формуле:
(2)
где е – экспонента = 2,71828…
Результаты вычислений по формуле (2) можно посмотреть в таблице 1 (см. раздел «Теоретическая частота инцидентов, согласно распределению Пуассона»).
Далее проверим нулевую гипотезу о соответствии потока обращений по устранению инцидентов распределению Пуассона. С этой целью будем использовать критерий χ2, фактическая величина которого рассчитывается таким образом:
(3)
где Sтеор. – теоретическая частота обращений.
Результаты вычислений по формуле (3) можно посмотреть в таблице 1 в разделе «Расчеты для получения χ2факт. по формуле (3)». Теперь сравним фактическую величину χ2факт. с его критическим значением χ2крит. при 5% (чаще всего используемом) уровне значимости и 4 степенях свободы. Причем, уровень значимости задается самим исследователем в зависимости от его желания получить более надежный результат (например, при 5% уровне значимости существует 5% риск сделать ошибочный вывод).
При этом число степеней свободы в нашем случае находятся следующим образом = количество групп наблюдений -2 =6-2=4; где количество групп наблюдений взято из таблицы 1 (см. раздел № группы наблюдений).
Далее находим (либо в таблице, имеющейся в приложении к любому вузовскому учебнику по статистике, либо в Excel, с помощью функции =ХИ2ОБР(0,05;4)), что при 5% уровне значимости и 4 степенях свободы критическое значение χ2крит. = 9,49. Поскольку χ2факт. = 5,75 ◄ χ2крит. = 9,49, то можно сделать вывод, что поток обращений за устранением инцидента имеет пуассоновское распределение.
Благодаря ведению журнала регистрации ИТ-инцидентов нам удалось выяснить, что за 800 часов наблюдений двое сисадминов на устранение 1745 инцидентов потратили в общей сложности 1454,2 часов своего рабочего времени. Следовательно, среднее время, затрачиваемое сисадмином на устранение одного инцидента, находится следующим образом Tср. устр.= 1454,2/1745=0,833*60= 50 минутам, а средняя интенсивность устранения компьютерных инцидентов μср. = 1/ Tср. устр.=1/0,833=1,20 инцидента в час.
Далее найдем общий параметр загрузки двух сисадминов компании работой по устранению инцидентов по следующей формуле:
(4)
где λср. ‑ среднее за 1 час количество обращений к сисадминам по поводу инцидентов.
Таким образом общий параметр фактической загрузки двух сисадминов оказался лишь на 0,182 пункта ниже аналогичного уровня их полной загрузки, равного 2. Заметим, что в последнем случае предполагается, что сисадмины должны тратить все свое рабочее время лишь на устранение инцидентов.
Однако еще более наглядным является расчет другого показателя – коэффициента загрузки одного сисадмина:
(5)
где n – количество сисадминов.
Данный показатель позволяет нам сделать вывод, что 90,9% своего рабочего времени сисадимин в данной компании тратит на устранение инцидентов и лишь 9,1% – на выполнение прочих работ. Причем, в том случае, если коэффициент загрузки одного сисадмина ψ ► 1, то тогда данная СМО считается нестационарной, то есть при таком коэффициенте загрузки одного сисадмина поток обращений по поводу устранения инцидентов к нему будет постоянно нарастать.
Дело в том, что любую СМО можно представить в виде марковской непрерывной цепи, которую называют процессом гибели и размножения, поскольку графы ее состояний представляют собой цепочку, в которой каждое из промежуточных состояний связано прямой и обратной связью с каждым соседним состоянием. (См. например, «Справочник по математике для экономистов». Под ред. проф. В. И. Ермакова, – М.: Высшая школа., 1987, с. 302).
Согласно последнему определению, графы состояний двухканальной (так как в данной компании работает два сисадмина) СМО с ожиданием – для процесса работы сисадминов с обращениями по поводу инцидентов в локальной сети – будет иметь следующий вид:
Рисунок 1
На рисунке 1 символы S0, S1, S2 и т.д. – обозначают различные состояния СМО, причем, их нижние индексы указывают на количество (0,1,2 и т.д.) инцидентов, с которыми в данный момент работают сисадмины. В свою очередь S2+k – обозначает состояние СМО после достижения ею полной загрузки (когда все сисадмины заняты устранением отказов в работе локальной сети) при S2, а нижний индекс k указывает на количество обращений пользователей, ожидающих устранения сбоя, возникшего в работе их компьютера. Направленные влево стрелки указывают на поток требований λ, которые в нестационарном СМО с ожиданием теоретически могут уйти в бесконечность; направленные вправо стрелки указывают на количество услуг μ и 2μ, предоставляемых сисадминами пользователям.
Поскольку в исследуемом нами случае коэффициент загрузки одного сисадмина равен 0,909, то, следовательно, данную СМО можно считать стационарной. Таким образом можно сделать вывод, что в данной системе массового обслуживания скорость устранения сисадминами возникающих компьютерных инцидентов в среднем превышает количество обращений пользователей за помощью. Отсюда можно сделать вывод, что в локальной сети данной компании количество инцидентов не будет расти до бесконечности, как это бывает в нестационарных СМО.
Эффект от увеличения штата сисадминов
Вполне естественно, что в зависимости от штатной численности сисадминов их коэффициент загрузки в компании будет существенно меняться – см. таблицу 2. В том случае, если бы в этой компании работал бы только один сисадмин, то тогда данная СМО была бы нестационарной. В этой ситуации сисадмину пришлось бы заниматься устранением инцидентов в течение всего рабочего времени, а также еще и оставаться сверхурочно. Причем, для устранения всех инцидентов в нестационарной СМО рабочий день сисадмина потребовалось бы увеличить в 1,817 раза!
Уже при двух сисадминах СМО в данной компании становится стационарной, правда, при этом почти все свое рабочее время им приходится заниматься лишь устранением возникающих в сети инцидентов. Если штат сисадминов в этой компании увеличить до трех человек, то в этом случае коэффициент загрузки каждого из них ψ будет равен 0,606. Иначе говоря, 60,6% своего рабочего времени они будут тратить на устранение инцидентов. Следовательно, каждый сисадмин сможет в среднем использовать 39,4% своего рабочего времени для профилактики инцидентов, а также заниматься совершенствованием локальной сети, согласно утвержденному руководством плану.
Таблица 2. Изменение коэффициента загрузки сисадминов в зависимости от их штата
Количество сисадминов, n |
Коэффициент загрузки одного сисадмина, |
Характеристика СМО |
Доля рабочего времени, затрачиваемого сисадминами на устранение инцидентов, в % |
Количество не устраненных инцидентов в сети |
1 |
1,817 |
Нестационарная |
100,0 |
Постоянно растет |
2 |
0,908 |
Стационарная |
90,8 |
Медленно сокращается |
3 |
0,606 |
Стационарная |
60,6 |
Быстро сокращается |
4 |
0,454 |
Стационарная |
45,4 |
Быстро сокращается |
5 |
0,363 |
Стационарная |
36,3 |
Быстро сокращается |
Источник: расчеты автора
Вполне очевидно, что от длительных простоев, вызванных инцидентами в сети, компания может нести значительные потери. В связи с этим нужно уметь рассчитывать время, необходимое для устранения инцидента.
Поскольку нас интересует продолжительность времени, в течение которого пользователь ожидает сисадминскую помощь, то эту задачу следует решать, исходя из предположения об экспоненциальном (показательном) распределении данного интервала ожидания. Заметим, что экспоненциальное распределение представляет собой абсолютно непрерывное распределение, моделирующее время между двумя последовательными состояниями одного и того же события. В данном случае экспоненциальное распределение поможет нам смоделировать время ожидания с момента возникновения и до момента полного устранения инцидента. Правда, при этом не учитывается тот факт, что на практике очередь на устранение инцидента зависит не только от времени его возникновения, но и от серьезности ИТ-сбоя, так как предполагается, что общее количество ожидающих своего устранения инцидентов от этого не меняется.
Далее будем использовать формулы, которые применяются для СМО с ожиданием (без ограничения длины очереди), имеющих пуассоновский поток входящих требований и экспоненциально распределенное время ожидания очереди обслуживания. Например, вероятность полного простоя сисадмина (то есть когда нет ни одного обращения пользователя – на рисунке 1 это состояние обозначено символом S0) для данного СМО можно рассчитать по следующей формуле:
(6)
где n – количество сисадминов, обслуживающих пользователей; i – нижний индекс у S0, S1, S2, Si – обозначает число обращений, поступивших в данный момент к сисадминам.
Предположим, что в компании на основе данных таблицы 2, было принято решение об увеличении штата сисадминов до трех человек. В связи с этим попробуем рассчитать вероятность ситуации, когда в локальной сети будут отсутствовать инциденты, а, следовательно, и очередь на их устранение.
Для случая, когда пользователей обслуживают три сисадмина, имеющих общий параметр загрузки в ρ=1,818 (см. формулу 4), вероятность простоя находится следующим образом:
Следовательно, при трех сисадминах и указанной выше величине общего параметра их загрузки в локальной сети компании в течение 17,1% рабочего времени будут отсутствовать не устраненные инциденты.
Следующий важный показатель – средняя длина очереди для СМО с ожиданием находится по формуле:
(7)
После чего можно найти среднее время ожидания:
(8)
Таким образом при обслуживании тремя сисадминами средняя длина очереди оказалась равна 0,669 обращениям в час, а среднее время ожидания устранения ИТ-инцидента – 0,306 часа или (0,306*60)=18,4 минутам. Для сравнения заметим, что при обслуживании двумя сисадминами средняя длина очереди в данной сети была равна 8,651 обращениям в час, а среднее время ожидания устранения инцидента – 238,0 минутам или 3 часам 58 минутам. Очевидно, увеличение штата сисадминов с двух до трех человек в данном случае можно считать вполне оправданным, в то время как прежнюю скорость обслуживания ИТ-пользователей нельзя назвать приемлемой, поскольку она наносила серьезный материальный ущерб работе компании.
Что дает сокращение времени устранения инцидента
Впрочем, простое увеличение штатной численности обслуживающего персонала далеко не всегда является оптимальным решением. Допустим, руководство компании, изучив ситуацию с инцидентами в локальной сети, могло прийти к выводу, что главной причиной их медленного устранения является квалификация сисадминов, недостаточно хорошо знающих специфику используемого программного обеспечения и ИТ- оборудования.
Если этот вывод будет признан обоснованным, то тогда вместо увеличения штатов, может быть принято решение, например, о посылке сисадминов на курсы повышения квалификации. Кроме того, в качестве дополнительной меры может быть введена система материального поощрения сисадминов за сокращение среднего времени устранения инцидента.
Допустим, что после этого время, затрачиваемое на устранение инцидентов, действительно начнет сокращаться. Теперь попробуем оценить, как интенсификация работы сисадминов повлияет на сокращение средней длины очереди и среднего времени ожидания пользователя. С этой целью будем постепенно сокращать среднее время, затрачиваемое сисадмином на устранение инцидента Tср. устр., равное 50 минутам, до 30 минут с интервалом в одну минуту. Вполне очевидно, что, например, при Tср. устр. = 30 минут или =0,5 часа, средняя интенсивность устранения компьютерных инцидентов μср. = 1/ Tср. устр.=1/0,5 =2 инцидента в час. В свою очередь, общий параметр загрузки двух сисадминов будет равен (см. формулу 4):
Подставляя в формулы 6,7 и 8 соответствующие значения ρ1 (для разной величины Tср. устр.), вычислим значения P0, M ож. и Tож. для разного среднего времени устранения инцидента в сети. При этом штатная численность сисадминов в офисе остается неизменной, то есть будет равно двум человекам. Полученные результаты поместим в таблицу 4.
Таблица 4. Улучшение качества обслуживания ИТ-пользователей тремя сисадминами при сокращении времени обслуживания
Среднее время устранения инцидента Tср. устр., в мин |
Средняя интенсивность устранения инцидентов μср. |
Вероятность простоя всех сисадминов P0, в % |
Общий параметр загрузки двух сисадминов ρ |
Коэффициент загрузки одного сисадмина, ψ |
Средняя длина очереди, M ож., инцидентов в час |
Среднее время ожидания пользователя Tож., в мин. |
50 |
1,20 |
4,77 |
1,818 |
0,909 |
8,651 |
238,0 |
49 |
1,22 |
5,03 |
1,781 |
0,891 |
5,943 |
163,5 |
48 |
1,25 |
5,30 |
1,745 |
0,873 |
4,332 |
119,1 |
47 |
1,28 |
5,60 |
1,709 |
0,854 |
3,288 |
90,4 |
46 |
1,30 |
5,91 |
1,672 |
0,836 |
2,574 |
70,8 |
45 |
1,33 |
6,25 |
1,636 |
0,818 |
2,064 |
56,8 |
44 |
1,36 |
6,61 |
1,600 |
0,800 |
1,688 |
46,4 |
43 |
1,40 |
7,00 |
1,563 |
0,782 |
1,402 |
38,6 |
42 |
1,43 |
7,42 |
1,527 |
0,763 |
1,180 |
32,5 |
41 |
1,46 |
7,87 |
1,491 |
0,745 |
1,005 |
27,6 |
40 |
1,50 |
8,36 |
1,454 |
0,727 |
0,863 |
23,7 |
39 |
1,54 |
8,89 |
1,418 |
0,709 |
0,747 |
20,6 |
38 |
1,58 |
9,45 |
1,381 |
0,691 |
0,651 |
17,9 |
37 |
1,62 |
10,06 |
1,345 |
0,673 |
0,571 |
15,7 |
36 |
1,67 |
10,73 |
1,309 |
0,654 |
0,503 |
13,8 |
35 |
1,71 |
11,44 |
1,272 |
0,636 |
0,445 |
12,2 |
34 |
1,76 |
12,21 |
1,236 |
0,618 |
0,395 |
10,9 |
33 |
1,82 |
13,05 |
1,200 |
0,600 |
0,352 |
9,7 |
32 |
1,88 |
13,96 |
1,163 |
0,582 |
0,314 |
8,6 |
31 |
1,94 |
14,94 |
1,127 |
0,563 |
0,281 |
7,7 |
30 |
2,00 |
16,00 |
1,091 |
0,545 |
0,251 |
6,9 |
Источник: расчеты автора
Как следует из таблицы 3, в том случае, если удастся сократить среднее время устранения инцидента с 50 до 38 минут, средняя длина очереди M ож. уменьшиться до 0,651 инцидента в час, а среднее время ожидания пользователя Tож. – до 17,9 минут. Таким образом оба этих важных параметра, характеризующих скорость устранения инцидентов в локальной сети, окажутся несколько лучше, чем при простом увеличении штата сисадминов с двух до трех человек.
Правда, коэффициент загрузки одного сисадмина ψ в этом случае будет равен 0,691. Следовательно, каждый из двух сисадминов сможет заниматься профилактикой и работать над совершенствованием локальной сети в среднем лишь 30,9 % своего рабочего времени. Только в случае сокращения среднего времени устранения инцидента до 33 минут эта цифра может быть увеличена до 40,0%, что несколько больше, чем при увеличении штата сисадминов до трех человек.
Основные выводы
- Наиболее адекватным способом выяснить реальную потребность компании в штатной численности сисадминов является использование статистических методов.
- Для получения статистики по инцидентам в локальной сети техническому отделу компании нужно организовать их подробное документирование с помощью журнала регистрации ИТ-инцидентов.
- Полученную статистику по инцидентам в сети необходимо проверить на соответствие фактической (эмпирической) частоты обращений по инцидентам их теоретическим частотам, вычисленным согласно распределению Пуассона.
- В том случае, если руководство компании придет к выводу о необходимости увеличения штата сисадминов, предлагаемые нами статистические методы позволяют оценить ожидаемый эффект от данной меры.
- Эффект от увеличения штата сисадминов необходимо сравнить с эффектом от сокращения среднего времени обслуживания инцидента, в том случае, если в компании существуют возможность для данного сокращения.
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
|