Рубрика:
Наука и технологии
|
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
ЛУШПА И.Л., аспирант 3-го г.о. Департамента электронной инженерии НИУ ВШЭ, г. Москва, ilushpa@hse.ru
ПОЛЕССКИЙ С.Н., к.т.н., доцент Департамента компьютерной инженерии НИУ ВШЭ, г. Москва, spolessky@hse.ru
Методика оценки надежности систем охлаждения центров обработки данных
В статье проведен обзор основных типов систем охлаждения центров обработки данных и методов оценки показателей надежности. Создана методика, позволяющая учесть характеристики надежности составных частей систем охлаждения, а именно механическую часть, что отличает ее от стандартных подходов оценки надежности. Это позволяет дать более точный прогноз по значениям показателей надежности. Стандартные расчетные модели интенсивностей отказов проанализированы и дополнены поправочными коэффициентами, отсутствующими ранее в них. Полученная методика применима на различных этапах проектирования центров обработки данных, а также в условиях, когда имеется минимальное количество данных о создаваемом объекте
Сегодня постоянно растет человеческая потребность в вычислительной технике. С каждым годом увеличивается сложность решаемых ими задач. Это приводит к созданию более совершенных технологий и средств вычислительной техники. Наряду с преимуществами, получаемыми с этим развитием, появляются сопутствующие проблемы.
Во-первых, на содержание любого серьезного центра обработки данных (ЦОД) необходимо затрачивать огромное количество электроэнергии. Во-вторых, значительное энергопотребление порождает большие мощности, что, соответственно, перерастает в колоссальное тепловыделение. Поэтому при создании серверных в первую очередь обращают внимание на системы охлаждения.
Например, для обеспечения качественной работы своих серверов компания Google установила специально разработанную подразделением DeepMind автоматизированную систему, основанную на работе нейросетей, а компания Microsoft установила свой дата-центр на дне моря для обеспечения охлаждения морской водой [1].
Согласно статистике отказ систем охлаждения входит в пятерку наиболее часто возникающих поломок в ЦОД [2]. В основе этих отказов лежат конструктивные особенности кондиционеров, а именно входящих в их состав подвижных частей (механических компонентов). На рис. 1 представлен вклад систем охлаждения в общее количество отказов ЦОД.
Рисунок 1. Вклад систем охлаждения в общее число отказов ЦОД
Помимо этого стоит отметить, что отказы системы охлаждения опасны еще и тем, что они приводят к отказам других составных частей ЦОД. В частности, наиболее слабым местом любого сервера являются жесткие диски [3], а с ростом температуры повышается вероятность отказа, также на повышение температуры окружающей среды реагируют блоки питания, и в случае, когда температура близка к предельной, возможна неожиданная перезагрузка или выход его из строя, с чем, например, не так давно столкнулись специалисты компании Facebook [4, 5]. Помимо этого, повышение температуры негативно влияет на входящие в состав материнских плат, видеокарт и прочих компонентов.
Так, по данным компании Opengate Data Systems, при отказе системы охлаждения стандартная серверная стойка с потребляемой мощностью менее 10 кВт выйдет из строя через 3 минуты, более 10 кВт – через одну минуту [6, 7]. Из чего можно сделать вывод, что при создании серверных комнат или дата-центров необходимо с большим вниманием отнестись к вопросам надежности систем охлаждения.
Обзор систем охлаждения
В основе типовых систем охлаждения лежит компрессорный кондиционер, пример которого изображен на рис. 2. В нем тепло переносится хладагентом (это фреон, вода, этиленгликоль) от внутриблочного радиатора во внешний, с которого тепловая энергия рассеивается в окружающую среду. По типу системы охлаждения можно разделить на бытовой и прецизионный [8, 9].
Рисунок 2. Схема работы компрессорного кондиционера
Системы охлаждения на основе бытовых кондиционеров или сплит-систем (пример схемы представлен на рис. 3), как правило, устанавливаются в небольших серверных. Сплит-системы состоят из двух частей – внутреннего блока ивнешнего, в котором находится резервуар с охлаждающим газом, циркулирующим по медным трубкам, охлаждая воздух, попадающий в серверную. Типовая структура внешнего блока состоит из компрессора, конденсатора, капиллярной трубки, клапана, фильтра и вентилятора.
Рисунок 3. Схема бытового кондиционера
Системы охлаждения на основе прецизионных кондиционеров (пример схемы представлен на рис. 4) применяются в ЦОДах, где необходимо сохранять температуру с заданными конечными параметрами. Прецизионные кондиционеры состоят из вентиляционного агрегата, фильтра, холодильной машины водяного воздухонагревателя и электрического калорифера.
Рисунок 4. Схема прецизионного кондиционера
Системы охлаждения на основе фрикулинга (схема представлена на рис. 5) устанавливаются в тех местах, где возможно охлаждать вычислительную технику средствами окружающей среды. Как правило, такие системы строго индивидуальные и строятся исходя из характеристик помещения и месторасположения, таким образом, подразделяясь на прямой и косвенный фрикулинг. Разница между ними в том, что в прямом воздух попадает сразу из окружающей среды, а косвенном проходит промежуточные этапы. По сути, это приточно-вытяжная установка с камерой, в которой фильтруется и регулируется поступаемый воздух.
Рисунок 5. Схема фрикулинга
На основе анализа выше представленных схем (см. рис. 3-5) и их описания можно сделать вывод, что с точки зрения надежности состав системы охлаждения сводится к электродвигателю, передающим трубкам, резервуару с хладагентом, сварке, резьбовым соединениям и ряду более мелких компонентов. Типовая структурная схема надежности (ССН) системы охлаждения представлена на рис. 6 в виде последовательного соединения (критерий отказ – отказ любого компонента).
Рисунок 6. Типовая ССН системы охлаждения ЦОД
Сейчас, когда говорят о вопросах надежности систем охлаждения, как правило, подразумевают гарантийный срок, предоставляемый разработчиками таких систем (это является главным заблуждением). Реально же это значение не отражает действительной надежности системы, так как гарантийная наработка – это наработка изделия, до завершения которой изготовитель гарантирует и обеспечивает выполнение установленных требований к изделию при условии соблюдения правил эксплуатации, то есть нижнюю границу времени эксплуатации, которая зачастую значительно меньше требуемых значений. В условиях долгосрочного использования системы охлаждения такой подход не имеет практической пользы.
В тех случаях, когда гарантийная наработка не удовлетворяет требованиям, проводят испытания на надежность – комплекс мероприятий по определению показателей на этапах проектирования и производства. Испытания дают достаточно точную оценку показателей, но имеют ряд существенных недостатков. Во-первых, они ресурсозатратные, требуют большого количества средств и времени, а во-вторых, в процессе испытания затрачивается значительное количество ресурса испытуемой партии. Также необходимо добавить, что в силу этих проблем производители, как правило, не проводят испытания на надежность, из-за чего в технических условиях на систему охлаждения данные по надежности неприводятся.
Так как инженерам, занимающимся проектированием серверных (ЦОД) приходится работать с покупными изделиями и иметь дело с ограниченным количество данных по системе охлаждения, рекомендуется использовать универсальной, наиболее распространенный подход – методику прогнозирования по λ-характеристикам.
Методика прогнозирования по λ-характеристикам
Методика прогнозирования по λ-характеристикам (или прогнозирование интенсивности отказов) основана на экспоненциальном распределении, которое представляет собой однопараметрическую функцию, широко используется благодаря простоте модели [19].
В общем виде методика изображена на рис. 7 в виде IDEF0-диаграммы. Она включает в себя пять этапов (А1-А5). Подробное описание методики приведено ниже. За основу взяты следующие литературные источники [10, 11, 12].
Рисунок 7. Методика прогнозирования интенсивностей отказов в формате IDEF0-диаграммы
Блок А1 – на основе технического задания, поставленной задачи и условий эксплуатации проводится анализ возможных решений и выбирается тип системы охлаждения, а после конкретный типономинал.
Блок А2 – изучив составные части, входящие в состав системы охлаждения, составляется ССН. ССН представляет графическое отображение режимов функционирования сложного объекта, на котором показывается, как отказы составных частей влияют на отказ всей системы в соответствии с [20].
Блок А3 – согласно полученной ССН проводится моделирование. В специализированных программных средствах по математическим моделям, представленных в справочниках, посвященных оценке интенсивностей отказов, выполняются расчеты показателей безотказности.
Блок А4 – полученные результаты анализируются и сравниваются с искомыми.
Блок А5 – дается оценка полученным результатам и формируются рекомендации по повышению надежности. В случае несоответствия необходимо повторить все шаги начиная с Блока А1.
Используя данную методику, можно получить реальную оценку показателей надежности системы охлаждения ЦОД, решив ряд проблем этой методики.
Первая проблема – существует допущение, гласящее, что если в составе электронного изделия присутствуют механические компоненты, удовлетворяющие требованиям стойкости, то они абсолютно надежны.
А как показывает статистика, в системах охлаждения основная часть отказов приходится на подвижные объекты, то есть на механическую часть.
Несмотря на это допущение, существует несколько методик, позволяющих рассчитать надежность механических элементов по справочникам «Надежность ЭРИ» [13], MIL-HDBK-217F [14], справочным материалам ИПУ РАН [15], NSWC-11/LE10 [16].
Математическая модель, представленная в справочнике «Надежность ЭРИ», имеет вид:
(1)
где:
- λб.с.г.эл. – базовая среднегрупповая интенсивность электрических отказов;
- Kt – поправочный коэффициент, зависящий от температуры нагрева изоляции;
- λб.с.г.м. – базовая среднегрупповая интенсивность механических отказов;
- KT.n.t. – поправочный коэффициент, учитывающий влияние наработки, частоты вращения и температуры окружающей среды;
- Kэ – поправочный коэффициент, учитывающий условия эксплуатации.
Математическая модель (1) позволяет учесть только наиболее ненадежный элемент системы охлаждения – электродвигатель, что дает большую погрешность в оценке надежности. Помимо этого, данная модель применима только длядвигателей малой мощности, что также не дает возможности в полной мере оценить надежность системы охлаждения.
Математическая модель, представленная в MIL-HDBK-217F, имеет вид:
(2)
где:
- λ1 и λ2 – интенсивности отказов, зависящие от предполагаемого времени наработки двигателя;
- A и B – поправочные коэффициенты, зависящие от типа двигателя;
- αB – коэффициент распределения Вейбулла, зависящий от типа подшипника;
- αW – коэффициент распределения Вейбулла, зависящий от типа обмотки.
Математическая модель (2) имеет те же проблемы, что и модель (1). Поэтому результат расчета будет иметь также большую погрешность.
В справочном материале ИПУ РАН отсутствует единая расчетная модель, зато присутствуют формулы для ряда составных частей, входящих в систему охлаждения, таких как соединения сварные и резьбовые, валы, узлы передачи, прокладки, и в общем виде модель выглядит так:
(3)
где:
- λ0 – интенсивность отказов в номинальном режиме и нормальных условиях;
- К1 – поправочный коэффициент, учитывающий воздействие вибрации;
- К2 – поправочный коэффициент, учитывающий воздействие ударов;
- К3 – поправочный коэффициент, учитывающий воздействие климата;
- К4 – поправочный коэффициент, учитывающий воздействие качества обслуживания;
- К5 – поправочный коэффициент, учитывающий воздействие качества изготовления;
- ak – поправочный коэффициент, учитывающий тип элемента.
Проблемой модели (3) является малое количество учитываемых составных частей системы охлаждения, а также то, что поправочные коэффициенты не зависят от физико-химических параметров механического компонента. Всекоэффициенты имеют табличный вид, полученный статистическим путем.
В справочнике NSWC (Naval Surface Warfare Center, Военно-морской центр) представлено большое количество моделей интенсивностей отказов механических компонентов, из которых в состав системы охлаждения входят двигатели, трубопроводы, резервуары, фильтры.
Математическая модель интенсивности отказов двигателей имеет вид:
(4)
где:
- λM,B – базовая интенсивность отказов рассматриваемогоэлектродвигателя;
- СSF – поправочный коэффициент, учитывающий влияние нагрузки;
- λWI – интенсивность отказов обмотки;
- λBS – интенсивность отказов щеток;
- λST – интенсивность отказов корпуса;
- λAS – интенсивность отказов вала;
- λBE – интенсивность отказов подшипника;
- λGR – интенсивность отказов зубчатой передачи;
- λC – интенсивность отказов конденсатора.
Математическая модель интенсивности отказов трубопроводов имеет вид:
(5)
где:
- λP,B – базовая интенсивность отказов трубопровода;
- СE – поправочный коэффициент, учитывающий влияние нагрузки.
Математическая модель интенсивности отказов резервуаров имеет вид:
(6)
где:
- λSE – интенсивность отказов прокладки;
- λSP – интенсивность отказов пружины;
- λPC – интенсивность отказов крышки резервуара;
- λVA – интенсивность отказов контрольного вентиля;
- λCW – интенсивность отказов стенок резервуара.
Математическая модель интенсивности отказов фильтров имеет вид:
(7)
где:
- λF,B – базовая интенсивность отказов фильтра;
- CDP – поправочный коэффициент, учитывающий влияние давления жидкости;
- CV – поправочный коэффициент, учитывающий влияние вибрации;
- CCS – поправочный коэффициент, учитывающий влияние «холодного старта»;
- CCF – поправочный коэффициент, учитывающий влияние скорости потока жидкости.
Представленное выше описание математических моделей (1)-(7) из различных источников [13-16] говорит, что наиболее подробные модели представлены в стандарте NSWC. Хотя и эти модели имеют свои недостатки, в частности, ряд поправочных коэффициентов представлены в американской системе измерений или характерны для американского рынка, а также рассматриваются не все возможные влияния, приводящие к отказу, что приводит к противоречивой адекватности модели и погрешности в оценке показателей надежности системы охлаждения ЦОД [17, 18].
Для этого потребовались адаптация и дополнение моделей из стандарта NSWC, а именно предлагается ввести комплексную математическую модель расчета интенсивности отказов системы охлаждения, имеющую вид согласно ССН, приведенной на рис. 6:
(8)
где:
- λдв – интенсивность отказов двигателя;
- λт – интенсивность отказов трубопровода;
- λрез – интенсивность отказов трубопровода;
- λсс – интенсивность отказов сварного соединения;
- λрс – интенсивность отказов резьбового соединения;
- λф – интенсивность отказов фильтра.
В модели (8) используются интенсивности отказов, которые рассчитываются по моделям (1)-(7).
Расчет характеристик надежности системы охлаждения ЦОД
Для примера рассчитаем интенсивность отказов и среднюю наработку до отказа кондиционера SRK50ZS-ST-SB фирмы Mitsubishi, изображенного на рис. 8, по модели (8).
Рисунок 8. Кондиционер SRK50ZS-ST-SB фирмы Mitsubishi
В качестве условий эксплуатации принята температура окружающей среды, равная +30 °С, группа аппаратуры 1.1 согласно [21], мощность 5 кВт, частота вращения двигателя 3000 об/мин. Структурная схема надежности представлена нарис. 9.
Рисунок 9. ССН SRK50ZS-ST-SB фирмы Mitsubishi
В соответствии с заданными условиями эксплуатации проведены расчеты по моделям (1)-(8), которые сведены таблицу 1.
Таблица 1. Сводная таблица интенсивностей отказов средней наработки
Наименование компонента ССН (количество) |
Интенсивность отказов, 1/ч |
Средняя наработка на отказ, ч |
Электродвигатель |
2,17·10-6 |
460 800 |
Трубки (4 шт.) |
5,32·10-6 |
188 000 |
Сварные соединения (4 шт.) |
4,0·10-8 |
25 000 000 |
Резьбовые соединения (12 шт.) |
1,2·10-6 |
833 300 |
Фильтр |
3,8·10-7 |
2 632 000 |
Итого |
1,007·10-5 |
99 300 |
Обычно производители дают гарантию не более пяти лет на свою систему. Расчеты же показывают, что реальная наработка значительно больше и при проектирование ЦОДов это необходимо учитывать. Наглядное сравнение наработок представлено на рис. 10.
Рисунок 10. Сравнение значений наработок кондиционера SRK50ZS-ST-SB фирмы Mitsubishi
Помимо этого, необходимо заметить, что в сравнении со значением интенсивности отказов, например серверного шкафа ЦОД, интенсивность отказов системы охлаждения имеет одинаковый порядок, в среднем серверный шкаф имеет интенсивность отказов ~ 2·10-5 1/ч. Пример сравнения интенсивностей отказов приведен на рис. 11. Что говорит опять же о необходимости корректного учета системы охлаждения при проведении проектной оценки надежности.
Рисунок 11. Сравнение значений интенсивностей отказов системы охлаждения и серверного шкафа
В статье проведен анализ основных типов систем охлаждения ЦОД, составлена ССН типовой системы охлаждения. Предложена методика прогнозирования интенсивностей отказов систем охлаждения, рассмотрены основные модели оценки интенсивностей отказов компонентов системы охлаждения. В результате анализа моделей предложена комплексная математическая модель, позволяющая получить адекватное значение реальной интенсивности отказов, а какследствие, и наработки до отказа системы охлаждения.
Проведенное исследование показало, что необходимо ответственно подходить к вопросам оценки надежности систем охлаждения при проектировании ЦОДов, что позволит избежать серьезных проблем при проектировании и большого числа отказов компонентов вычислительной техники в процессе эксплуатации. А использование комплексной модели расчета интенсивностей отказов даст возможность наиболее точно оценить надежность систем охлаждения.
- Топ-5 наиболее часто возникающих поломок в серверной. [Электронный ресурс]. – Режим доступа: http://www.tadviser.ru/index.php/Новость:Топ-5_наиболее_часто_возникающих_поломок_в_серверной, свободный (Дата обращения:11.09.2018).
- Приводит ли повышенная температура среды к частому выходу дисков из строя? [Электронный ресурс]. – Режим доступа: http://blog.aboutnetapp.ru/archives/tag/google, свободный (Дата обращения: 12.09.2018).
- Joseph F. Murray, Gordon F Hughes and Kenneth Kreutz-Delgado. Machine learning methods for predicting failures in hard drives: A multipleinstance application. J.Mach. Learn. Res., 6:783-816, 2005.
- Eduardo Pinheiro, Wolf-Dietrich Weber and Luiz Andre Barroso. Failure trends in a large disk drive population. FAST ’07: 5th USENIX Conference on File and Storage Technologies,17-29, 2007.
- Краткий экскурс в охлаждение серверных. [Электронный ресурс]. – Режим доступа: https://habr.com/post/241581, свободный (Дата обращения: 12.09.2018).
- «Глобальное потепление» в ЦОД. [Электронный ресурс]. – Режим доступа: https://www.osp.ru/lan/2012/05/13015723, свободный (Дата обращения: 12.09.2018).
- Системы охлаждения ЦОДов. Какую выбрать? [Электронный ресурс]. – Режим доступа: http://telecombloger.ru/3182, свободный (Дата обращения: 11.09.2018).
- Прецизионный кондиционер. [Электронный ресурс]. – Режим доступа: https://aeroclima.ru/kondicionirovanie/pretsizionnyj-kondisioner, свободный (Дата обращения 11.09.2018).
- Andres Carrion Garcia. Reliability Modeling Prediction/ Andres Carrion Garcia, Ljubisa Papic. – Prijevor: DQM Research Centre, 2016. – 186 p.
- Юрков Н.К. Основы теории надежности электронных средств: учеб. пособие / Н.К. Юрков, А.В. Затылкин, С.Н. Полесский, И.А. Иванов, А.В. Лысенко. – Пенза: Изд-во ПГУ, 2013. – 100 с.
- Diveev A. I. The Network Operator Method for Search of the Most Suitable Mathematical Equation / A. I. Diveev, E. A. Sofronova // Bio-Inspired Computational Algorithms and Their Applications / ed. by Shangce Gao. – Croatia: Intech, 2012. – P.19-42.
- Справочник. Надежность электрорадиоизделий. – M.: MO РФ, 2006. – С. 641.
- Reliability prediction of electronic equipment: Military Handbook. MIL-HDBK-217F, 1991. – P. 205.
- РМ 25 446-87. Изделия приборостроения. Методика расчета показателей безотказности. Рекомендуемый материал.
- NSWC-11. Handbook of reliability prediction procedures for mechanical equipment. – USA: CARDEROCDIV, 2011. – 522 p.
- Лушпа И.Л., Жаднов В.В. Сравнительный анализ методик оценки надежности электромеханических элементов. // В кн.: Современные проблемы радиоэлектроники: сб. науч. тр. [Электронный ресурс]. – Красноярск: Сибирский федеральный университет, 2016. – С. 449-453.
- Лушпа И.Л. Сравнительный анализ методик расчета надежности электродвигателей // В кн.: Научно-техническая конференция студентов, аспирантов и молодых специалистов НИУ ВШЭ им. Е.В. Арменского. Материалы конференции. / Под общ. ред.: А.Н. Тихонов, С.А. Аксенов, У.В. Аристова, Л.Н. Кечиев, В.П. Кулагин, Ю.Л. Леохин, А.Б. Лось, И.С. Смирнов, Н.С. Титкова. – МИЭМ НИУ ВШЭ, 2016. – С. 207-209.
- Лушпа И.Л. Об отказах механических элементов в радиоэлектронной аппаратуре // В кн.: Межвузовская научно-техническая конференция студентов, аспирантов и молодых специалистов им. Е.В. Арменского. / Под общ. ред.: Е.А. Крук, С.А. Аксенов, С.М. Авдошин, У.В. Аристова, Г.Г. Бондаренко, Л.С. Восков, А.А. Елизаров, М.В. Карасев, Э.С. Клышинский, А.Б. Лось, Н.С. Титкова. – МИЭМ НИУ ВШЭ, 2018. – С. 177-178.
- ГОСТ Р 51901.5-2005. Менеджмент риска. Руководство по применению методов анализа надежности.
- ГОСТ 27.002-2015. Надежность в технике (ССНТ). Термины и определения.
- ГОСТ РВ 20.39.304-98. КСОТТ. Аппаратура, приборы, устройства и оборудование военного назначения. Требования стойкости к внешним воздействующим факторам.
Ключевые слова: надежность, центр обработки данных, механические компоненты, системы охлаждения, средняя наработка на отказ, интенсивность отказов, безотказность.
Method of estimation reliability of data centers
Lushpa I.L., PhD student 3d course, National Research University Higher School of Economics, School of Electronic Engineering, Moscow, ilushpa@hse.ru
Polesskiy S.N., Candidate of Technical Sciences, Associate Professor, National Research University Higher School of Economics, School of Computer Engineering, Moscow, spolessky@hse.ru
Abstract: The paper presents a review of the main types of cooling systems of data center and the main methods of predicting their reliability characteristics. A technique has been developed that allows to take into account the reliability characteristics of the components of the cooling systems, namely the mechanical part, which distinguishes it from the standard approaches to assessing reliability. This allows you to give a more accurate forecast for the values of reliability indicators. Standard calculation models of failure rates are analyzed and supplemented with correction factors that were not previously available in them. The received technique is applicable at various stages of data center design, as well as in conditions when there is a minimum amount of data about the object being created.
Keywords: dependability, data processing center, mechanical components, cooling systems average mean time between failures, failure rate, reliability.
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|