Постановка натурного эксперимента по определению вероятности выхода из строя дисков типа BD-R с записью в процессе хранения::Журнал СА 5.2018
www.samag.ru
     
Поиск  
              
 www.samag.ru    Web  0 товаров , сумма 0 руб.
E-mail
Пароль  
 Запомнить меня
Регистрация | Забыли пароль?
Сетевой агент
О журнале
Журнал «БИТ»
Информация для ВАК
Звезды «СА»
Подписка
Где купить
Авторам
Рекламодателям
Магазин
Архив номеров
Форум
Вакансии
Спроси юриста
Игры
Контакты
   
Слайд шоу  
Представляем работы Виктора Чумачева
Виктор Чумачев – известный московский художник, который сотрудничает с «Системным администратором» уже несколько лет. Именно его забавные и воздушные, как ИТ, иллюстрации украшают многие серьезные статьи в журнале. Работы Виктора Чумачева хорошо знакомы читателям в России («Комсомольская правда», «Известия», «Московские новости», Коммерсант и др.) и за рубежом (США, Германия). Каждый раз, получая новый рисунок Виктора, мы в редакции улыбаемся. А улыбка, как известно, смягчает душу. Поэтому смотрите на его рисунки – и пусть у вас будет хорошее настроение!
1001 и 1 книга  
22.11.2018г.
Просмотров: 164
Комментарии: 0
MySQL 8 для больших данных

 Читать далее...

22.11.2018г.
Просмотров: 113
Комментарии: 0
Осваиваем C++17 STL

 Читать далее...

22.11.2018г.
Просмотров: 148
Комментарии: 0
Решение задач на современном C++

 Читать далее...

22.11.2018г.
Просмотров: 109
Комментарии: 0
Программируй на Haskell

 Читать далее...

29.10.2018г.
Просмотров: 431
Комментарии: 0
Информатика. Учебник, 4-е издание, цветное, переработанное и дополненное

 Читать далее...

Дискуссии  
17.09.2014г.
Просмотров: 19927
Комментарии: 3
Красть или не красть? О пиратском ПО как о российском феномене

Тема контрафактного ПО и защиты авторских прав сегодня актуальна как никогда. Мы представляем ...

 Читать далее...

03.03.2014г.
Просмотров: 22087
Комментарии: 1
Жизнь под дамокловым мечом

Политические события как катализатор возникновения уязвимости Законодательная инициатива Государственной Думы и силовых структур, ...

 Читать далее...

23.01.2014г.
Просмотров: 30708
Комментарии: 3
ИТ-специалист будущего. Кто он?

Так уж устроен человек, что взгляд его обращен чаще всего в Будущее, ...

 Читать далее...


  Опросы

Друзья сайта  

Форум системных администраторов  

sysadmins.ru

 Постановка натурного эксперимента по определению вероятности выхода из строя дисков типа BD-R с записью в процессе хранения

Архив номеров / 2018 / Выпуск №5 (186) / Постановка натурного эксперимента по определению вероятности выхода из строя дисков типа BD-R с записью в процессе хранения

Рубрика: Наука и технологии

Без фото ЧЕРНЫШОВ А.В., доцент, кандидат технических наук, Мытищинский филиал МГТУ им. Н. Э. Баумана, Мытищи Московской области, sch@mgul.ac.ru

Постановка натурного эксперимента
по определению вероятности выхода из строя дисков типа BD-R с записью в процессе хранения

Рассмотрена проблема выбора параметров для постановки натурного эксперимента по определению вероятности отказа оптического диска BD-R с записью в процессе длительного хранения. Наиболее критичным параметром, определяющим статистическую достоверность результатов эксперимента, является количество дисков, участвующих в эксперименте. Длительность проведения эксперимента (один год и более) делает невозможным увеличение ихколичества в процессе проведения эксперимента. В статье выполнено обоснование значений вероятности отказа оптического диска, которые могут быть получены в результате эксперимента, и выполнен расчет количества оптических дисков, которые должны быть заложены в эксперимент. Описан процесс записи дисков для реализации эксперимента

Несмотря на бурное развитие облачных технологий и их проникновение в область хранения данных, для многих организаций задача создания локального электронного архива длительного хранения остается технически, экономически иполитически обоснованной, а потому актуальной. В соответствии с ГОСТ [1] в качестве носителей информации для таких архивных хранилищ должны применяться исключительно носители однократной записи, что на сегодняшний день автоматически приводит к необходимости использовать оптические диски типов CD-R, DVD±R, BD-R.

Обычно производители оптических дисков заявляют о длительных сроках службы таких дисков (30 лет, 50 лет и даже больше), но этот параметр можно отнести лишь к идеально изготовленным дискам. Он ничего не говорит о вероятности выхода из строя (то есть о вероятности потери записанной информации) реальных дисков, произведенных на реальном оборудовании и выпущенных на рынок.

В реальности практически все утверждения о длительных сроках службы современных оптических дисков базируются на результатах математической обработки замеров, выполненных в результате ускоренных тестов [2]. Имеются очень скудные данные по сохраняемости информации на дисках CD R, замеренной в реальных условиях хранения в течение нескольких лет [3, 4]. По носителям типа DVD±R, BD-R такие эксперименты неизвестны, если не считать выборку ничтожного объема по дискам DVD-R в [4]. Существуют лишь отдельные отчеты [5], содержащие, как правило, качественные выводы (типа «диски DVD в целом надежнее дисков CD») без указания конкретных числовых данных.

Между тем, как показали расчеты, выполненные в [6, 7], на сегодняшний день по соотношению емкость/стоимость наиболее выгодными оказываются диски BD-R. Там показано, что для расчета надежности электронного архива длительного хранения в целом, включая определение структуры архива (в частности, количества запасных копий каждого диска), необходимо знать вероятность выхода из строя одного оптического диска q (хотя бы порядок этой величины).

В связи с отсутствием этой информации в современных источниках было принято решение поставить натурный эксперимент для определения вероятности выхода из строя оптических дисков типа BD-R, доступных на российском рынке.

Условия постановки эксперимента

На диски BD-R будет записана реальная информация с сервера хранения данных. Для записи будет использован стандартный привод BD-R, ориентированный на использование в обычных настольных ПЭВМ (не промышленного типа).

Диски будут храниться в соответствии с общеизвестными рекомендациями [8] (сухое, теплое, темное помещение, вдали от отопительных приборов, вертикально, в индивидуальных пластиковых коробках). На каждом диске вместе синформацией будет записан файл контрольных сумм файлов MD5.

Будут использоваться диски BD-R стандартной емкости (25 Гб), постоянно присутствующие в продаже на рынке России. Заказ специальных дисков типа M-DISC [9], который может быть сделан только за рубежом, производиться не будет.

Через один год хранения с помощью сумм MD5 будет проверена целостность информации на дисках. Если контрольная сумма хотя бы одного файла на каком-либо диске не совпадет, будет считаться, что этот диск вышел из строя (вреальном архиве такой диск подлежит замене на новый с записью информации из запасной копии).

По результатам контроля целостности информации на всех дисках BD R будет выполнена оценка вероятности выхода из строя одного диска с записью в течение одного года хранения. Будет использована стандартная формула:

q = n/N (1)

где:

  • q – искомая вероятность выхода из строя одного диска;
  • n – количество дисков, вышедших из строя;
  • N – общее количество участвовавших в эксперименте дисков BD-R.

Потенциально имеется возможность провести аналогичный контроль целостности информации через два года и более с расчетом вероятности выхода из строя за соответствующий интервал времени. Но в данной статье эта перспектива нами не рассматривается.

Из курса математической статистики известно, что для получения значения q, близкого к действительности, необходимо выбрать достаточно большое значение N, то есть записать и положить на хранение достаточно большое количество дисков BD-R. Таким образом, для реализации эксперимента необходимо выбрать количество дисков N, участвующих в эксперименте.

Определение количества дисков BD-R

Для определения значения параметра N метод «чем больше, тем лучше» не подходит, поскольку:

  • речь идет именно об эксперименте, а не о записи реальных данных, объем которых и определил бы количество записываемых дисков;
  • запись каждого диска требует существенного времени (с учетом подготовки данных к записи, собственно записи и последующего обязательного контроля целостности записи и в зависимости от допускаемой скорости записи диска икачества самого диска время, затрачиваемое на один диск BD-R, может достигать одного часа и даже более), а нам желательно минимизировать время записи и последующее время контроля целостности информации на тестовом массиве дисков;
  • желательно минимизировать затраты на закупку дисков, но при этом получить статистически значимое значение q.

Для обоснования значения параметра N обратимся к методам математической статистики [10].

Известно, что формула (1), применяемая к конечной выборке, дает лишь оценку q* истинного значения параметра q (остающегося неизвестным). Вероятность того, что при заданном количестве экспериментов (в данном случае количестве дисков N) отклонение значения q* от q не превысит заранее заданной величины ε, выражается формулой Лапласа:

где Φ(x) – функция Лапласа (ее значения табулированы). В действительности параметр x должен вычисляться на основании значения q, но поскольку оно неизвестно, вычисления вынужденно проводятся на основании значения q*. Тогда

(2)

где x определяется из соотношения

Проблема заключается в том, что обычно сначала проводят N экспериментов, вычисляют значение q* и, задавшись значением ε, определяют величину P(|q* – q| < ε), то есть вероятность того, что отклонение q* от q не превышает заданного ε. Если величина P(|q* – q| < ε) оказывается слишком низкой (например, 0,8 при желании получить 0,9), то проводят дополнительные опыты, увеличивая значение N, после чего повторяют расчеты, уточняя значение q*.

В нашем случае длительность проведения эксперимента (контроль целостности данных на дисках будет проведен только через год после записи) не позволяет оперативно провести дополнительные опыты, чтобы увеличить значение N после выполнения расчетов q*. Поэтому необходимо сразу обосновать количество дисков N, участвующих в эксперименте. Согласно (2) N будет зависеть от ожидаемого значения q* и от желательного значения P(|q* – q| < ε) (через x), чтопредполагает необходимость выбора еще и значения ε.

Нам необходимо получить оценку q с максимально высокой вероятностью (в идеале 0,99, но в крайнем случае не хуже 0,9). Поэтому в качестве значений P(|q* – q| < ε), используемых в расчетах, зададимся множеством: 0,99; 0,95; 0,9.

Значения ε и q* будем выбирать из следующих практических соображений. Для любого реального архива на оптических дисках по результатам контроля исправности дисков невозможно получить значение q*min < 1/N. И понятно, что ε неможет быть меньше q*min. В действительности расчеты показывают, что для такого значения q*min будет получено P(|q* – q| < ε) < 0,7, что нас не устроит. Поэтому в нашем случае значение ε вынужденно придется выбирать в несколько раз больше. И выбранное значение ε определит минимально ожидаемое по результатам эксперимента значение q*.

Необходимо также учесть время, которое потребуется для записи дисков, а затем для контроля их целостности. Практика показывает, что при выполнении всех операций вручную без использования специализированных дорогостоящих решений на запись одного диска BD-R (с учетом подготовки данных для записи и обязательного контроля целостности записанной информации) в зависимости от его скоростных характеристик и качества изготовления может уходить от 40минут до 1,5 часа. Таким образом, за один год при полном рабочем дне по пессимистической оценке один оператор сможет записать около 1500 дисков. В действительности, предполагая различные технические накладки (в частности, но нетолько, сбои при чтении отдельных дисков сразу после записи и необходимость повторной записи этой информации на другие диски), эту цифру нужно уменьшить минимум вдвое. В результате получим примерно 700-800 дисков, то естьоколо 20 Тб информации. Поэтому для целей эксперимента рассмотрим архивы емкостью до 20 Тб, создаваемые на стандартных дисках BD-R (см. таблицу 1).

Таблица 1. Минимально возможные значения q*

Емкость архива, Тб Количество дисков BD-R (N) q*min
1 40 0,025
2 80 0,0125
5 200 0,005
10 400 0,0025
20 800 0,00125

Таким образом, по результатам условий эксперимента нам в принципе не удастся получить q* < 10-3. А для практических расчетов надежности архивного хранилища необходимо будет использовать q = q* + ε (верхнюю границу математического ожидания вычисленного параметра вероятности выхода из строя одного диска).

Из практики использования оптических дисков известно, что качество реально поступающих на рынок дисков даже одного производителя может сильно различаться от партии к партии. Дело в том, что в отличие от перезаписываемых дисков проверить заранее качество однократно записываемых дисков практически невозможно. Испытание на длительность времени хранения информации без потери (срок службы) каждого диска фактически начинается в момент записи на диск информации. И если диск сможет воспроизвести информацию без потерь через несколько лет, то можно будет сказать лишь о том, что этот конкретный диск (в крайнем случае партия, к которой принадлежит этот диск) имеет срок службы не меньше, чем эти несколько лет. Но к тому моменту на рынке будет продаваться уже совсем другая партия оптических дисков, произведенная гораздо позже и с неизвестными изменениями в технологии производства. Кроме этого, если заявленный срок службы оптического диска является расчетным конструктивным параметром, то вероятность его отказа q определяется производственными технологическими особенностями выпуска конкретной партии.

Иными словами, с практической точки зрения вычислять значение q* с большой точностью не имеет смысла. Для расчета надежности хранения информации в архиве важно знать лишь порядок параметра q в указанных пределах. Можно показать [7], что уменьшение значения q с 0,1 до 0,05 (то есть всего в два раза) способно при определенной структуре архива привести к уменьшению вероятности потери информации в архиве на порядок. В силу этого, по-видимому, неимеет смысла проводить эксперимент с максимальным числом дисков, указанным в таблице 1. Задействованное в эксперименте количество дисков N должно быть выбрано таким образом, чтобы просто позволить оценить порядок величины q.

По результатам приведенных рассуждений зададимся ожидаемыми значениями q*: 0,01; 0,02; 0,05; 0,1; 0,2 и значениями ε: 0,01; 0,02; 0,05; 0,1. Мы не должны получить значение q* больше 0,2 (что соответствует отказу двух дисков изкаждых десяти), потому что в противном случае ни о какой надежности хранения данных на оптических дисках в течение длительного времени говорить вообще не приходится.

Вычислим значения параметра N для этих параметров и для значений ε: 0,01 (см. таблицу 2); 0,02 (см. таблицу 3); 0,05 (см. таблицу 4); 0,1 (см. таблицу 5).

Таблица 2. Количество дисков N при ε = 0,01

  q*
  0,2 0,1 0,05 0,02 0,01
0,99 10615 5971 3151 1300 656
0,95 6146 3457 1824 752 380
0,9 4328 2434 1285 530 267
          0,00 < q < 0,02

Таблица 3. Количество дисков N при ε = 0,02

  q*
  0,2 0,1 0,05 0,02 0,01
0,99 2653 1492 787 325 -
0,95 1536 864 456 188 -
0,9 1082 608 321 132 -
  0,00 < q < 0,04

Таблица 4. Количество дисков N при ε = 0,05

  q*
  0,2 0,1 0,05 0,02 0,01
0,99 424 238 126 - -
0,95 245 138 72 - -
0,9 173 97 51 - -
  0,15 < q < 0,25 0,05 < q < 0,15 0,00 < q < 0,10    

Таблица 5. Количество дисков N при ε = 0,1

  q*
  0,2 0,1 0,05 0,02 0,01
0,99 106 59 - - -
0,95 61 34 - - -
0,9 43 24 - - -
  0,1 < q < 0,3 0,00 < q < 0,2      

В нижней части каждой таблицы для избранных автором значений q* дополнительно (просто для удобства оценивания) показаны интервалы возможных истинных значений вероятности отказа q. Прочерки указывают столбцы, для которых получаемые значения q* оказываются меньше предполагаемого значения ε. Если итоговые результаты эксперимента окажутся в этой «зоне», они гарантированно удовлетворят формуле Лапласа.

Выбирая значение N на основании приведенных таблиц, будем исходить из следующих соображений:

  • При повышении точности оценивания и особенно с ростом предполагаемого значения q* резко возрастает значение параметра N. Видимо, имеет смысл ограничиться значением параметра N в 300 или даже 200. Соответствующие поля выделены в таблицах жирными рамками. Потенциально это позволяет «закрыть» с высокой вероятностью (0,95, а в ряде случаев и 0,99) подавляющее большинство ожидаемых значений q* (за исключением расчетов с ε = 0,01 – приполучении по результатам эксперимента q* > 0,01 необходимо будет выбрать большее значение ε).
  • Для очень грубой оценки (ε = 0,1) можно ограничиться N = 61. Это позволяет получить для оценок вероятность не хуже 0,95, а для q* = 0,1 даже 0,99. Однако для практических расчетов надежности архива длительного хранения придется использовать значения = 0,2 (для q* = 0,1) или = 0,3 (для q* = 0,2), что сильно ограничит возможность принятия решений по структуре и емкости архива [6, 7] и может привести к его существенному удорожанию.
  • Чем больше по результатам эксперимента получится значение q*, тем меньшая точность оценивания параметра q будет допустима при практических расчетах надежности электронного архива.

Исходя из перечисленных соображений автор для постановки своего эксперимента принял решение пожертвовать точностью и остановился на N = 188. Если говорить о повышении точности оценивания при предполагаемом уменьшении q*, то ближайшее следующее N = 267, что на 79 дисков (42%) больше.

Реализация эксперимента

Процесс записи оптических дисков для реализации эксперимента включает в себя следующие этапы:

1. Общая подготовка данных, при которой файлы, находящиеся на сервере, делятся на группы, соответствующие емкости оптических дисков. Сгруппировать файлы необходимо таким образом, чтобы они занимали максимально возможное место на каждом оптическом диске (чтобы обеспечить тест максимально возможной поверхности каждого диска). На этом этапе деление выполняется логически, с составлением списков файлов и без физического изменения ихместа на диске сервера.

2. Запись каждого оптического диска, включающая шаги:

а) копирование файлов для записи в отдельный рабочий раздел;

б) формирование в рабочем разделе файла с контрольными суммами MD5 записываемых файлов, причем контрольные суммы должны формироваться не по копиям файлов в рабочем разделе, а по исходным файлам на диске сервера;

в) контроль целостности записываемых файлов в рабочем разделе по контрольным суммам MD5;

г) собственно запись рабочего раздела на оптический диск (включая файл с контрольными суммами MD5);

д) контроль целостности файлов, записанных на оптический диск, по контрольным суммам MD5 из файла контрольных сумм, записанного на оптический диск. В случае несовпадения хотя бы одной контрольной суммы оптический диск считается бракованным и должен быть заменен новым (повторить пункты г и д).

3. На хранение закладываются только оптические диски с записью, успешно прошедшие контроль на целостность данных.

В настоящее время автором выполнены запись и закладка на хранение оптических дисков BD-R по описанному методу.

Заключение

В статье рассмотрена проблема постановки натурного эксперимента для определения вероятности выхода из строя оптического диска типа BD-R с записью в процессе длительного хранения. Знание хотя бы порядка значения параметра вероятности выхода из строя оптического диска типа BD-R важно для проектировщиков электронных архивов длительного хранения информации. Наиболее критичным параметром эксперимента является количество дисков, участвующих вэксперименте, поскольку оно не может быть оперативно увеличено из-за длительного срока проведения эксперимента, но при этом сильно влияет на точность значения вероятности отказа диска, рассчитываемого по результатам эксперимента.

Показано, что для практического применения результатов эксперимента достаточно ограничиться 188 дисками. При этом минимальная вероятность отказа диска q, рассчитываемая по результатам эксперимента, не превысит 0,04 свероятностью 0,95. При увеличении количества дисков до 267 минимальное значение q не превысит 0,02 с вероятностью 0,9.

Попытки получить минимальные значения q менее 0,02, во-первых, потребуют значительного увеличения количества записываемых дисков, что ограничивается резким увеличением как стоимости эксперимента, так и временем, необходимым на запись дисков, а во-вторых, вероятно, не имеют технического смысла, поскольку качество изготовления конкретной партии однократно записываемых оптических дисков, приобретаемой на рынке, заранее непредсказуемо.

  1. ГОСТ Р 54989-2012 / ISO TR 18492:2005 Обеспечение долговременной сохранности электронных документов (вступил в силу 01.05.2013).
  2. ISO/IEC 10995:2011(E) Information technology – Digitally recorded media for information interchange and storage – Test method for the estimation of the archival lifetime of optical media. (Second edition 2011-06-15).
  3. Устинов В. Хранение данных на CD- и DVD-дисках: на наш век хватит? [Электронный ресурс]. // BROADCASTING: Телевидение и радиовещание. – 2006. – № 4. – URL: http://www.broadcasting.ru/articles2/Oborandteh/hranenie_dannyh_na_CD_DVD_diskah (дата обращения: 10.12.2015).
  4. Рекомендации по обеспечению сохранности информации, записанной на оптических дисках (Тестирование выборочного массива документов федеральных архивов). / М.И. Пилипчук, А.Н. Балакирев, Л.В. Дмитриева, Г.З. Залаев. – М.: РГАНТД, 2011. – 52 с.
  5. Zheng, J., Slattery, O.T. NIST/Library of Congress Optical Disc Longevity Study: Final Report. September, 2007. 32 p. URL: https://www.loc.gov/preservation/resources/rt/NIST_LC_OpticalDiscLongevity.pdf (Accessed 2016-05-11).
  6. Чернышов А.В. К вопросу о применении оптических дисков для создания долговременных электронных архивных хранилищ информации небольших организаций // Информационные технологии. – 2016. – Т. 22. – № 8. – С. 635-640.
  7. Чернышов А.В. Модель надежности хранения информации на современных библиотеках оптических дисков, объединенных в массивы RAID 6. // Вестник МГТУ им. Н. Э. Баумана. Сер. Приборостроение. – 2017. – № 3. – С. 65-75. DOI: 10.18698/0236-3933-2017-3-65-75.
  8. Юмашева Ю.Ю. Методические рекомендации по электронному копированию архивных документов и управлению полученным информационным массивом. – М.: ВНИИДАД, 2012. – 125 с.
  9. M-Disk – «вечная» альтернатива CD/DVD. [Электронный документ]. / Автор: NataKon // Эко-технологический журнал FacePla.net . – URL: http://www.facepla.net/the-news/electronics-news-mnu/1590-m-disk-vs-cddvd.html (дата создания:2011-09-01) (дата обращения: 2016-11-23).
  10. Вентцель Е.С., Овчаров Л.А. Теория вероятностей и ее инженерные приложения. – М.: Наука. Гл. ред. физ.-мат. лит. – 1988. – 480 с.

Ключевые слова: архивное хранение электронной информации, оптический диск BD-R, вероятность отказа оптического диска однократной записи.


Production of natural experiment of determining the probability of failure of BD-R recorded discs during storage

Chernyshov A. V., Cand. Sci. (Eng.), Assoc. Prof., Section of Department of Computer Systems and Networks, Mytiscthi branch of Bauman Moscow State Technical University, Mytiscthi, sch@mgul.ac.ru

Abstract: The problem of the choice of parameters for setting a natural experiment to determine the probability of failure of the BD-R optical disk with recording in the process of long-term storage is considered. The most critical parameter that determines the statistical validity of the experiment results is the number of disks involved in the experiment. The duration of the experiment (one year or more) makes it impossible to increase their number during the experiment. The article substantiates the values of the optical disk failure probability, which can be obtained as a result of the experiment, and calculates the number of optical disks that should be included in the experiment. Describes a burn process for discs for the implementation of the experiment.

Keywords: аrchival storage of electronic information, BD-R optical disk, the probability of failure of WORM optical disk.


Комментарии отсутствуют

Добавить комментарий

Комментарии могут оставлять только зарегистрированные пользователи

               Copyright © Системный администратор

Яндекс.Метрика
Tel.: (499) 277-12-41
Fax: (499) 277-12-45
E-mail: sa@samag.ru