Расчет надежности ЦОД

advertisement
Оценка надежности информационных
систем (Центры Обработки Данных)
Лекция III:
Оценка надежности центров обработки данных.
Метод графов.
К.ф.-м.н. Самодуров В.А. (sam@prao.ru) ,
базовая кафедра группы компаний Стек
E-mail: info@stack.net
Телефон: (495) 980-6000, факс: (495) 980-6001
127299, Москва, ул. Большая Академическая, д. 5a
www.stack.net
Надежность:Термины и определения
Методы повышения надежности можно классифицировать по области их
использования.
Методы
Конструктивные
Производственные
Cоздание надежных
элементов;
Совершенствование
технологии;
Создание благоприятного
режима работы;
Автоматизация производства;
Методы рационального
проектирования систем;
Тренировка элементов и
модулей системы.
Методы введения
избыточности:
o
o
o
o
Нагрузочная,
Параметрическая,
Функциональная,
Резервирование структуры
Методы, защищающие
элементы от разрушающих
факторов
Эксплуатационные
Методы предупреждения
отказов, основанные на
прогнозировании моментов их
появления;
Методы предупреждения
отказов, основанные на
статистических данных о
долговечности элементов;
Повышение квалификации
обслуживающего персонала;
Научные методы
эксплуатации
Показатели надежности сложных систем.
Последовательное соединение элементов
Отличительными чертами сложных систем является:
многоканальность-наличие нескольких каналов, каждый из которых выполняет
определенную функцию, частную по отношению к общей задаче системы.
многосвязность – большое количество функциональных связей между элементами
системы.
наличие вспомогательных и дублирующих устройств.
Системой с последовательным соединением элементов называется система, в которой
отказ любого элемента приводит к отказу всей системы.
В системе с последовательным соединением для безотказной работы в течении некоторой наработки
необходимо и достаточно, чтобы каждый из ее n элементов работал безотказно в течении этой наработки.
Считая отказы элементов независимыми, вероятность одновременной безотказной работы n элементов
определяется по теореме умножения вероятностей: вероятность совместного появления независимых
событий равна произведению вероятностей этих событий:
n
n
P(t)  p 1 (t)  p 2 (t)    p n (t)   p i (t)   (1  f i (t) )
(12)
i 1
И вероятность отказа:
(13)
Э1
i 1
n
n
i 1
i 1
F  1  P  1   p i  1   (1  f i )
Э2
Эn
Даже при высокой надежности элементов надежность системы при последовательном соединении оказывается тем более низкой, чем
больше число элементов. Интенсивность отказов системы при последовательном соединении эл-в и простейшем потоке отказов равна
сумме интенсивностей отказов эл-в. Тогда для системы из n равнонадежных эл-в =n, T0=Ti/n, т.е. интенсивность отказов в n
раз больше, а средняя наработка в n раз меньше, чем у отдельного эл-та
Показатели надежности сложных систем.
Параллельное соединение элементов
Системой с параллельным соединением элементов называется система,
отказ которой происходит только в случае отказа всех ее элементов.
Такие схемы надежности характерны для ТС, в которых элементы дублируются или резервируются, т.е. параллельное
соединение используется как метод повышения надежности. Для отказа системы с параллельным соединением элементов в
течение наработки необходимо и достаточно, чтобы все ее элементы отказали в течение этой наработки. Так что отказ
системы заключается в совместном отказе всех элементов, вероятность чего (при допущении независимости
отказов) может быть найдена по теореме умножения вероятностей как произведение вероятностей отказа
элементов:
n
n
i 1
i 1
F  f 1  f 2    f n   f i   (1  p i )
(14)
Э1
Соответственно, вероятность безотказной работы:
n
n
i 1
i 1
P  1  F  1   f i  1   (1  p i )
(15)
т.е. надежность системы с параллельным соединением
повышается при увеличении числа элементов. Поскольку fi
<1, произведение в правой части всегда меньше любого из
со множителей, т. е. вероятность отказа системы не может
быть выше вероятности самого надежного ее элемента и
даже из сравнительно ненадежных элементов возможно
построение вполне надежной системы.
При экспоненциальном распределении средняя наработка
системы T0=(1/)(1/i), i от 1 до n.
Средняя наработка системы с параллельным
соединением больше средней наработки ее
элементов.
Э2
Эn
Расчет надежности ЦОД – вначале была схема…
Для расчета надежности ЦОД можно, например, разбить его на ряд системных блоков, определить
вероятность отказа для каждого, потом рассчитать по схемам общую надежность.
А можно применить графы (довольно удобно и часто применяемо).
Или: для расчета надежности ЦОД также составляются Деревья отказов (деревья отказов объекта,
представляющие графическое отображение причинно-следственных связей, обуславливающих
определенные виды его отказов (стандарт МЭК 1025))….
ПОВТОР: Лекция 1, часть III.
Дата-центры с точки зрения теории надежности: Введение
НАДЕЖНОСТЬ СИСТЕМ. ОБЩИЕ МАТЕМАТИЧЕСКИМЕ ПОНЯТИЯ И
ОПРЕДЕЛЕНИЯ (краткое предварение)
Состав рассчитываемых показателей:
Системы с невосстанавливаемыми элементами:
- cредняя наработка до отказа (T0);
- Вероятность Безотказной Работы к заданной наработке по
времени P(t);
- Плотность Распределения Отказов к заданной наработке
f(t).
- Интенсивность Отказов к заданной наработке (t);
Системы с восстанавливаемыми элементами (например, ЦОД!)
- T0; P(t); а также коэффициент готовности, коэффициент
оперативной готовности, параметр потока отказов.
КГ 
Т работы
Т работы  Т простоя
(0)
– главная формула для нас при
расчете надежности ЦОД!
НАДЕЖНОСТЬ СИСТЕМ. ОБЩИЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ
(краткое повторение пройденного)
…(справочник)… Связь между показателями надежности (внимание, Q(t) – то же самое, что и F(t)) :
Показатели
P(t)
Q(t) ↔ F(t)
f(t)
t
P(t)
–
1 – Q(t)
1   f( )d
0
t
Q(t)
1 – P(t)
–
 f( )d
0
f(t)
(t)
– P’(t)
Q’(t)
–
P(t)

P(t)
Q(t)

1  Q(t)
f (t )
t
1   f( )d
0
(t)
 t

exp-  λ (t)dt 
 0

 t

1 - exp-  λ (t)dt 
 0

 t

λ (t)exp-  λ (t)dt 
 0

–
Используемые в теории
надежности законы
распределения
случайных величин.
Но для нас главное и
практически
единственное –
экспоненциальное!
Поскольку оно
отражает поведение
системы в период
нормальной
эксплуатации.
Понятия теории надежности: язык математики (повтор)
В период нормальной эксплуатации объекта время работы между
отказами подчинено экспоненциальному закону распределения с
параметрами
(t) =0 = const ,
поэтому вероятность безотказной работы из (7,9)
P(t)  1- F(t)  e λ 0t
(10)
А f(t) , соответственно, из (9):
f(t)= 0 e-0t
Соответствующие кривые приведены ниже :
Выясним смысл среднего времени безотказной работы T0: подставив в (9) t = T0, получим
P(T0)=e-1 ≈ 0.37, т. е. T0 есть время, в течение которого вероятность безотказной работы
изделия уменьшается в e раз. Можно также (9) подставить в (5)  T = 1
(11)
0

т.е. при простейшем потоке отказов средняя наработка Т0 обратна интенсивности отказов 
НАДЕЖНОСТЬ СИСТЕМ. ОБЩИЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ
(краткое повторение пройденного)
Задача расчета надежности: определение
показателей безотказности системы, состоящей из
(не)восстанавливаемых элементов, по данным о
надежности элементов и связях между ними.
Цель расчета надежности:
•обосновать выбор того или иного конструктивного
решения;
•выяснить возможность и целесообразность
резервирования;
•выяснить, достижима ли требуемая надежность при
существующей технологии разработки и
производства.
НАДЕЖНОСТЬ СИСТЕМ. ОБЩИЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ
(краткое повторение пройденного)
Расчет надежности состоит из следующих этапов:
1. Определение состава рассчитываемых показателей
надежности.
2. Составление (синтез) структурной логической схемы
надежности (структуры системы), основанное на анализе
функционирования системы (какие блоки включены, в чем
состоит их работа, перечень свойств исправной системы и т.
п.), и выбор метода расчета надежности.
3. Составление математической модели, связывающей
рассчитываемые показатели системы с показателями
надежности элементов.
4.Выполнение расчета, анализ полученных результатов,
корректировка расчетной модели.
Способы описания условий работоспособности системы
Анализ надежности информационной системы начинается с изучения ее состава, принципа
работы, функциональных связей между элементами и особенностей эксплуатации. Все
множество состояний системы можно разделить на два подмножества - работоспособных и
неработоспособных состояний.
При графическом представлении условий работоспособности систем чаще всего применяют
модели в виде структурной схемы надежности (ССН).
По ССН определяют структурную функцию - ФАЛ (функций алгебры логики)
работоспособности, либо дерево отказов, по которым определяют количественные
показатели надежности - функцию надежности системы h(r). Обобщенный алгоритм
преобразования изображен ниже:
СИСТЕМА
ССН
ФАЛ
h(r)
Функционал ьная  Структурна я Структурна я 
и
 схема
 функция
 Функция 

 
 
 




надежности

 
 
 

структурна
я
надежности
или

 
 
 системы 

схемы
 системы
 дерево отказов  
Под структурной схемой надежности (ССН) понимают некоторую условную схему, учитывающую
влияние элементов и особенно связей между ними на работоспособность системы в целом. ССН
основана на анализе последствий отказов элементов. В ходе ее составления анализируются
возможные виды отказов элементов и влияние отказов элементов и их различных комбинаций на
работоспособность системы. При этом функциональные элементы системы заменяются логическими
элементами, принимающими значение либо 1, либо - 0, где 1 - соответствует работоспособному состоянию
элемента, а 0 - неработоспособному, а функциональные связи заменяются логическими.
Схема должна учитывать удобства дальнейшего анализа как надежности элементов, так и надежности
системы в целом. ССН может существенно отличаться от функциональной схемы этой же системы,
учитывающей прохождение сигналов.
Расчет надежности ЦОД – вначале была схема…
Для расчета надежности ЦОД можно, например, разбить его на ряд системных блоков, определить
вероятность отказа для каждого, потом рассчитать по схемам общую надежность.
А можно применить графы (довольно удобно и часто применяемо).
Или: для расчета надежности ЦОД также составляются Деревья отказов (деревья отказов объекта,
представляющие графическое отображение причинно-следственных связей, обуславливающих
определенные виды его отказов (стандарт МЭК 1025))….
Расчет надежности ЦОД – вначале была схема…
Итак, какие необходимые, важнейшие системы мы имеем из различных блок схем?
Расположены эти узлы де-факто последовательно (обрыв любой из них приводит к
неминуемому отказу ЦОД), но каждый из них – сам устроен сложным образом
Провайдер,
связь
Кабельная
система
Электросна
бжение
Охлаждение
Пожаротуш
ение
ЦОД
НАДЕЖНОСТЬ СИСТЕМ. ОБЩИЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ
(краткое повторение пройденного)
Математическая модель надежности – формальные
преобразования, позволяющие получить расчетные формулы.
Модели могут быть реализованы с помощью:
метода интегральных и дифференциальных уравнений;
на основе графа возможных состояний системы;
на основе логико-вероятностных методов;
на основе дедуктивного метода (дерево отказов).
Наиболее важным этапом расчета надежности является
составление структуры системы и определение показателей
надежности составляющих ее элементов.
НАДЕЖНОСТЬ СИСТЕМ. ОБЩИЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ
(краткое повторение пройденного)
Математическая модель надежности – формальные
преобразования, позволяющие получить расчетные формулы.
Модели могут быть реализованы с помощью:
метода интегральных и дифференциальных уравнений;
на основе графа возможных состояний системы;
на основе логико-вероятностных методов;
на основе дедуктивного метода (дерево отказов).
Наиболее важным этапом расчета надежности является
составление структуры системы и определение показателей
надежности составляющих ее элементов.
Расчет надежности с помощью дерева отказов
v2
Простой пример
v1
S
v3
S3
S2
G
v4
S4
S1
S1
Рис. 1. Двухполюсный граф G и дерево отказов D
S4
D
S1
S1
Вершины v1 и v3 – полюсные вершины. На вершину v1 подается сигнал, который должен достичь
вершины v3. Главное событие S – непрохождение сигнала от вершины v1 до вершины v3.
Промежуточные события Si, i={1,2,3,4}, – непрохождение сигнала до вершины vi. Пунктиром
изображены резервное соединение (на графе G) и соответствующее ему событие (на дереве D).
Считая надежность (вероятность безотказной работы в течение некоторого промежутка времени) для
всех вершин графа равными 0.9 получаем, что надежность функционирования коммуникационной
сети в виде графа G без резервного соединения равна:
Р( S)=1– (1-Р(S3S4S1)) × (1-Р(S3S2S1)) × (1-Р(S3S2S4S1))=
=1– (1–0.93)(1–0.93)(1–0.94)≈0.975,
с резервным – Р(S )=1– (1–Р(S3S4S1))(1–Р(S3S2S1))(1–Р(S3S2S4S1))(1–Р(S3S1))=
=1– (1–0.93)(1–0.93)(1–0.94)(1–0.92)≈0.995.
СобытиеS – событие противоположное событию S, т.е. – функционирование коммуникационной сети G.
НАДЕЖНОСТЬ СИСТЕМ. ОБЩИЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ
(краткое повторение пройденного)
Математическая модель надежности – формальные
преобразования, позволяющие получить расчетные формулы.
Модели могут быть реализованы с помощью:
метода интегральных и дифференциальных уравнений;
на основе графа возможных состояний системы;
на основе логико-вероятностных методов;
на основе дедуктивного метода (дерево отказов).
Наиболее важным этапом расчета надежности является
составление структуры системы и определение показателей
надежности составляющих ее элементов.
ПРИМЕР 1. Расчет для 1 узла ЦОД – кабельного оборудования
Характерный расчет показателей одной из систем - надежности кабельного оборудования
ЦОД (из реального диплома – по разработке горизонтальной кабельной системы для ЦОД)
Исходные данные: ….общая длина кабелей –
Интенсивность отказов 1 км кабеля –
L=14.832 км
 
  4  10 7 1
ч
Среднее время восстановления 1 км кабеля –
t в  1ч
Расчет интенсивности отказов всей горизонтальной
подсистемы:
    L  4  10 7  14.832  5.93  10 6 1
ч
Расчет среднего времени безотказной работы горизонтальной подсистемы:
 
То 
1
1

 16855 ч   19 лет 
 5.93  10 6
Расчет коэффициента готовности горизонтальной подсистемы:
Вот только… Допущена
ошибка в одном знаке!… Все
в 10 раз лучше!
КГ 
То
16855

 0.99912
Т о  t в  L 16855  1  14.832
Таким образом, можно сделать вывод, что спроектированная
горизонтальная подсистема способна выполнять свои
функции с необходимым качеством для ЦОД уровня Tier III
ПРИМЕР 1. Расчет для 1 узла ЦОД – кабельного оборудования
Исходные данные: ….общая длина кабелей –
L=14.832 км
 
  4  10 7 1
ч
Интенсивность отказов 1 км кабеля –
Среднее время восстановления 1 км кабеля
–
t в  1ч
Расчет интенсивности отказов всей горизонтальной
подсистемы:
    L  4  10 7  14.832  5.93  10 6 1
ч
Расчет среднего времени безотказной работы горизонтальной подсистемы:
 
То 
1
1

 16855 ч   19 лет 
 5.93  10 6
Расчет коэффициента готовности горизонтальной подсистемы:
Вот только… Допущена
ошибка в одном знаке!… Все
в 10 раз лучше!
КГ 
То
16855

 0.99912

Т о  t в  L 16855  1  14.832
Таким образом, можно сделать вывод, что спроектированная горизонтальная подсистема
способна выполнять свои функции с необходимым качеством для ЦОД уровня Tier IV
Теперь-то всё? НЕТ! Мы не учли, что система кабелей – не 1 кусок провода, а много
систем, в том числе дублирующих…
ЦОД – восстанавливаемая система, поэтому –
некоторые определения, более системно…
У восстанавливаемых систем:
1) Большое число состояний
2) наличие последействия отказов элементов
3) зависимость показателей надежности от большого
числа факторов (интенсивности восстановления,
дисциплины обслуживания)
Следствие: расчет надежности восстанавливаемых
систем – более сложная задача, чем расчет надежности
невосстанавливаемых систем
ЦОД – восстанавливаемая система, поэтому –
некоторые определения, более системно…
Интенсивность
восстановления

обратно
пропорциональна времени восстановления .
Время восстановления для ВС определяется:
1) временем восстановления аппаратуры;
2) временем восстановления информации.
Время восстановления аппаратуры определяется:
1) временем
обнаружения
отказа
системами
контроля;
2) временем
локализации
отказа
системами
диагностирования;
3) временем ремонта.
Дисциплины обслуживания восстанавливаемых
систем
Под дисциплиной обслуживания понимается порядок
восстановления отказавших элементов при кратных
отказах.
Виды дисциплин обслуживания (приоритетов):
1) Прямой приоритет – при отказе нескольких элементов
первым восстанавливается первый отказавший элемент;
2) Обратный приоритет – при отказе нескольких
элементов
первым
восстанавливается
последний
отказавший элемент;
3) Назначенный приоритет;
4) Неограниченное восстановление – каждый из
элементов системы обладает своим ремонтным органом.
Метод расчета надежности восстанавливаемых
систем
Восстанавливаемую
систему
целесообразно
рассматривать как систему массового обслуживания (СМО),
в которой поток заявок на обслуживание представляет
собой поток отказов. Каналами обслуживания являются
ремонтные
органы,
восстанавливающие
работоспособность.
Будем считать, что
справедливо экспоненциальное
распределение наработки между отказами
В этом случае для анализа надёжности восстанавливаемой
системы при ординарных независимых отказах можно
использовать теорию марковских случайных процессов и
метод дифференциальных уравнений для вероятностей
состояний (уравнений Колмогорова).
Расчет надежности восстанавливаемых систем
методом графов – наш основной метод для
расчета надежности ЦОД.
При использовании метода для системы S необходимо иметь
математическую модель в виде множества состояний системы S1 , S2 , … ,
Sn , в которых она может находиться при отказах и восстановлениях
элементов.
Для рассмотрения принципа составления модели введены допущения:
- отказавшие элементы системы (или сам рассматриваемый объект)
немедленно восстанавливаются (начало восстановления совпадает с
моментом отказа);
- отсутствуют ограничения на число восстановлений;
- если все потоки событий, переводящих систему (объект) из состояния в
состояние, являются пуассоновскими (простейшими), то случайный
процесс переходов будет марковским процессом с непрерывным
временем и дискретными состояниями S1 , S2 , … , Sn .
Расчет надежности с помощью графов
Пусть имеется некоторая физическая система S , которая с течением времени меняет свое
состояния, причем заранее неизвестным, случайным образом. Например, S – техническое
устройство, состоящее из ряда узлов, которые время от времени выходят из строя,
заменяются либо восстанавливаются.
Если система S с течением времени t изменяет свои состояния S(t) случайным образом, то
говорят, что в системе S протекает случайный процесс. В любой момент времени система
пребывает только в одном из состояний, то есть для любого момента времени t найдется
единственное состояние Si такое, что S(t) = Si.
Определение. Марковским называется случайный процесс, протекающий в системе, если
для любого момента времени t0 вероятностные характеристики процесса в будущем зависят
только от его состояния в данный момент t0 и не зависят от того, когда и как система пришла
в это состояние.
Пусть в настоящий момент t0 (см. рис.) система находится в определенном состоянии S0 . Нас интересует будущее состояние при t > t0. Можно ли его
предсказать? В точности - нет, т.к. процесс случайный. Но какие-то вероятностные характеристики процесса в будущем можно найти. Например,
вероятность того, что через некоторое время t система S окажется в состоянии Si или сохранит состояние S0, и т. п. Для марковского случайного
процесса такое «вероятностное предсказание» оказывается гораздо проще, чем для немарковского. Если процесс - марковский, то предсказывать
можно, только учитывая настоящее состояние системы S0 и забыв о его «предыстории» (поведении системы при t< t0). Само состояние S0,
разумеется, зависит от прошлого, но как только оно достигнуто, о прошлом можно забыть. Иначе формулируя, в марковском процессе «будущее
зависит от прошлого только через настоящее».
Связь будущего состояния системы с прошлым через настоящее
Приближенные методы анализа
надежности
В большинстве практических случаев расчет надежности
сложных систем с помощью точных аналитических методов
невозможен в связи со следующими особенностями
решаемых задач:
• Большая размерность систем уравнений
• Сложность
структурной
надежности) системы
схемы
(схемы
• Большие
погрешности
элементов сложной системы
показателей
расчета
надежности
Приближенный метод расчета
надежности восстанавливаемых систем
Поэтому делают допущения:
1) Время восстановления намного меньше времени
безотказной работы
2) Интенсивности отказов и интенсивности
восстановлений – постоянные величины
3) Отказы и восстановления отдельных подсистем –
независимые случайные события
Это, по своей сути – предположения о простейшем
(Пуассоновском) потоке событий
ПОВТОР: Понятия теории надежности: язык математики
Случайные события, следующие одно за другим в некоторой последовательности,
образуют поток случайных событий.
Ординарный поток событий - поток, при котором вероятность попадания
двух событий на один и тот же малый участок времени Δt пренебрежительно мала
(в один и тот же момент времени может произойти только одно событие).
Поток без последействия - поток, при котором будущее развитие процесса
появления событий не зависит от того, как этот процесс протекал в прошлом.
Стационарный поток - поток, параметры которого не зависят от времени,
т.е. плотность потока событий (среднее число событий в единицу времени)
является постоянной.
Поток, обладающий свойствами ординарности, стационарности и отсутствия
последействия, называется простейшим потоком или стационарным
пуассоновским потоком.
За что же так любят простейший поток событий? 8-)
Ввиду следующих факторов:
• имеется предельная теорема, согласно которой сумма большого числа независимых
потоков с любыми законами распределения приближается к простейшему потоку с
ростом числа слагаемых потоков;
• из практики исследования потоков отказов, потоков восстановлений и других потоков,
имеющих место при исследовании надежности: простейшие потоки широко
распространены
Приближенный метод расчета
надежности восстанавливаемых систем
Обозначения:
 - интенсивность отказов последовательной
(параллельной) группы из n (m) подсистем
КГ – коэффициент готовности последовательной
(параллельной) группы из n (m) подсистем
 - интенсивность восстановлений последовательной
(параллельной) группы из n (m) подсистем
Те же переменные с индексами обозначают соответствующие
показатели отдельных подсистем
Основные правила составления модели:
1. Математическую модель изображают в виде графа
состояний.
Элементы графа:
а) кружки (вершины графа S1 , S2 , … , Sn ) – возможные
состояния системы S, возникающие при отказах
элементов;
б) стрелки – возможные направления переходов из
одного состояния Si в другое Sj .
Над/под стрелками указываются интенсивности
переходов.
Примеры графа:
S0 – работоспособное состояние;
S1 – состояние отказа.
«Петлей» обозначаются задержки в том или ином состоянии
S0 и S1 соответствующие:
- исправное состояние продолжается;
- состояние отказа продолжается (в дальнейшем эти петли
на графах не рассматриваем).
Граф состояний отражает конечное (дискретное) число
возможных состояний системы S1 , S2 , … , Sn . Каждая из
вершин графа соответствует одному из состояний.
2. Для описания случайного процесса перехода из
состояния в состояние (отказ/ восстановление)
применяют вероятности состояний
P1(t), P2(t), … , Pi(t), … , Pn(t),
где Pi(t) – вероятность нахождения системы в момент t в i-м
состоянии, т. е. Pi(t) = P{S(t) = Si}.
Очевидно, что для любого t
P0 t   P1t   ...  Pn t   1
(нормировочное условие, поскольку иных состояний, кроме S1 , S2 , … , Sn нет).
3. По графу состояний составляется система обыкновенных
дифференциальных уравнений первого порядка (уравнений Колмогорова),
имеющих вид:
Приток, значит
Правило составления уравнений:
а) в левой части – производная по
времени t от Pi(t);
б) число членов в правой части равно
числу стрелок, соединяющих
рассматриваемое состояние с другими
состояниями;
+
Сток, значит
–
P0 t   P1t   ...  Pn t   1
Приток, значит
+
Сток, значит
–
Правило составления уравнений:
а) в левой части – производная по
времени t от Pi(t);
б) число членов в правой части равно
числу стрелок, соединяющих
рассматриваемое состояние с другими
состояниями;
в) каждый член правой части равен произведению интенсивности
перехода на вероятность того состояния, из которого выходит стрелка;
г) знак произведения положителен, если стрелка входит (направлена
острием) в рассматриваемое состояние, и отрицателен, если стрелка
выходит из него.
Правило составления уравнений:
…..
Проверкой
правильности
составления уравнений
равенство нулю суммы правых частей уравнений.
является
4. Чтобы решить систему дифференциальных уравнений для
вероятностей состояний P1(t), Pi(t), … , Pn(t) необходимо задать
начальное значение вероятностей P1(0), Pi(0), … , Pn(0), при t = 0,
сумма которых равна 1.
Если в начальный момент t = 0 состояние системы известно,
например, S(t=0) = Si, то Pi(0) = 1, а остальные вероятности равны
нулю.
Связь логической схемы надежности с графом состояний
Переход от логической схемы к графу состояний необходим:
1) при смене методов расчета надежности и сравнении
результатов;
2) для оценки выигрыша в надежности при переходе от
невосстанавливаемой системы к восстанавливаемой.
Рассмотрим типовые логические структуры надежности. Типовые
соединения рассмотрены для:
– невосстанавливаемых систем (граф – однонаправленный,
переходы характеризуются Интенсивностью Отказов  ).
– Для восстанавливаемых систем в графах состояний добавляются
обратные
стрелки,
соответствующие
интенсивностям
восстановлений  .
Расчет надежности с помощью графов
Итак, граф состояний: вершины – это состояния системы, дуги со стрелками – вероятности
перехода от одной вершины к другой.
Простейшие примеры графов (невосстанавливаемая система):
Нерезервированная восстанавливаемая система,
состоящая из одного элемента.
Система находится под действием пуассоновского (т.е.
простейшего) потока отказов с интенсивностью . После
отказа система начинает немедленно восстанавливаться
(ремонтироваться). Поток восстановлений - пуассоновский с
интенсивностью .
В любой момент времени система может находиться в
одном из двух состояний:
S0 - состояние работоспособности,
S1 - состояние отказа (ремонта),
P0(t), P1(t) - вероятности нахождения системы в состояниях
S0, S1 соответственно
Простейший граф состояний

S0
S1
Требуется
определить
функцию
готовности Кг(t) и
функцию простоя
Кп(t)
нерезервированной
восстанавливаемой системы.

Функция готовности определяет вероятность
нахождения системы в работоспособном состоянии в
момент
t,
совпадает
с
вероятностью
работоспособного состояния , т.е.
Кг(t) = Р0 (t)
Функция простоя совпадает в данном случае с
вероятностью отказа, т.е.
Кп(t) = Р1 (t)
Система дифференциальных уравнений Колмогорова
d P0 t 
  P0 t    P1 t 
dt
d P1 t 
  P0 t    P1 t 
dt
Для любого момента времени t имеем
P t   P t   1
0
при t = 0 система находилась в
работоспособном состоянии, т.е.
P 0  1; P 0  0.
0
1

S0
1
Решив систему, определяем характеристики надежности:
S1


     t
К  t   P0 t          e

     t
К  t   P1t          e
При длительной эксплуатации, т.е. при t   имеем:
К



,

К    
где Кг - коэффициент готовности системы,
Кп - коэффициент простоя системы.
Расчет надежности с помощью графов
Большое значение имеют марковские случайные процессы с дискретными состояниями и непрерывным временем.
Процессом с дискретными состояниями называется процесс, если его возможные состояния S1 , S2 , S3,... можно заранее
перечислить (пронумеровать), и переход системы из состояния в состояние происходит «скачком», практически
мгновенно. Процессом с непрерывным временем называется процесс, если моменты возможных переходов из
состояния в состояние не фиксированы заранее, а неопределенны, случайны, если переход может осуществиться, в
принципе, в любой момент. Будем рассматривать только процессы с дискретными состояниями и непрерывным
временем.
Пример такого процесса: система S состоит из двух узлов, каждый из которых в случайный момент времени может выйти
из строя (отказать), после чего начинается ремонт узла, тоже продолжающийся заранее неизвестное, случайное
время (рисунок 8.2).
Состояния системы можно перечислить:
S0 - оба узла исправны,
S1 - первый узел ремонтируется, второй исправен,
S2 - второй узел ремонтируется, первый исправен,
S3 - оба узла ремонтируются.
Рисунок 8.2. Граф отказов и восстановлений 2-х компонентной системы
Переходы системы S из состояния в состояние происходят практически мгновенно, в случайные
моменты выхода из строя того или другого узла или окончания ремонта.
При анализе случайных процессов с дискретными состояниями используют граф состояний. Состояния
системы изображаются прямоугольниками (или кругами, или даже точками), а возможные переходы из
состояния в состояние - стрелками, соединяющими состояния. Граф состояний для данного примера
представлен на рисунке. Стрелка, направленная из S0 в S1, означает переход в момент отказа
первого узла; стрелка, направленная обратно, из S1 в S0 , переход в момент окончания ремонта этого
узла. Остальные стрелки объясняются аналогично. Предполагается, что узлы выходят из строя
независимо друг от друга, а вероятностью строго одновременного выхода их из строя бесконечно мала.
Расчет надежности с помощью графов
Мы помним, что происходит, когда узлы абсолютно одинаковы:
Расчет надежности с помощью графов
Примеры графов резервированной системы:
2
μ

2

2μ
μ
μ
Нагруженный резерв, элементы могут восстанавливаться
как по одному так и одновременно

μ

Нагруженный резерв, элементы восстанавливаются по
одному

μ
2μ
Ненагруженный резерв, элементы восстанавливаются без
ограничений
μ
Ненагруженный резерв, элементы восстанавливаются по
одному
Ω1
Общая схема системы с некоторым числом
резервных элементов:

Ω2
1
0
Λ0
Ωk
…
Λ1
Ωk+1
k
Λk-
Ωm+1
…
Λk
Λm
m+
1
Ωm+
2
Λm+1
Ωn+
…
m
n+
m
Λm+n-1
Восстанавливаемая система, состоящая
из одного основного и n-1 резервных
элементов
Резервные элементы находятся в нагруженном режиме.
Отказавшие элементы образуют очередь на ремонт, который
осуществляется одной бригадой с интенсивностью .
Интенсивность отказа любого элемента равна .
Введём в рассмотрение состояния S0, S1, … Sn, :
S0 - работоспособны все n элементов,
S1 - отказал один элемент, остальные работоспособны,
S2 - отказали два элемента, остальные работоспособны,
Si - отказали i элементов, остальные работоспособны,
…………………………………………………….
Sn - отказала вся система, т.е. отказали все n элементов.
Граф состояний системы с резервными элементами
n
S0
(n - 1)
S1

(n - 2)
(n + 1 - i )
S2


(n - i )
Si


Sn


Система дифференциальных уравнений Колмогорова в установившемся
режиме:
S0 :
S1 :
S2 :
Si :
Sn :
0  n P0   P1
0  n P0   P2    n  1 P1
0  n  1 P1   P3    n  2 P2
d P t 
……….
0
0  n  1  i  Pi 1   Pi 1    n  i   Pi
dt
……….
Pi t   Pi  const
0   Pn 1   Pn
1
i
P0  P1... Pn
Вероятности состояний
P0 
1
Коэффициент простоя
i
n!   





i  0 n  i !

 
n

P i  i! 


P n  n! 

Кп = Рn
i
Р0
Коэффициент готовности
Кг =1 – Кп = 1 – Рn
n
1
n!  
 n  i !
i 0

n




i
Коэффициент готовности для
n=2 :
λ
К Г  1 - P2  
μ
1
λ μ
1 
μ 2λ
Расчет надежности с помощью графов (из учебника)
…….
Расчет надежности с помощью графов, из одного учебника
То есть,
μ2
К Г  P0 
(μ  λ) 2  λ 2
Но мы же только
что вывели:
К Г  1 - P2 
λ

μ
1
λ μ
1 
μ 2λ
Почему
различается?
Ответ: в учебнике –
последовательная
структура, у нас –
параллельная!
Последовательное
соединение
 
i 1
n
К Г  1  n   К Гi
i 1

При неограниченном
восстановлении
т
n


1 К Г
Параллельное
соединение
i
  i
i 1
В случае одной ремонтной
бригады
  max 
i
i
m
К Г  1   (1  К Гi )
i 1
   (1  К Г )
Кг = 1- λ/µ
Расчет надежности с помощью графов
Примеры графов однократно резервированной системы:
2
μ

2μ
Нагруженный резерв, элементы могут восстанавливаться
как по одному так и одновременно

μ

2μ
Ненагруженный резерв, элементы восстанавливаются без
ограничений

2
μ
μ
Нагруженный резерв, элементы восстанавливаются по
одному

μ

μ
Ненагруженный резерв, элементы восстанавливаются по
одному
По состоянию резервных элементов до момента включения их в работу различают:
нагруженный (горячий) резерв — резервные элементы нагружены так же, как и основные – это и есть в ЦОД!;
облегчённый (ждущий) резерв — резервные элементы нагружены меньше, чем основные;
ненагруженный (холодный) резерв — резервные элементы практически не несут нагрузки
Традиционный расчет надежности – некоторый сарказм
экспертов…
…Для доказательства высокой проектной
оценки надежности часто применяют
следующий «удобный» расчет дублированной
группы серверов. Используется марковская
цепь, приведенная на рисунке. В качестве
параметров модели задаются интенсивности
отказов λ и восстановления µ. Отказом
считается выход из строя обоих узлов:
состояние «2».
Действительно, отказ дублированной группы наступает лишь тогда, когда во время восстановления одного из узлов отказывает второй узел.

Возможные состояния:
2
Нагруженный резерв,
"0" – оба узла исправны;
элементы
"1" – отказ в одном узле;
восстанавливаются по
"2" – отказ в обоих узлах.
одному
Таким образом, состояния исправности системы – "0", "1", отказа – "2". μ
μ
При расчете такой модели получаются явно завышенные значения показателей надежности,
не отражающие реальную надежность системы. При исходных значениях интенсивности
отказов λ = 0,00005 1/ч (наработка на отказ составляет 20 000 ч) и интенсивности
восстановления µ = 0,25 1/ч (4 ч на восстановление) получим из расчета графа значение
коэффициента готовности Кг = 0,99999992 (семь девяток). Притом что взятая наработка в 20
тыс. ч – это нижняя планка MTBF серверных платформ, обычно для серверов указывают
значения 50–100 тыс. ч и, следовательно, результаты получаются даже более «хорошими».
Отсюда возникает резонный вопрос: что лучше – подтвержденные три «девятки» или
маркетинговые шесть? Кроме того, «пять девяток» декларируются, как правило, только для
платформы; для конечной системы значения готовности будут совсем другими, не говоря уж
о значениях RTO (Recovery Time Objective, целевое время восстановления).
По приведенной выше модели ведется расчет и других резервируемых систем ЦОД: от
телекоммуникационного оборудования до систем бесперебойного питания.
Традиционный расчет надежности – из статьи: что НЕ упомянуто?…
…Для доказательства высокой проектной
оценки надежности часто применяют
следующий «удобный» расчет дублированной
группы серверов. Используется марковская
цепь, приведенная на рисунке. В качестве
параметров модели задаются интенсивности
отказов λ и восстановления µ.
Отказом считается выход из строя обоих
узлов: состояние «2».
Действительно, отказ дублированной группы наступает лишь тогда, когда во время восстановления одного

из узлов отказывает второй узел. Возможные состояния: 2
"0" – оба узла исправны;
"1" – отказ в одном узле;
Нагруженный резерв,
"2" – отказ в обоих узлах.
элементы
Таким образом,
восстанавливаются по
состояния исправности системы – "0", "1",
μ
μ
одному
отказа – "2".
При расчете такой модели получаются явно завышенные значения показателей надежности,
не отражающие реальную надежность системы. При исходных значениях интенсивности
отказов λ = 0,00005 1/ч (наработка на отказ составляет 20 000 ч) и интенсивности
восстановления µ = 0,25 1/ч (4 ч на восстановление) получим из расчета графа значение
коэффициента готовности Кг = 0,99999992 (семь девяток). Притом что взятая наработка в 20
тыс. ч – это нижняя планка MTBF серверных платформ, обычно для серверов указывают
значения 50–100 тыс. ч и, следовательно, результаты получаются даже более «хорошими».
По приведенной выше модели ведется расчет и других резервируемых систем ЦОД: от
телекоммуникационного оборудования до систем бесперебойного питания.
Расчет надежности – для N=2
Посчитаем-ка сами, чтобы
понять, какие неявные
предположения еще приняты.
λ = 0,00005 1/ч,
µ = 0,25 1/ч
Пусть значение интенсивности отказов λ = 0,00005 1/ч (наработка на отказ составляет 20 000
ч) и интенсивности восстановления µ = 0,25 1/ч (t=4 ч на восстановление) получим из расчета
графа:
Кг = 1 –P0 = 1 - λ /µ ∙ 1/(1+ λ /µ + µ/(2λ))=
1-0.0002 ∙ 1/(1+ 0.0002 + 0.25/(0.0001)) = 0.99999992 (параллельное соединение)
Кг =P0 = µ2/((µ +λ)2+λ2) =
0.0625/(0.0625250025+0.0000000025)=0.0625/0.062525005=0.9996
(последовательное соединение)
Из статьи:
«Значение коэффициента готовности Кг = 0,99999992»
Притом что взятая наработка в 20 тыс. ч – это нижняя планка MTBF серверных платформ, обычно для
серверов указывают значения 50–100 тыс. ч и, следовательно, результаты получаются даже более
«хорошими». [авторы недоумевают, не верят и…. (в след. лекции)]
Резервирование систем ЦОДа
Для увеличения надежности ЦОД применяют резервирование различных систем.
Из документа SP–3-0092 (Стандарт TIA-942):
G.1.1 Общее представление о резервировании
Для повышения степени резервирования и надёжности следует исключить точки одиночных отказов как в
самом дата-центре и в поддерживающей инфраструктуре, так и во внешних сервисах и системе общего
энергоснабжения. Резервирование повышает как отказоустойчивость, так и ремонтопригодность.
Резервирование следует рассматривать в отдельности на каждом уровне каждой системы.
…
G.1.2 Общее представление об уровнях
Настоящий Стандарт рассматривает четыре уровня, связанных с разной степенью
готовности инфраструктуры оборудования дата-центра. Более высокие уровни соответствуют
не только более высокой готовности, но также вызывают повышенные строительные
затраты. Во всех случаях, уровни с более высоким рейтингом включают в себя требования к
уровням более низкого рейтинга. Дата-центр может иметь разные рейтинги уровней для
разных частей своей инфраструктуры. Например, дата-центр может иметь рейтинговый
уровень 3 для электрооборудования, но уровень 2 для механического оборудования. Однако
общий рейтинг этого дата-центра равен самому нижнему уровню по всем частям его
инфраструктуры. Таким образом, если дата-центр имеет уровень 4 для всех частей
инфраструктуры, кроме электрооборудования, где рейтинг равен 2, то весь дата-центр
получает рейтинг 2. Общий рейтинг дата-центра совпадает с рейтингом самого слабого
компонента.
Следует уделять внимание поддержанию функциональных возможностей механической и электрической
систем на правильном уровне, поскольку нагрузка на дата-центр с течением времени возрастает. Датацентр может спуститься с уровня 3 или 4 до уровня 1 или 2 по мере того, как резервированная мощность
будет использоваться для поддержки нового вычислительного и телекоммуникационного оборудования…..
Резервирование систем ЦОДа
Из документа SP–3-0092 (Стандарт TIA-942):
G.2 Резервирование
G.2.1 N - Базовое требование
Система соответствует основным (базовым) требованиям и не имеет резервирования
(избыточности).
Примечание: N это – Need (только необходимые элементы)
G.2.2 Резервирование N+1 (Need plus One)
Резервирование N+1 предусматривает один дополнительный узел, модуль, путь (канал,
тракт) или одну систему в дополнение к тому минимуму, который нужен для удовлетворения
базового требования. Отказ или ремонт (техническое обслуживание) любого одного узла,
модуля или тракта не нарушает работу.
G.2.3 Резервирование N+2
Резервирование N+2 предусматривает два дополнительных узла, модуля, пути (канала,
тракта) или две системы в дополнение к тому минимуму, который нужен для удовле творения
базового требования. Отказ или ремонт (техническое обслуживание) любых двух одиночных
узлов, модулей или трактов не нарушает работу.
G.2.4 Резервирование 2N
Резервирование 2N предусматривает два комплектных узла, модуля, пути (канала, тракта)
или две системы для каждого(-ой) одного(-ой), требуемого(-ой) для базовой системы. Отказ
или ремонт (техническое обслуживание) любого одного целого узла, модуля, тракта или
системы не нарушает работу.
G.2.5 Резервирование 2(N+1)
Резервирование 2(N+1) предусматривает два комплектных (N+1) узла, модуля, пути (канала,
тракта) или две системы. Даже в случае отказа или ремонта (технического обслуживания)
любого одного узла, модуля, тракта или системы будет обеспечено некоторое
резервирование и работа не будет нарушена.
Резервирование систем ЦОДа, снова об уровнях TIA
Из документа SP–3-0092 (Стандарт TIA-942):
G.2.9.3 Дата-центр уровня 2 – с резервированными (избыточными) компонентами
Дата-центр уровня 2 имеет резервированные (избыточные) компоненты, но только один путь.
Он имеет один путь для распределения электропитания и охлаждения, но имеет
резервированные (избыточные) компоненты на этом пути распределения.
Оборудование уровня 2 с избыточными компонентами несколько меньше подвержено
нарушениям нормального хода работы от плановых и от внеплановых действий, чем базовый
дата-центр уровня 1. Проектные возможности ИБП и генераторов имеют оценку N+1 (Need
plus One), что означает однопоточный путь распределения по всей площади. Техническое
обслуживание и ремонт критического пути электроснабжения и других частей
инфраструктуры объекта потребует остановки процесса обработки данных.
Из первой лекции:
Уровень 1 — это самый простой ЦОД, без резервирования какой бы то ни было избыточности и
возможностей проведения регламентных работ без остановки систем.
На уровне 2 сюда добавляется резервирование вычислительных мощностей по схеме N+1.
Уровень 3 — это уже принципиально другой класс ЦОДов, в которых дублируется не только
вычислительная система, но и системы распределения электропитания и кондиционирования.
Наконец, уровень 4 — это по сути два ЦОДа: самая надежная система, все компоненты и системы которой
зарезервированы.
Точек отказа у ЦОДов первого и второго уровней может быть много, у третьего — несколько, но у ЦОДа
уровня 4 их нет совсем.
Резервирование систем ЦОДа, снова об уровнях TIA
Из документа SP–3-0092 (Стандарт TIA-942):
G.2.9.4 Дата-центр уровня 3 – с возможностью параллельного проведения ремонтов
Дата-центр уровня 3 имеет несколько путей распределения электропитания и охлаждения, но только один
путь активен. Поскольку резервированные компоненты имеются не на одном пути распределения, эта
система позволяет производить техническое обслуживание и ремонты параллельно с работой датацентра.
Возможности уровня 3 позволяют осуществлять любую плановую деятельность инфраструктуры объекта
без какого-либо нарушения нормального хода работы технических средств машинного зала. К плановой
деятельности относится профилактическое и программируемое техническое обслуживание, ремонт и
замена компонентов, добавление или удаление компонентов, влияющих на производительность,
тестирование компонентов и систем и пр. В дата-центрах, использующих охлаждённую воду, это означает
наличие двух независимых комплекта труб. Необходимо иметь в наличии достаточную мощность и
распределительные возможности, чтобы одновременно нести нагрузку на одном пути и в то же время
выполнять ремонт или тестирование на другом пути. Внеплановые действия, например ошибки при
эксплуатации или самопроизвольные отказы компонентов инфраструктуры объекта, всё же будут
вызывать нарушения нормального хода работы дата-центра. Объекты уровня 3 зачастую проектируют с
перспективой наращивания ресурсов до уровня 4, когда бизнес клиента оправдает стоимость
дополнительной защиты.
Объект должен находиться под управлением человека 24 часа в сутки.
Из первой лекции:
Уровень 1 — это самый простой ЦОД, без резервирования какой бы то ни было избыточности и возможностей проведения
регламентных работ без остановки систем.
На уровне 2 сюда добавляется резервирование вычислительных мощностей по схеме N+1.
Уровень 3 — это уже принципиально другой класс ЦОДов, в которых дублируется не только вычислительная система, но и
системы распределения электропитания и кондиционирования.
Наконец, уровень 4 — это по сути два ЦОДа: самая надежная система, все компоненты и системы которой
зарезервированы.
Точек отказа у ЦОДов первого и второго уровней может быть много, у третьего — несколько, но у ЦОДа уровня 4 их нет
совсем.
ДАТА-Центр: надежность
3-ой уровень надежности ЦОД- tier 3
Дата-центр с данным уровнем надежности позволяет провести ремонтнопрофилактические работы без остановки работы ЦОД. То есть возможна
одновременно эксплуатация и техническое обслуживание центра обработки
данных вплоть до замены компонентов системы, добавления и удаления
вышедшего из строя оборудования. Чтобы обеспечить 3-ий уровень уже
необходимо для системы охлаждения спроектировать и построить два
трубопровода, обеспечить резервными мощностями работу всего оборудования с
учетом выхода из строя или профилактики системы электроснабжения. Но ошибки
в работе и отказы могут вызывать перебои в работе дата-центра.
Имеет несколько путей (каналов) для распределения электропитания и
охлаждения, но лишь один из них активен; имеет резервированные компоненты
(обеспечение потребностей выражается в виде формулы «N+1»)
Время простоя за год — 1,6 часа
Коэффициент отказоустойчивости 99,982%
Класс дата центра
Время доступности
сервиса
Сумма времени
отказов за год
Tier IV
99,995%
26 минут
Tier III
99,982%
94 минуты
Tier II
99,749%
22 часа
Tier I
99,671%
29 часов
Резервирование систем ЦОДа, снова об уровнях TIA
Из документа SP–3-0092 (Стандарт TIA-942):
G.2.9.5 Дата-центр уровня 4 – отказоустойчивый
Дата-центр уровня 4 имеет несколько активных путей распределения электропитания и охлаждения. Поскольку в дата-центре уровня 4
по крайней мере два пути являются нормально активными, то инфраструктура обеспечивает повышенную степень отказоустойчивости.
Дата-центры уровня 4 обеспечивают несколько путей подвода электропитания ко всем видам вычислительного и
телекоммуникационного оборудования. Уровень 4 требует, чтобы всё компьютерное и телекоммуникационное оборудование имело
несколько силовых входов (power inputs). Оборудование должно быть способно продолжать функционировать, когда один из этих
силовых входов отключён. Оборудование, не имеющее нескольких встроенных силовых входов, потребует наличия автоматических
переключателей (для перевода на другую электрическую линию) без разрыва тока.
Уровень 4 предусматривает возможность и способность инфраструктуры объекта позволять любую плановую деятельность без
нарушения нормального хода работы критически важной нагрузки. Отказоустойчивая функциональность также обеспечивает
способность инфраструктуры дата-центра выдержать по крайней мере один внеплановый отказ (или событие) наихудшего свойства без
последствий для критически важной нагрузки. Это требует одновременной активности путей распределения, обычно в конфигурации
«Система+Система». С точки зрения электрооборудования, это означает наличие двух отдельных систем ИБП, в которых каждая
система имеет резервирование N+1. В связи с правилами противопожарной безопасности и электробезопасности всё-таки будет
происходить некоторое воздействие простоя из-за срабатывания пожарной сигнализации или из-за того, что кто-то из персонала
инициирует процесс аварийного отключения нагрузки (EPO, Emergency Power Off).
Инфраструктуры дата-центра уровня 4 являются наиболее совместимыми с ИТ-концепцией высокой эксплуатационной готовности,
которая использует кластеризацию центральных процессоров (CPU), матрицу независимых дисковых накопителей с
избыточностью/запоминающие устройства с прямым доступом (RAID/DASD) и дублированные коммуникации с целью достижения
надёжности, готовности и ремонтопригодности.
Из первой лекции:
Уровень 1 — это самый простой ЦОД, без резервирования какой бы то ни было избыточности и возможностей проведения
регламентных работ без остановки систем.
На уровне 2 сюда добавляется резервирование вычислительных мощностей по схеме N+1.
Уровень 3 — это уже принципиально другой класс ЦОДов, в которых дублируется не только вычислительная система, но и
системы распределения электропитания и кондиционирования.
Наконец, уровень 4 — это по сути два ЦОДа: самая надежная система, все компоненты и системы которой
зарезервированы.
Точек отказа у ЦОДов первого и второго уровней может быть много, у третьего — несколько, но у ЦОДа уровня 4 их нет
совсем.
ДАТА-Центр: надежность
4-ой уровень надежности ЦОД- tier 4
Отказоустойчивый дата-центр с резервированием всех систем, позволяющий выполнить
любые плановые и внеплановые работы без прерывания работы ЦОД. На этом уровне
обеспечивается надежная защита от сбоев. Чтобы отвечать требованию 4-ого уровня
надежности необходимо дублирование всех систем с учетом того, что в каждой системе и
ее «резервной копии» будет находиться, как минимум, еще один дополнительный компонент,
обеспечивающий резервирование по схеме «N+1». То есть в дата-центре должно быть
резервирование системы на уровне «N+1» и сама система еще должна быть, как минимум,
продублирована. Отказы могут иметь место в случаях ручного аварийного отключении
системы электроснабжения и срабатывания системы пожарной безопасности. На 4-ом
уровень даже структурированная кабельная система должна быть полностью
зарезервирована.
Системы имеют двойное резервирование с учетом, как минимум, дополнительного
компонента Имеет несколько активных путей распределения нагрузки и охлаждения с
резервными компонентами 2 (N+1), т.е. 2 ИБП с избыточностью N+1 каждый (обеспечение
потребностей выражается в виде формулы «2 (N+1)»)
Время простоя за год — 0,4 часа
Коэффициент отказоустойчивости 99,995%
Класс дата центра
Время доступности
сервиса
Сумма времени
отказов за год
Tier IV
99,995%
26 минут
Tier III
99,982%
94 минуты
Tier II
99,749%
22 часа
Tier I
99,671%
29 часов
ДАТА-Центр: надежность
…….
Резервирование систем ЦОДа
Для увеличения надежности ЦОД
применяют резервирование
различных систем.
Из документа SP–3-0092:
(Стандарт TIA-942)
Резервирование
телекоммуникационной
инфраструктуры
На рис. представлены различные
резервные компоненты
телекоммуникационной
инфраструктуры, которые можно
добавить к базовой
инфраструктуре.
Надёжность телекоммуникационной инфраструктуры
можно повысить, предусмотрев резервные зоны
перекрёстного соединения и физически разделенные
кабельные каналы. Обычная практика для дата-центров –
иметь несколько провайдеров доступа, поставляющих
услуги, а также иметь резервные маршрутизаторы,
резервное центральное распределение (core distribution) и
оконечные коммутаторы (edge switches). Хотя такая
топология сети обеспечивает определённый уровень
резервирования, но всё же одно только дублирование
сервисов и аппаратуры не обеспечивает исключения
единых точек отказов.
Резервирование систем ЦОДа
Резервирование телекоммуникационной инфраструктуры
Резервные смотровые люки и внешние кабельные каналы
Резервные сервисы провайдеров доступа
Резервирование комнат ввода
Резервная главная распределительная зона
Резервная магистральная разводка
Резервная горизонтальная разводка
Но: резервирование делать разумно,
«без фанатизма» (С). Далее - примеры:
Резервные смотровые люки и внешние
кабельные каналы:
…Наличие нескольких внешних кабельных каналов от собственной
линии провайдера к комнате (комнатам) ввода исключает единую
точку отказа для провайдерских сервисов, входящих в здание.
Смотровые люки и внешние кабельные каналы должны находиться
с противоположных сторон стены здания и должны быть удалены
друг от друга по крайней мере на 20 м.
В дата-центрах с двумя комнатами ввода и двумя смотровыми
люками нет необходимости устанавливать кабельные
трубопроводы от каждой комнаты ввода к каждому из двух
смотровых люков. При такой конфигурации от каждого провайдера
доступа обычно требуют установить два внешних кабеля, один к
главной комнате ввода через главный смотровой люк, и один ко
вспомогательной комнате ввода через вспомогательный
смотровой люк. Кабельные трубопроводы от главного
смотрового люка к вспомогательной комнате ввода и от
вспомогательного смотрового люка к главной комнате ввода
обеспечивают гибкость, но не являются обязательными.
Резервирование систем ЦОДа
Резервирование телекоммуникационной инфраструктуры
Резервные смотровые люки и внешние кабельные каналы
Резервные сервисы провайдеров доступа
Резервирование комнат ввода
Резервная главная распределительная зона
Резервная магистральная разводка
Резервная горизонтальная разводка
Резервные сервисы провайдеров доступа:
…С целью обеспечения непрерывности услуг связи, поставляемых
дата-центру провайдерами доступа, можно привлечь несколько
провайдеров, использовать несколько провайдерских центральных
офисов, а также предусмотреть несколько разных кабельных трасс
от провайдеров доступа к дата-центру.
Наличие нескольких провайдеров обеспечит непрерывность связи
в случае масштабной аварии у провайдера или в случае его
финансового краха, способного повлиять на сервис.
Но всё же одно лишь использование нескольких провайдеров
доступа не гарантирует непрерывности сервиса, поскольку
провайдеры часто сообща занимают площадь в центральных
офисах и совместно используют трубопроводные трассы.
Пользователю следует обеспечить такое положение, при котором
сервисы поставляются из разных провайдерских центральных
офисов и кабельные трассы к этим центральным офисам идут
по разным маршрутам. Эти трассы должны быть физически
отдалены друг от друга на расстояние не менее 20 м во всех
точках по всей длине этих трасс.
Резервирование систем ЦОДа
Резервирование телекоммуникационной инфраструктуры
Резервные смотровые люки и внешние кабельные каналы
Резервные сервисы провайдеров доступа
Резервирование комнат ввода
Резервная главная распределительная зона
Резервная магистральная разводка
Резервная горизонтальная разводка
Резервирование комнат ввода:
… Несколько комнат ввода можно устроить с целью
резервирования, а не только для того, чтобы обойти
ограничения на максимальную длину линии. Наличие нескольких
комнат
ввода повышают степень резервирования, но усложняет
организационное управление.
Следует весьма внимательно распределить линии между
комнатами ввода. Провайдеры доступа должны установить своё
оборудование в обеих комнатах ввода таким образом, чтобы
линии всех требуемых типов можно было подготовить к работе
(инициировать) из каждой комнаты. Инициирующее
оборудование провайдера в одной комнате ввода не
должно быть подчинённым по отношению к оборудованию
в другой комнате ввода. Оборудование провайдера в каждой
из комнат ввода должно быть способно работать в случае отказа
в другой комнате ввода. Две комнаты ввода следует отодвинуть
друг от друга на расстояние не менее 20 м и разместить в
раздельных огнезащитных зонах. Комнаты ввода не должны
иметь общих распределительных щитов питания и общего
оборудования для 1 кондиционирования воздуха.
Резервирование систем ЦОДа
Резервирование телекоммуникационной инфраструктуры
Резервные смотровые люки и внешние кабельные каналы
Резервные сервисы провайдеров доступа
Резервирование комнат ввода
Резервная главная распределительная зона
Резервная магистральная разводка
Резервная горизонтальная разводка
Резервная главная
распределительная зона :
Второстепенная распределительная зона обеспечит
дополнительное резервирование, но при этом усложнится
организационное управление. Основные маршрутизаторы и
коммутаторы следует распределить между главной
распределительной зоной и второстепенной распределительной
зоной. Линии также следует распределить между двумя этими
зонами.
Устраивать второстепенную распределительную зону не имеет
смысла, если машинный зал представляет собой единое
пространство, поскольку пожар в одной части дата-центра
потребует, вероятно, отключения всего дата-центра целиком.
Второстепенную
распределительную зону и главную распределительную
зону следует размещать в раздельных огнезащитных зонах,
снабжать энергией от разных распределительных щитов
питания и оснащать отдельными системами
кондиционирования воздуха.
Резервирование систем ЦОДа
Резервирование телекоммуникационной инфраструктуры
Резервные смотровые люки и внешние кабельные каналы
Резервные сервисы провайдеров доступа
Резервирование комнат ввода
Резервная главная распределительная зона
Резервная магистральная разводка
Резервная горизонтальная разводка
Резервная магистральная разводка :
Резервная магистраль защищает от общего выхода из строя
вследствие отказа магистральной кабельной разводки. Резервная
магистраль может быть устроена по-разному, в зависимости от
желаемой степени защиты.
Магистральная разводка между двумя зонами, например, между
горизонтальной распределительной зоной и главной
распределительной зоной, может быть выполнена
путём укладки двух кабелей между этими зонами,
предпочтительно по двум разным маршрутам. Если дата-центр
имеет главную распределительную зону и второстепенную
распределительную зону, то укладывать резервирующую
магистральную разводку к горизонтальной распределительной
зоне нет необходимости, однако кабели к главной
распределительной зоне и второстепенной
распределительной зоне следует проложить по разным
маршрутам.
Некоторую степень резервирования можно также обеспечить
путём установки магистрального кабеля между горизонтальными
распределительными зонами. Если магистральная разводка от
главной распределительной зоны к горизонтальной
распределительной зоне будет повреждена, можно будет
переключать соединения через другую горизонтальную
распределительную зону.
Резервирование систем ЦОДа
Резервирование телекоммуникационной инфраструктуры
Резервные смотровые люки и внешние кабельные каналы
Резервные сервисы провайдеров доступа
Резервирование комнат ввода
Резервная главная распределительная зона
Резервная магистральная разводка
Резервная горизонтальная разводка
Резервная горизонтальная разводка :
Горизонтальную кабельную разводку к критически важным
системам можно проложить по разным маршрутам, чтобы
повысить степень резервирования. При выборе маршрутов
следует соблюдать осторожность, чтобы не превысить
максимально допустимую
длину горизонтального кабеля.
Для критически важных систем можно предусмотреть две разные
горизонтальные распределительные зоны, если только не
превышать ограничений на максимальную длину кабелей. Но
такая степень резервирования, возможно, не обеспечит намного
более надёжную защиту, чем укладка горизонтальной разводки
по разным маршрутам, если две эти горизонтальные
распределительные зоны находятся в одной и той же
огнезащитной зоне.
Рефераты по расчетам надежности ЦОД
Подготовить рефераты: 10 страниц - прислать по е-мэйлу
sam@prao.ru , vsamodurov@hse.ru
Сдача через 22/03/2014 , ~10 минут (+ презентация на 5-15 слайдов!)
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
Надежность провайдерских линий связи ЦОД и их влияние на надежность Дата-Центра в
целом.
Надежность кабельной системы ЦОД и ее влияние на надежность Дата-Центра в целом.
Надежность системы энергоснабжения ЦОД и ее влияние на надежность Дата-Центра в целом
Надежность систем кондиционирования ЦОД и ее влияние на надежность Дата-Центра в
целом.
Надежность систем пожаротушения ЦОД и ее влияние на надежность Дата-Центра в целом.
Системы мониторинга и их влияние на общую надежность ЦОД.
Надежность серверного узла ЦОД и его влияние на оценку надежности Дата-Центра в целом.
Надежность работы автоматизированной системы управления ЦОД и ее влияние на оценку
надежности Дата-Центра в целом.
Оценка влияния DDoS атак на надежность ЦОД, методы борьбы.
Стандарт надежности ЦОД ТИА-942 и другие документы по надежности Дата-Центров.
Влияние скрытых отказов на надежность ЦОД.
Катастрофоустойчивые ЦОД.
Влияние человеческого фактора на надежность ЦОД.
История и перспективы развития в будущем уровней надежности дата-центров.
Статистика уровней надежности дата-центров у нас в стране и в мире в целом.
Оценка надежности программных комплексов.
Свободная тема (дата-центры / теория надежности).
Свободная тема (дата-центры / теория надежности).
Свободная тема (дата-центры / теория надежности).
Свободная тема (дата-центры / теория надежности).
Спасибо за внимание!
Вопросы ?
Download