надежность, контроль и диагностика вычислительных систем

КУРС надежность, контроль и диагностика вычислительных систем профессор Чернышев Ю.А. Понятия теории вероятностей Случайное событие – событие, которое может произойти или не может, его зарание предсказать нельзя. Вероятность случайного события – численное значение объективной возможности случайного события. Обозначение: Р(А),где А случайное событие. Достоверное событие P(A)=1 Не может произойти P(A)=0 Испытание - действие, направленное, на получение(реализацию) случайного события. Полная группа событий – когда при испытании обязательно произойдет хотя бы одно из этих событий. Оценка вероятности события «А» Р(А) = m/n статистическое значение вероятности n – общее число проведенных испытаний m – число испытаний ,где появилось событие «А» Сложение вероятностей: вероятность появления события «А» «ИЛИ» события «В» определяется выражением: Р(А+В) = Р(А) + Р(В) – Р(А) Р(В) ,если события «А» и «В» не совместимы то Р(А +В) = Р(А) + Р(В) Умножение вероятностей: вероятность того, что события «А» «И» «В» произойдут одновременно определяется выражением: Р(А В) = Р(А) Р(В) Пример испытания с кубиком, имеющем 6 граней: Р(1) + Р(2) + Р(3) + Р(4) + Р(5) + Р(6) = 1 , Р( i ) = 1/6 Р( 1 + 2 + 3 ) = Р(1) + Р( 2 ) + Р(3 ) = 1/3 Случайная величина – такая переменная величина, ко торая в результате испытания принимает одно из воз – можных значений. Основная характеристика – функция распределения случайной величины: F ( x )  P( X  x ) X – конкретное значение случайной величины x– случайная величина и плотность распределения: f ( x)  F ( x) Случайные события и величины в теории надежности Рассматриваются следующие основные случайные события : отказ изделия и его восстановление после отказа. Случайные величины Время работы до отказа i – ого изделия - случайное время – ti. Случайное количество отказов n(t) за время t. Время восстановления - случайное время – tвi Наибольшее распространение в теории надежности получила экспоненциальная функция распределения. Для времени безотказной работы она имеет вид: F (t )  1    t ,где  параметр функции. Что такое надежность? Надежность – это одно из свойств качества изделия. Качество – совокупность свойств изделия, определяющих его пригодность для использования по назначению. Надежность – качество развернутое во времени. Надежность – свойство объекта сохранять во времени в установленных пределах значения всех параметров, характеризующих способность выполнять требуемые функции в заданных режимах и условиях применения, технического обслуживания, ремонтов, хранения и транспортировки. Экономика и надежность Жизненный цикл изделия Сплан C ТЗ С C-затраты(стоимость) ТУ ЭПр РАЗР Сзатр t РПр Изг Эксп С1=Спр+Сизг Тжизни ИЗД С2=Собс+Срем C3 – потери от отказов Сн – затраты на надежность С1 Сопт С2 + С3 Сн С = С1 + С2 + С3 С – суммарные затраты за время жизненного цикла Основные понятия и определения Понятия системы и элемента Система – совокупность функционально связанных элементов. Элемент – минимальная часть системы, надежность которой задана. Виды состояния системы Исправное – нет ни одной неисправности. Работоспособное – все функции выполняются. Неисправное – имеется хотя бы одна неисправность. Отказ – не выполняется хотя бы одна функция. Предельное – состояние технической невозможности или не целесообразности дальнейшей эксплуатации. При неисправности система может находиться в работоспособном состоянии, при отказе система не работоспособна. Виды отказов Внезапный отказ – скачкообразное изменение параметров. Постепенный отказ – постепенное изменение параметров. Независимый отказ – независим от отказов других элементов. Зависимый отказ – зависит от других отказов. Полный(окончательный) отказ – устраняется только ремонтом. Сбой – самоустраняющийся отказ. Перемежающийся отказ –. многократный сбой. Жизненный цикл изделия Наработка – объем работы изделия. Ресурс – наработка до предельного состояния. Срок службы – календарная продолжительность эксплуатации изделия до предельного состояния. Tср.сл.   t нар   t рем   t проф   t прост Типы систем 1) Простая – имеет два состояния: рабочее и отказ. 2) Сложная – имеет множество состояний: раб.,отказ.,восст.,проф. 3) Не восстанавлемая – не подлежит восстановлению после отказа. 4) Восстанавлиемая – взможно восстановление после отказа. 5) Не избыточная – при отказе одного элемента – отказ системы. 6) Избыточная – при отказе некоторого количества элементов система работоспособна. Не восстанавлиемая Восстанавлиемая с перерывом отказ в работе отказ tp Пред. сос. tp tB Пред.сос. Восстан. без перерыва tp tB tp отказ tB tB Свойства надежности Безотказность – свойство изделия непрерывно сохранять работоспособность в течение некоторого времени. Ремонтнопригодность – свойство изделия обеспечивать восстановление работоспособности или исправности изделия после отказа. Долговечность – свойство изделия сохранять работоспособность до предельного состояния при наличии технического обслуживания и ремонта. Сохраняемость – свойство изделия непрерывно сохранять работоспособность при хранении и транспортировки. Количественные характеристики надежности Характеристики делятся на: единичные и комплексные. Единичные – характеризуют одно из свойств надежности. Комплексные – характеризуют сразу несколько свойств надежности. Характеристики безотказности 1.Вероятность безотказной работы - P(t), отказа - Q(t). t отказ 0 t T P(t) 1 P(t)  вер. (t  T ) Q(t )  вер. (t  T ) N(t) P(t)  N0 n(t ) Q(t )  N0 0  P(t)  1 P(t )  Q(t )  1 Q(t) – функция распределения времени работы до отказа N0 – количество изделий посt тавленных на испытания 2.Частота отказов – а(t) n a (t )  N 0 t n  N (t )  N (t  t ) t 0 0 t n N (t )  N 0  P(t ) N (t  t )  N 0  P(t  t ) a (t )   P(t )  Q(t ) a(t) – плотность распределения времени работы до отказа  (t ) 3. Интенсивность отказов n λ(t)  N ср t N ср N ср  N 0 P(t) Q(t) a(t) λ(t)   P(t) P(t) N  N i 1  i 2 t 2 3 1 t 0 Ni t t1 t t t Ni+1 t2 4. Средняя наработка на отказ – T0 Noт  0   t  a (t )dt t1 t2 tNОТК T0  0 Взаимосвязь характеристик безотказности 1) P(t )  Q (t )  1 2)a (t )  Q(t )  0 0 i 1 i N ОТК P(t )  (t )   P(t ) t  3)T0   t  a(t )dt  P(t )dt t P(t )      ( t ) dt 0 Характеристики ремонтнопригодности Вероятность восстановления – Рв(t) PВ(t)  верΨ(t В  T ) PB (t )  QB (t )  1 NB PB (t )  NП N П Среднее время восстановления – TB  t i 1 Bi NП nB Интенсивность восстановления -  (t )  t  N П  N B (t )t     ( t ) dt TB   QB (t )dt PB (t )  1   0 tр1 0 tв1 tр2 tв2 tр3 Комплексные характеристики надежности Для востанавлиемых систем: Коэфициент готовности: КГ  t t Pi Рi   t Bi  T0 T0  TB n T0  n –число отказов Коэфициент оперативной готовности : K ог  К Г (t ож )  P(t раб ) tож t i 1 Pi n tраб Характеристики долговечности Средний ресурс Назначенный ресурс γ  процентный ресурс t P(t )  0,8  0,9 Модели надежности Модель надежности –такое представление системы ,которое позволяет получить зависимость надежности системы от надежности ее элементов при учете условий работы. Обычно используют три типа моделей : - модель типа распределение времени, - логико-вероятностная модель, - модель типа цепей Маркова. Экспоненциальная модель надежности Используется экспоненциальная функция распределения. Q(t )  1   t P(t )    t T0  1  1 T0 0,5 (t) Q(t) λ  константа P(t) 0,37 0 T0 t t 0 t1 t2 При расчетах надежности целесообразно использовать следующие приближенные выражения при высокой надежности систем Р > 0,8 : При последовательном соединении n элементов n Qc   qi i 1 Для экспоненциального закона надежности  t P(t )    1  t Q ( t )  t      a  а t at t  o at 1 at dt    a Задачи 1. Задано: N 0 = 1000, t  300 Определить : P(t), a(t),  (t ) ,T0 t n ( t ) 0-300 122 300-- 600 62 600-- 900 47 900-- 1200 43 1200-1500 41 a(t) P(t) 3  10 1/час  =0,82 10 3 N ср  (t ) 103 2. Дано: Определить P( t=6 ), a(t=100 ) и Т0 ? 3. Дано: Р(t=120) = 0,9. Найти:  и а( t= 120 ) и Т0 ,если действует экспоненциальный закон надежности. 4.Поставлено на испытания N 0 = 3000 изделий. За время t=3000час отказало n(t) =200изд, затем за время t = 100час отказало еще n(t) =100изд. Требуется определить P(t) за t = 3000; 3100; 3050 час, а(t) , интенсивность отказов за t=3050 ч. 5. За время испытаний 6 изделий отказало за 181 час, 8—за 245 час 11—за 329час. Найти Т0 =? 6. Поставлено на восстановление 8 изделий. Первое было восстановлено за время t1 = 12 мин., второе за t2 = 15мин и соответственно t3 = 23мин., t4=9мин., t5=17мин., t6=28мин., t7=25мин., t8 = 31мин. Чему равно среднее время восстановления ТВ =? 7. Среднее время работы до отказа элемента -Т0 ,чему равно среднее время работы до отказа 3-х последовательно соединенных элементов. Действует экспоненциальный закон надежности . 8. Среднее время работы до отказа элемента –Т0 ,чему равно среднее время работы до отказа 2-х параллельно соединенных элементов. Действует экспоненциальный закон надежности. 9. Получить выражение P=F(pi) для следующей системы : Р1 Р2 Р4 Р6 Р5 Р3 Р7 Р8 Р9 10.Из пункта А в пункт В летит 4-х моторный самолет. С какой вероятностью самолет долетит до пункта B, если самолет может лететь при работе 2-х или более двигателей. Вероятность безотkазной работы двигателя Рдв=0,9. 11. Система состоит из 4-х последовательно соединенных элементов.Необходимо найти Рс и Тс для t= 10; 100 и 5000 часов,если 1 4 1 1  1,5 10 2  10 10 час час 4 1 4 1 3  3,5 10 4  5 10 час час 4 12.Найти стационарное значение коэфициента готовности К г, восстанавлиемой системы, если ее интенсивность отказов  ,а иненсивность восстановления  13. Структура устройства – мостиковая схема. Устройство работоспособно, когда существует хотя бы одна цепочка из исправных элементов, соединяющая вход с выходом. Элементы равнонадежны, известны их p и q. Найти приближенные выражения для P и Q устройства и значениеQ при p = 0,9. 4 1 Вх. Вых. 3 2 5 14. Найти стационарное значение Кг восстанавлиемой системы с учетом постоянных отказов и сбоев, если заданы соответствующие значения интенсивностей отказов и восстановлений o о с с 15. Найти значение Кг(t) восстанавлиемой системы, если заданы ее интенсивности отказов и восстановлений.  , и , Задача 1 (контрольная 1) Вариант 1 Поставлено на испытания N 0 = 3000 изделий. За время t =3000час отказало n(t) =200изд, затем за время t = 100час отказало еще n(t) =100изд. Требуется определить P(t) за t = 3000 час,а(t) за 3050ч Вариант 2 Поставлено на испытания N 0 = 3000 изделий. За время t=3000час отказало n(t) =200изд, затем за время t = 100час отказало еще n(t) =100изд. Требуется определить Q(t) за t = 3100 час., интенсивность отказов за t=3050 ч. Вариант 3 За время испытаний 100-а изделий 20 из них отказало за 181 час, 30—за 245 час,50—за 329час. Найти Т0 и Р( t ) за t = 245 час. Задача 2 (контрольная 1) Вариант 1 Система состоит из 4-х последовательно соединенных элементов.Необходимо найти Рс и Тс для t= 10; 100 и 5000 часов,если 1 4 1 4 1 1  1,5 10 2  10 10 3  3,5 10 час час час 4 1 4  5 10 час 4 Вариант 2 Среднее время работы до отказа элемента -Т0 ,чему равно среднее время работы до отказа и Р(t) за t= 100 час. 3-х последова – тельно соединенныхэлементов. Действует экспоненциальный законнадежности и Т0=10 000час. Вариант 3 . Среднее время работы до отказа элемента -Т0 ,чему равно среднее время работы до отказа и Р(t) за t= 100 час. 2-х параллельно соединенных элементов. Действует экспоненциальный закон надежности и Т0=10 000час. Задача 3 (контрольная 1) Вариант 1 Из пункта А в пункт В летит 4-х моторный самолет. С какой вероятностью самолет долетит до пункта B, если самолет может лететь при работе 2-х или более двигателей. Вероятность безотkазной работы двигателя Рдв=0,9. Вариант 2 Получить выражение P=F(pi) для следующей системы : Р1 Р2 Р4 Р5 Р3 Р6 Р7 Вариант 3 Р8 Р9 Получить выражение для Р = F(pi) для следующей системы : P4 P1 P3 P2 P5 P6 Задача 4 (контрольная 1) Вариант 1 12.Найти стационарное значение коэфициента готовности К г вос станавлиемой системы, если ее интенсивность отказов и интенсивность восстановления соответственно равны:   10 3 1 час 1   0,2 час Вариант 2 Установлено, что частота отказов имеет вид :  t  t a(t )  2 (1   ) определить Р(t) и интенсивеостьотказов. Вариант 3 Вероятность отказов Q(t) = 0,1 для t = 100час.Найти значения интенсивности отказов, частоты отказов для t = 100 час и Т0, Когда действует экспоненциальный закон надежности. Задачи 1 .Интенсивность отказов системы = 0,016 1/час.Для повышения надежности системы можно уменьшить в 2 раза интенсивность отказов или использовать дублирование. Какой способ цепесообразен для t = 20час. ,если надежность оценивать по вероятности безстказной работы или по средней наработке на отказ. 2. Определить требуемую надежность переключателя для дублированной системы с активным резервированием, если надежность элементов р = 0,8, а требуемая надежность избыточной системы Рс = 0,95. 3. Получить выражение для оптимального уровня резервирования для мажоритарной системы с однократными связями, S = 3. 4. Задана система из 2-х элементов, для повышения надежности можно использовать еще 4 элемента, какая вероятность безотказной работы избыточной системы при общем, раздельном и скользящем резервировании, если qэл = 0,1? 5. Каково значение стационарного коэфициента готовности Кг дублированной восстанавлиемой системы,если заданы интенсивности отказов и восстановления элементов, холодный резерв и две ремонтных бригады:  ,    0 õð Задачи 1. Проверить правильность выполнения операций сложения и вычитания с помощью кодов с числовым контролем по модулю. А = 125, В = 89, mod p = 11. ( А + В), ( А – В ) ? 2. Проверить правильность выполнения операций сложения с помощью кодов с цифровым контролем по модулю. А = 589, В = 195, mod p = 11. ( А + В) ? 3. Построить код Хэмминга для чисел 5( 0101 ) и 8( 1000 ). 4. Определить имеется ли ошибка в избыточном коде Хэмминга – m = 4, k = 3: 1011011, если да то в каком разряде. 5. Построить циклический код чсла А = 1010011, если G( x )  x 4  x  1 6. Определить имеется ли ошибка в циклическом коде 0110110111, если G( x )  x 4  x  1 . Задачи 1. Не избыточная система состоит из 4-х последовательно соединенных блоков с интенсивностями отказов: 1 1 1 1 , 2  10 10 5 , 3  0,2 10 5 , 4  15 10 5 . час час час час Необходимо обеспечить надежность системы Pзад  0,999 для 1  20 10 5 времени t = 100 час. с минимальными затратами оборудования. Четвертый блок не допускает перерыва в работе при замене его на резервный. Переключатели идеальны. Надежность блоков подчиняется экспоненциальному закону надежности. 2. Найти выражение среднего времени работы до отказа системы, состоящей из 4-х последовательно соединенных элементов с интенсивностями отказов 1 , 2 , 3 , 4 . Второй элемент дуб – лирован. Надежность элементов подчиняется экспоненциально – му закону. Задача 1 (контрольная 2) Вариант 1 Каков выигрыш в надежности по вероятности отказа троированной мажоритарной системы с однократными связями, если количество уровней резервирования w = 2, qэ = 0,1, qм = 0,01. Вариант 2 Задана система из 2-х элементов, для повышения надежности можно использовать еще 2 элемента, какая вероятность безотказной работы избыточной системы при общем, раздельном и скользящем резервировании, если qэл = 0,1? Вариант 3 Чему равна вероятность безотказной работы и средняя наработка на отказ (Pc и Тс) заданной системы, если элементы равнонадежны, qэ = 0.1 для t = 100 час. Задача 2 (контрольная 2) Вариант 1 Каково значение стационарного коэфициента готовности Кг системы, состоящей из 2-х последовательно соединенных элементов с интенсивностями отказов и восстановлений 1 1 2 2 Вариант 2 Каково значение стационарного коэфициента готовности Кг мажоритарного блока при S = 3, pм = 1с интенсивностями отказов и восстановлений элемента  ,  Две ремонтные бригады. Вариант 3 Каково значение стационарного коэфициента готовности Кг системы со скользящим резервированием, состоящей из 2-х основных последовательно соединенных элементов и одного резервного с интенсивностями отказов и восстановлений элемента Одна ремонтная бригада.  ,  , ,  ,  Задача 3 (контрольная 2) Вариант 1 Проверить правильность выполнения операций сложения и вычитания с помощью кодов с числовым контролем по модулю. А = 459, В = 39, modp = 11. ( А + В), ( А – В ) ? Вариант 2 Построить код Хэмминга для чисел 5( 0101 ) и 8( 1000 ). Вариант 3 Определить имеется ли ошибка в избыточном коде Хэмминга – m = 4, k = 3: 1011011, если да то в каком разряде. Логико – вероятностная модель надежности Модель определяет зависимость состояния системы от состояния ее элементов. Зависимость задается в виде логической схемы надежности или структурной функции. Обозначим множество элементов системы X  x1 , x2    xn Где i состояние -того элемента, -состояние системы. Для простой системы имеется всего два состояния сис – темы и ее элементов: работоспособное = 1 и отказа = 0. Тогда xi -работоспособный элемент, xi отказавший, соответственно X система работает, X отказала. Обозначим через  ( X ) структурную функцию системы.  x i X  x  объединение()состояний элементов( xi )  x  пересечение()состояний элементов( xi ) i i  1.Последовательное соединение элементов Система состоит из N элементов, она работоспособна, когда работают все ее элементы и отказывает при отказе одного любого. 1 2 Р1, q1 Р2, q2 N Pc   pi i 1 Pc  p  ( X )   xi i 1 РN, qN N N Qc  1  Pc  1   (1  qi ) i 1 N Qc   qi  N N i 1 Т 0э T0c   Pc (t )dt  N 0 Qc  0,2 T0C  n  i 1 1 1 T0 i 2.Параллельное соединение элементов Система состоит из S элементов, она работоспособна, когда работает хотя бы один элемент и отказывает при отказе всех элементов. 1 S (X )   xj 2 (X )   xj j 1 P1,q1 j 1 S Qc   q j P2,q2 j 1 S Pc  1  Qc  1   (1  p j ) S  PS,qS S S 1 1 T0c   Pc (t )dt  T0  i o i  1 0 j 1 3.Параллельно-последовательное соединение элементов Система состоит из параллельного или последовательного соединения блоков, содержащих параллельное или последо – вательное соединение элементов. Эта модель сводится к чисто последоватнльным или параллельным моделям. P2 1 2 N P3 P1 s2 P1 s1 P2 PN sN P1=P2=..=PN S1=S2=..=SN 1 S Рбл 1 Пар-посл Посл-пар Pc  1  Qc  1  Q S бл  1  (1  p ) N S P1 N Pбл=1-(1-q1)(1-q2) Pc= P1Pбл Pбл Pc  P N бл  (1  q S ) N 4.Пороговая модель надежности Система состоит из « n » элементов, она отказывает при отказе « к » и более элементов. Пусть надежность элемента « р» и они равнонадежны, обозначим через « i » количество отказавших элементов.Определим надежность системы на основе матрицы состояний системы и метода полного перебора всех состояний системы. x1 x2 x3    xn x1 x2 x3    xn  x1 x2 x3    xn  x1 x2 x3    xn n i i Pi  C p q i n k 1 k 1 Pc   Pi i 0 n! C  i!(n  i )! i n Pc   C p n i o Qc   Cni p n i qi i k При К=1– последовательное соединение. При К=n параллельное соединение. i n n i q i Зависимость надежности систем при различных логико-вероятностных моделях Считаем, что надежность элементов подчиняется экспоненциальному закону. P(t) 1 PRобщ(t) – посл-пар PRразд(t) – пар-посл PRскол(t) – к из n P0(t) 0 t 5.Надежность систем с произвольной структурой Это системы, которые не сводятся ни к последовательной ни к параллельной ни к пороговой моделям надежности. Модель таких систем строится на основе метода минимальных путей и сечений. Путь- это набор элементов, обеспечивающих работоспособность системы. Минимальный путь- это путь, из которого нельзя сде – лать другого пути. Сечение- это набор элементов обеспечиваю – щих отказ системы. Минимальное сечение – это сечение, из кото – рого нельзя сделать другого сечения. Минимальный путь – это последовательное соединение элементов. Минимальное сечение – это параллельное соединение элементов. Cистема представляется ,как параллельное соединение минимальных путей или как последовательное cоединение минимальных сечений. Логическая схема надежности минимального пути – последовательное соединение элементов пути Минимального сечения – параллельное соединение элементов сечения i Пусть номер элемента, A j - j -минимальный путь,их количество « S ». Bk - k -тое минимальное сечение, их количество « R ».Тогда: PAj   pi iA j - надежность PBk  1   (1  pi ) iBk минимального пути. - надежность минимального сечения. S   Надежность системы  1   (1  pi )   Pсис  1   (1   pi ) k 1  iBk j 1 iA j  Pсис 1 R РА Рсис РВ p 1 Марковская модель надежности Модель представляет систему как процесс ее перехода из одного со стояния в другое. Эта модель может описывать сложную систему, находящуюся в различных состояниях: работа, отказ, ремонт и т. п. Состояние системы определяется некоторым набором состояний ее элементов. Будем рассматривать системы с дискретным простран – ством состояний и непрерывным временем. Последовательность состояний и сам переход из одного состояния в другое называют цепью. Рассмотрим марковские цепи, то есть такие, где поведение системы на последующем шаге зависит только от состояния системы в данный момент времени и не зависит от того ,как она пришла в это состояние. Если надежность элементов подчиняется экспоненциальному закону, то получается марковская цепь. i j Если вероятность перехода из состояния в состояние постоянна, то есть p (t )  p  const ,то получается однородная марковская ij цепь. i j Удобно изображать марковскую цепь в виде графа переходов. Граф переходов Pi(t) i,i  G1  i , j i k , j Pj( t) k j i Pj(t )   Pj (t )  i  iG2  P (t )  1 j j  j,k k Pk(t) k ,i G 2  P (t )   kG1 k k при  t    Pj(t)  0 Решение дифференциальных уравнений с использованием преобразований Лапласа Обозначим : Р(t) – оригинал, тогда : P(t )  x   ( x )  P(t )   ( x ) -- изображение, P(0, ) 1  1 x x j ( x)  Pj (0)   j (t )  i   ii ( x ) iG2 iG1 1 1 x m M1 ( x) M1 ( xk ) x t k Pj (t )     j ( x)  M ( x) k 1 M ( xk )  Хк- корни знаменателя М(х)=0 М(х) и М1(х) -- многочлены Степень М(х) больше чем у М1(х) Модели дискретных случайных событий Представим модель в виде потока случайных событий ,то есть последовательности событий следующих друг за другом во времени .Например, последовательность отказов, восстановлений. Наибольшее распространение получил простейший поток,который обладает следующими свойствами: -- стационарность- параметры потока не зависят от времени; -- отсутствие последействия – взаимонезависимость событий; -- ординарность – вероятность возникновения нескольких событий в один и тот же момент времени равна нулю Такой поток хорошо описывается распределением Пуассона. Пусть Р(t,k) – вероятность возникновения ровно”k”отказов За время “t”.Тогда : (  t )  t P(t , k )   k! k   t  t P(k  n )    k o k! n 1 Анализ надежность невосстанавливаемых систем по постоянным и внезапным отказам; система отказывает при отказе любого, хотя бы одного элемента Считаем что отказы элементов взаимонезависимы. Система содержит “N”элементов. В соответствии с данными о системе ее моделью является последовательное соединение элементов. Надежность элемента задается интенсивностью отказов i (t ) N 1 2 N  p11 (t ) p22 (t ) PC (t )   pi (t ) pN N (t ) T  pi (t )     i ( t ) dt o N  c (t )   i (t ) i 1 Pc (t )     ct  N Pc (t )    i 1   i ( t ) dt o i 1     c ( t ) dt    i 0 При i (t ) =Const 1 Tco  c Qc (t )   c (t )  t Анализ такой системы Надежность рассматриваемой системы имеет следующий вид: 1 0,9 P(t) 0,37 t t1 t=To Система будет надежна только при t  T co Повышение надежности такой системы возможно только за счет -- Уменьшения “N” и повышения надежности элементов,то есть уменьшения интенсивности отказов элементов i (t )  Методы повышения надежности Имеется три основных метода повышения надежности. 1.Существенное уменьшение интенсивности отказов , что требует больших затрат и времени. 2.Введение избыточности, это позволяет строить высоконадежные системы из существующих относительно ненадежных систем, что требует больших дополнительных затрат. Введение избыточности производится двумя основными способами : -- резервирование, -- избыточное кодирование. 3.Использование восстановления, требует перерыва в работе и затрат на средства локализации и исправления отказов. Наибольший эффект приносит восстановление без перерыва в работе.  Пусть Qтреб=0,01 ,t = 5 лет , N = 100 эл. 5 эл эл Q(t )   N  t  8,76 10  эл  1,14 108 1час Резервирование Резервирование – метод повышения надежности, когда к одному основному устройству добавляется несколько дополнительныхрезервных устройств с теми же функциями, которые работают вместе с основным или включаются после его отказа. Избыточный блок – содержит основное и резервные устройства, Избыточный блок отказывает при отказе всех устройств или при отказе определенного их количества. Количество устройств в из быточном блоке называется кратностью резервирования Моделью избыточного блока является параллельное соединение или пороговая модель. Уровень резервирования – часть системы, на уровне которой производится включение резервных устройств 1 Избыточный блок s S – кратность резервирования Способы включения резервного оборудования 1.Общее резервирование – на уровне всей системы. 2. Раздельное резервирование – на уровне части системы. 3. Скользящее резервирование – все устройства системы идентичны, любое основное заменяет любое резервное. Режимы работы резервного оборудования 1. Горячий резерв – рабочий режим функционирования. 2. Теплый резерв – облегченный режим функционирования. 3. Холодный резерв – устройство выключено. Реакция на отказ 1. Активное резервирование ( замещением ), резервное устройство подключается после отказа основного. 1 П - переключатель П s 2. Пассивное (постоянное) резервирование, резервные устрой – ства работают вместе с основным. 1 ВО – восстанавливающий орган BO s Анализ надежности не восстанавливаемых резервированных систем с идеальными переключателями горячий резерв Будем считать, что отказы элементов взаимонезависимы, они равнонадежны и их надежность равна -- pэ , qэ. Надежность основных систем – P0 , Q0 , T0 ,резервированных – PR , QR ,TR. 1. Общее резервирование. Горячий резерв.Число элементов в cистеме N ,кратность резервирования – S. Тогда : 1 2 N S  Q0 1  S 1 TR   PR (t )  dt   QR Q0 0 S 1 1 S 1 T 1 TR  T0  R   i 0 i  1 T0 i o i  1 P0  pэ N Q0  1  P0  Nqэ QR  Q0S  ( N  qэ ) S PR  1  (1  P0 ) S Q0  0,1 S 3   100   1,8 2. Раздельное резервирование.Горячий резерв. Резервирование производится на уровне равнонадежных устройств ,каждое устройство содер жит n элементов, количество устройств в системе – w.Кратность резервирования в избыточных блоках – S. устройство 1 2 W 1 2 n S Pэ qэ Изб. блок Pбл  1  (1  р ) n S э   n S W э PR  1  (1  p ) PR  ( Pбл ) w Qбл  (1  p )  (n  qэ ) n S э S QR  1  PR  W (n  qэ ) S w! S 1 1 Q0  0,1 W  5 TR  T0  S i 0 i (i  1)  (i  w  1)   2500 S  3 i 1 Q0 1   S 1 i  n w Q0  n  w  qэ P0  pэ QR Qбл S 3. Скользящее резервирование. Система состоит из W одинаковых основных и m резервных элементов, система отказывает при отказе ( m+1) элемента, Модель надежности типа “k из n”,k = m+1 , 1 2 m PR   Cwi  m q i p w m i i 0 m QR  w m C i  m 1 m P0  pэw Q0  1  (1  qэ ) w  w  qэ w 1 n = w+m. i i w m qp w  m i 1 TR  T0  w i 0 w  m  i C m 1 m 1 w m q w  4 m  2 qэ  0,025 Q0 TR   6410    2,4 QR T0 4.Общее резервирование. Холодный резерв. Кратность резервирования- S,надежность неизбыточной системы P0,Q0,T0 , избыточной – PR,QR,TR. Считаем, что в процессе работы ре – зервные системы не отказывают R  0 . . отказы 1 2 S-1 S t tр1 tр2 tрs-1 tрs Отказ избыточной системы. tpi – время работы до отказа i- ой системы.   const Если , то получается простейший поток отказов, R и можно использовать закон Пуассона. (ct )i t Q0  c  t TR  S  T0 PR   Pi (t )    i! i 0 i 0 S S (ct ) Q0 QR (t )  1  PR (t )   S! S! TR Q0 S!   S   S 1 S 1 QR Q0 S 1 T0 Учет надежности переключателей при активном резервировании, горячий резерв 1.Общее резервивование. Надежность основной системы P0,Q0, надежность переключателей = Рпер . Кратность рез. S. 1 ПЕР Рпер Рбл Pбл  1  Q S 0 S PR < р пер PR  pпер (1  Q ) S 0 2.Раздельное резервирование.Все устройства равнонадежны, их надежность = р, количество устройств в системе W,кратность S. 1 2 w П П П P бл  1  q S W PR  pпер (1  q S )W S 1 2 Рбл1 Рбл2 w Рблw PR q W пер Надежность систем с пассивным резеовированием В системах с пассивным резервированием в избыточном блоке устройства не делят на основное и резервные, все устройства – являются рабочими. Правильная информация на выходе избыточного блока формируется с помощью специальной схемы – восстанавливающего органа (ВО), имеющего несколько входов и один выход.На выходе ВО получается информация без ошибок при наличии определенного числа ошибок на входах ВО. ВО работает по определенному алгоритму ( правилам).Наиболее широко используется правило выбора по большинству. По этому правилу строятся мажоритарные элементы (ВО), имеющие нечетное числоло входов и один выход.Как правило используются мажоритарные элементы на три входа. Их логическая функция имеет следующий вид: х1 М х2 х3 F  x1 x2  x2 x3  x1 x3 Надежность мажоритарных систем Используем пороговую модель надежности или метод прямого перебора. Надежность мажоритарного элемента PM. Кратность S 1 резервирования S. Порог выбора выходного сигнала K  2 1.Общее резервирование. Надежность системы: P0,Q0,T0 . k 1 PRM  PМбл  pM 1 M S PМбл   CSi Q0i  P0S i S QМбл   C Q  P i k i S i o S i 0 i 0 QМбл  C Sk  Q0k мблок PMбл k 1 1 Рмбл=Р0 0,5 TМбл 1  T0  i 0 S  i При S=3 : PМбл  3P  2 P TМбл 2 0 0,5 1 P0 3 0 5  T0 6 QМбл  3Q02  2Q03  3Q02 2.Раздельное резервирование. Кратность S=3, количество неизбыточных блоков в системе – W, надежность блока =р. а) Система с однократными связями. 1 2 w м м Маж. блок W RC Мбл м P P PRC  pWM (3 p 2  2 p 3 )W PМбл  pM (3 p 2  2 p 3 ) б) Система с многократными связями. 1 M 2 M W M M M M M M M Маж.блок PМбл  3( pM p)  2( pM p) 2 3  PRC  P W Мбл PRC  3( pM p )  2( pM p ) 2  3 W Резервированные системы с восстановлением Система состоит из “n” элементов, “m”-- количество резервных элементов, “k”– количество ремонтных бригад. Для анаолиза используется модель на основе цепей Маркова. n m k Очередь Осн. резерв 10 0 1 21 2 P0 01 P1 12 P2  К > n – неограничен. восст. К < n – ограниченное. восст. Пример:n=1,m=1,  - интенс. отк., - интенс. восст.   P0 (t )  01P0 (t )  10 P1 (t )  P2 (t )   21P2 (t )  12 P1 (t ) Po (t )  P1 (t )  P2 (t )  1 0112 K Ã  P0  P1  1021  0121 При t  Надежность резервированных систем при учете характера отказов Обычно рассматривают два вида отказов : а) Короткое замыкание( к.з.) и обрыв( обр. ) б) Логический отказ: отказ в «0» -- вместо 1 выдается 0,отказ в «1» -- вместо 0 выдается 1 , статический отказ, когда постоянно выдаются «0»или «1» независимо от сигналов на входах. 1. Учет К.З. и ОБР. Это обычно делается при резервировании на уровне электронных компонент типа резистора, диода и т. п. Тогда модель надежность элемента имеет три состояния: работает, отказ по К.З. и отказ по Обр. p  qкз  qобр  1 q  qкз  qобр p  1  q  1  (qкз  qобр ) а) Последовательное электрическое соединение компонент. Логическая схема надежности имеет вид параллельного соединения элементов по КЗ и последовательного по Обр. 1 2 Эл. сх N QRкк  qкзN QRoб  1  (1  qобр ) N 1 1 N N qобр qкз PR  QR  PR  QRoá  QRêç  1 QR  qкзN  1  (1  qобр ) N PR  1  QR  (1  qобр ) N  qкзN б) Параллельное электрическое соединение компонент. Логическая схема надежности имеет вид параллельного соединеНия элементов по Обр. и последовательного по КЗ. 1 N QRoб  qобр QRкк  1  (1  qкз ) N 2 QR  q N обр N 1 1 N qобр N qкз  1  (1  qкз ) N PR  1  QR  (1  qкз )  q N N обр 2. Учет логических отказов. Рассмотрим мажоритарный блок : S = 3, К = 2, заданы вероятности отказов элементов в блоке в 0(q0) и в 1(q1) ,вероятность логического отказа элемента q = q0 + q1, мажоритарный элемент идеален. Тогда имеются следующие работоспособные состояния мажоритарного блока : 3 -- работают три элемента, вероятность состояния-- p 2 -- отказал один из трех, вероятность состояния--- отказало два из трех, один в 0, другой в 1, вероятность-6q0 q1 p 3qp q0 М q q1  q0 q0    q q0  q1 q0  q   3 p2  2 p3 PRM   3q2  2q3 QRM q1  (1   ) q PRM  p 3  3qp 2  6q0q1 p PRM  3 p 2  2 p 3  6q2 p (1   ) 1,9 1 0,5 1  q  0,1   0,5    QRM QRM   0,028 QRM  0,0145   1,9 QRM Оптимальное резервирования Повышение надежности систем с помощью резервирования требуют больших ресурсов, пропорциональных кратности резервирования S и количеству уровней резервирования W. Поэтому требуется оптимальное соотношение между надежностью PR и вели чиной затрат  . Надежность является функцией многих парамеR тров: S, W, метода резервирования на каждом уровне, режима работы резервных устройств. Нахождение оптимального решения при учете всех параметров практически невозможно. Ищется решение по одному из параметров, остальные считаются зданными Обычнорешается две задачи: 1.Получить PR max при  R   зад 2.Получить PR  Pзад при min Выбор оптимального уровня резервирования Имеется система с раздельным резервированием с кратностью S Надежность исходной неизбыточной системы Р0 ,Q0 ,надежность переключателя Рп. Определим количество уровней резервирования Wопт дающее максимальную надежность. Для этого найдем выражение РR =PR( w ), считаем эту функцию непрерывной. Максимум этой функции, а знчит и Wопт ,находим из уравнения: dPR ( w) 0 dw Для активного резервирования с горячим резервом имеем : Q0 S W S q  R пер W PR  p (1  q ) W пер Q  wq  wq Q0S dQR ( w) QR  wqпер  S 1  qпер  SwS1 Q0S  0 w dw PR Общее резервир. (S  1) Wопт  Q0  S qпер W Wопт Избыточное кодирование 1.Основные понятия и определения Сообщение «А»– форма представления информации: байт, слово.. Кодовая комбинация – упорядоченная последовательность символов « аi », соответствующих сообщению А = а1 а2 … аn Код – система построения кодовой комбинации. Кодирование – преобразование сообщения в код. Основание кода « r » – число различных символов в коде. Разрядность кода « n » - число символов в кодовой комбинации. Мощность кода « М » - число различных кодовых комбинаций в коде: M  r n M  2n дв Кодовое расстояние по Хэммингу « d(A,B )» - это количество не совпадающих разрядов в А и В, минимальное кодовое расстояние является минимальным для всей мощности данного кода. Простой код – код, содержащий максимальное число кодовых комбинаций. Избыточный код – код, где максимальное число кодовых комбинаций превышает число кодовых комбинаций требуемое для представления информации. Равномерный код – код, где число разрядов во всех кодовых комбинациях одинаково. Ошибочная кодовая комбинацмя – комбинация не соответствующая сообщению, ошибка в ней вызывается ошибками в от – дельных разрядах. Однократная ошибка – ошибка в одном разряде. Многократная( кратная ) ошибка – ошибка в нескольких разрядах. Вероятность появления ошибок – считаем, что ошибки взимонезависимы, равны и имеют величину « q ». Тогда вероятность появления ошибки кратности « i » и ошибки любой кратности равны: Qi  C q (1  q ) i n n  8 q  10 i 3 n i Q  Q1  7,9  10 3 n C i 1 i n q (1  q) Q2  2,7  10 i 5 n i Q3  5,6  108 Основные принципы избыточного кодирования Избыточное кодирование используется для обнаружения или исправления ошибок в кодовых комбинациях ( КК ). С этой целью к основным информационным разрядам « m » добавляется « к » контрольных разряда. Избыточный код имеет n = m + k разрядов, тогда мощность избыточного кода N0 больше чем мощность кода основной информации N. Будем считать КК для представления основной информации – разрешенными КК, а оставшиеся N0 – N KK – запрещенными КК. В случае двоичных кодов при полном использовании всех «m» информационных разрядов получем: N 0  2mk  2m  2k N  2m N 0  N  2m ( 2k  1) При появлении в разрешенной КК сшибки она может перейти или в запрещенную КК, тогда эту ошибку можно обнаружить или даже исправить, или в новую, разрешенную КК, тогда ее обнаружить нельзя. Необходимые условия для построения кодов с обнаружением и исправлением ошибок Для обнаружения КК с ошибкой она должна обязательно попасть в запрещенные КК. Для исправления ошибок области запрещенных КК не должны пересекаться. Пусть А1 и А2 разрешенные КК, t – кратность ошибки. Тогда разрешенная КК Аi и все ее запрещенные КК кратностью t и менее Вi можно представить в виде гиперсферы радиуса t с центром в Аi . Необходимым условием для построения кодов с обнаружением и исправлением ошибок является величина минимального кодового рассстяния d : d обн  t  1 d испр  2t  1 А1 А2 t А1 А2 t 1 d обн 1 Запрещ. КК Bit t d испр Пример Пусть n = 3, m = 2, k = 1, N0 = 8, N = 3, N0 – N = 5 B1 = 001 B4 = 110 A1 = 000 B2 = 010 B5 = 111 A2 = 011 B3 = 100 A3 = 101 A1 A1 t=1 B1 B2 B3 A3 t=1 B1 B3 B5 A1 A2 A2 A2 t=2 t=3 t=1 t=2 t=3 A2 A3 B4 B5 B5 B1 B2 A1 A3 B 4 B3 A3 t=2 A1 A2 B4 A3 t=3 B2 Обнаруживаются при: t=1 и t=3 – все t=2 только 3 из 9 Контроль по четности (нечетности) Эти коды предназначены для обнаружения одиночных ошибок. Для них: d = 2, k = 1, n = m + 1, мощности информационного и избыточного кодов равны соответственно: M  2m N 0  2 m 1  M  2 Количество разрешенных кодовых комбинаций равно количеству запрещенных. Причем одна половина кодовых комбинаций имеет четное количество единиц другая нечетное. Для разрешенных кодовых комбинаций при контроле по четности (нечетности) выбирается соответствующая половина всех кодовых комбинаций, содержащая четное или нечетное количесто единиц включая контрольный разряд.mЗначение контрольного разряда определим: m ak   ai i 1 ak   ai  1 При n=3 имеем: 000 011 110 001 100 111 010 101 i 1 Блок - схема Контроль по четности am ai a1 ak m ak    ai M2 i 1 ak T1 M2 ак Cх.ср. T2 M2 T3 M2 T4 1 – ош. нет 0 – ош. есть Коды с контролем по модулю Коды формируются на основе теории вычитов.Имеется два подхода к построению кодов: а) Числовой контроль по модулю. б) Цифровой контроль по модулю. а) Числовой контроль по модулю Наименьшим вычитом числа А по модулю р (modp) называется число ар < p и представляющее собой остаток от деления А на р. A  A a p    p  p p  A A    p  ap  p Этот код обладает следующим свойством: C  A  B c p  (a p  bp ) mod p Где( Избыточный код имеет вид: А аm a1  A ap  A    p  p ) операции: (), (), () и др. ap akk ak1 Число контрольных разрядов зависит от величины модуля. Этот код позволяет контролировать выполнение операций. б) Цифровой контроль по модулю. В этом случае наименьшим вычитом числа А по модулю р(modp) является число ap < p равное остатку от деления суммы цифр числа А на модуль р.  m  ai   ai   ap i 1 i 1   p  p  p   m  m  m m   ai  a p   ai   i 1  a p   ai (mod p ) i 1 i 1  p    Но для этого кода не выполняется условие: c p  (a p  b p ) для С  ( А  В) Из-за единиц переноса. Для каждой операции определяется свое соотношение для ср. Например, для операции сложения: - число единиц переноса c p  a p  bp  ( r  1) mod p r-основание сист. счислен.    При отрицательном остатке к нему добавляется модуль до получения положительного остатка, он и будет вычитом. Блок - схема Обычно модуль р = 3(два разряда) или р = 7(три разряда), при р = 2 получается контроль по четности. С помощью такого кодирования можно как обнаруживать так и исправлять ошибки. Схема числового контроля с обнаружением ошибок при выполнении операций А АУ чис. В Опр. Выч. С Сх. Ср. ар АУ выч. bр cp ар  bp Сигнал ошибки Код Хэмминга Этот избыточный код имеет минимальное кодовое расстояние d = 3 и используется для обнаружения 2-х и исправления одиночной ошибок. Принцип построения кода Кодирование, т.е. преобразование исходного кода в избыточный, производится путем разбиения избыточного кода на группы с последующим контролем этих групп по четности. Декодирование, т.е. определение наличия или отсутствия ошибок, реализуется с помощью синдрома – кода имеющего столько разрядов сколько групп в избыточном коде, каждой группе соответствует свой рзряд Si синдрома, он равен 0, если ошибки нет и =1, если есть. Код синдрома (Sk…S2,S1) указывает номер разряда, где произошла ошибка. Ошибка исправляется простым инвертированием значения разряда. При кодировании необходимо: определить количество контрольных разрядов и разбить на группы избыточный код. При декодировании вычисляются значения разряда синдрома для каждой группы, есди ошибка есть, код синдрома указывает на ее место. Определение количества контрольных разрядов Количество разрядов избыточного кода n = m + k. Количество контрольных разрядов К должно быть таким, чтобы можно было закодировать номер любого разряда избыточного кода. Тогда: 2k  (n  1) k  og2 (n  1) m  n  og2 (n  1) n m k 3 5 6 7 8 10 12 13 16 1 2 3 4 4 6 8 9 11 2 3 3 3 4 4 4 4 5 Разбиение на группы Количество групп равно количеству контрольных разрядов. Каждый разряд в избыточном коде имеет свой номер. Группы формируются в зависимости от номера разряда в двоичном коде. В первую группу (В1) входят разряды, имеющие 1 в первом разряде двоичного номера, во вторую (В2) – разряды имеющие 1 во втором рзряде двоичного номера, в третью – имеющие 1 в третьем, и т.д. Состав групп B1  a1 , a3 , a5 , a7 ...koн. раз.  a1 , s1  а1 а 3 а5  а7  ... B2  a2 , a3 , a6 , a7 ,... кон. раз.  a2 , s2  a2  a3  a6  a7  ... B3  a4 , a5 , a6 , a7 ...кон. раз.  a4 , s3  a4  a5  a6  a7  ... Пример: m = 4, k = 3, n = m + n, контр. разр.:1, 2, 4, информ.:3, 5,6,7 Двоичная цифра а2 а1 0 0 0 0 1 1 1 1 1 0 0 1 0 1 1 1 1 0 1 0 1 1 1 0 0 1 1 0 1 0 0 1 0 0 1 1 0 0 a5 дес а7 а6 а5 а3 a7 0 0 0 0 0 0 1 2 0 0 0 0 0 1 1 0 0 0 0 0 0 3 0 0 1 1 4 0 1 0 0 0 0 7 0 1 1 1 9 1 0 0 1 a6 0 0 a4 а3 0 Циклические коды Избыточные циклические коды строятся на основе представления двоичного кода в виде многочлена. Пусть А(х i) ( i = 0…m-1 ) m – разрядный двоичный код, тогда ему соответствует многочлен M(x i) cтепени (m – 1): A( xi )  M ( xi )  am1 x m1  am2 x m2  ...a2 x 2  a1 x1  a0 x 0 Принципы кодирования и декодирования циклических кодов Кодирование производится путем умножения информационного многочлена М( х ) на специальный образующий многочлен G( x ) степени К, имеющий (к + 1) разряд. Многочлен циклического кодаF( x ) = M ( x )G( x ), степени ( m + k – 1 ), число разрядов – ( m + k ). Декодирование производится делением F( x) на G( x ), если остаток R( x ) = 0, то ошибки нет, если R( x ) = 1, есть ошибка. Количество контрольных разрядов равно к и определяется степенью образующего многочлена G( x ), от которого зависят корректирующие свойства избыточного кода. Этот способ кодирования и декодирования неудобен, так как требует операций умножения и деления. Поэтому он не используется Применяют другой способ, требующий только сдвига. Он особенно удобен при последовательной передче данных. Рассмотрим его. Второй способ При этом способе информационный многочлен М( х ) сначала умножется на Х в степени К, затем это произведение делится на образующий многочлен G( x ). При умножении многочлен М( х ) сдвигается влево на К разрядов и на это место вставляется остаток от деления R( x ). Получается избыточный код, содержащий m информационных разряды М( х ) и к контрольных разрядов R( x ). x k M ( x) R( x )  Q( x )  G( x ) G( x ) x k M ( x)  Q( x)G( x)  R( x) В качестве многочлена F( x ) избыточного кода , берем: F ( x )  Q( x )G( x )  x k M ( x )  R( x ) Декодирование как обычно: F ( x)  R( x )   G( x) 0- ошибки нет не 0 - ошибка Примеры образующих многочленов G( x) : Код с обнаружением ошибок CRC (Cyclic Reduntency Check): x16  x12  x5  x  1 k. раз. два байта Код с обнаруж. и исправлением ошибок ECC (Error Correktio Code) x  x  x  x  x  1 четыре байта 32 23 21 11 2 Блок-схема x 0 Т1 x x 1 Т2 2 x Т3 Кодирование: m тактов К1 откр., К2 закр.[М(х)] ,далее К тактов К1 откр., К2 откр.[R(x)] Декодирование (m+k) тактов К1 и К2 откр., в регистре [R(x)], И1 и И2 управляющие сигналы. 3 x К1 k 2 ТК x k 1 M(x) F(x) К2 И2 F(x) И1 Пример Основной операцией при работе с многочленами является операция сложения по mod2: 1  xi  1  xi  0 0  x i  1x i  1  x i  1x i  1  x i Пусть дано А = 1001011, построить циклический код, если G( x )  x 4  x  1 x10  x 7 M ( x)  x6  x3  x  1  x5  x 4  x3  1 x10  x 7  x 6  x6  x5  x 4  x4  x  1 x6  x2  x  1 x3  1 x6  x3  x2 x5  x 4  x3  x 2 x5  x 4  x 2  1 x5  x 2  x x5  x 2  x x4  x3  x x4  x  1 x4  x  1 x4  x  1 x 3  1  R ( x )  1001 R( x )  0 Матричное представление избыточных кодов Имеется исходный (информационный) код, m - разрядов S ={ S1,S2,S3, … Sm } Избыточный код, соответствующий коду S X = { S1,S2,S3, … Sm,C1,C2, … Ck } , где Ci – контрольные разряды Избыточный код имеет n = m + k разрядов. Все исходные кодовые комбинации можно представить в виде матрицы, имеющей m – столбцов и 2m  1 строк. Эту матрицу можно представить в компактной форме в виде единичной прямоугольной базовой матрицы Im ,где m оличество строк и столбцов. Все кодовые комбинации S получаются из Im c помощью линейных матричных операций, где умножение заменяется сложением по модулю 2. 100…00 010…00 Im = ......... 000…10 000…o1 Кодирование Избыточный код получается путем умножения исходного кода S на специальную порождающую матрицу G, которая имеет размерность m строк и n столбцов, т.е. Х = S x G, где G = Im A A – матрица контрольных символов с размерностью m на к, каждый столбец которой cоответствует контрольному разряду Cj, а строка - i – му разряду исходного кода. аij – элемент матрицы А. 1 0 0 … 0 а11 а12 …а1к i = 1 … m – номер разряда 0 1 0 … 0 а21 а22 … а2к в исходном коде S G= .................... j = 1 … k – номер 0 0 0 … 1 аm1 am2 ..amk контрольного разряда Сj Значение контрольных разрядов Сj получается из уравнений m C j    si  aij  0 i 1 Столбец j матрицы А соответствует контрольному разряду Cj, а его элементы аij = 1 указывают, какие разряды исходного кода включены в сумму для получения соответствующего Cj . Таким образом кодирование происходит так: Разряды исходного кода S разбиваются на группы,число которых равно количеству контрольных разрядов «к». Разряды, входящие в группы, определяются единичными значениями элементов (aij = 1) соответствующих столбцов матрицы А. Одни и те же разряды могут входить в разные группы. Таким образом сумма разрядов в группе по модулю 2 вместе с контрольным должна быть четной, т.е. равной 0. Строка матрицы А указывает в какие группы входит i – тый разряд исходного кода, столбец матрицы указывает какие разряды исходного кода входят в группу. Декодирование Декодирование – это определение наличия или отсутствия ошибок в избыточном коде. Декодирование производится с помощью проверочной матрицы H, которая выбирается так чтобы выполнялось соотношение G  H T  0, ãäå H T транспонированная матрица H. Тогда, если в избыточном коде S T нет ошибок, то X  H  0 . Если в избыточном коде I есть ошибки, т.е. , где Е = (е1,е2…еn) вектор ошибки, тогда X  X  E, ãäå X I  H T  ( X  E)  H T  X  H T  E  H T  0  E  H T  0, ãäå Å  H T  R R =(r1,r2,…rк) – синдром ошибки разрядностью « k ». T По совпадению кода синдрома со столбцами матрицы можно определить, в каком разряде избыточного кода произошла m ошибка. j ij i j i 1 A r   a  s  c Контрольная матрица H имеет следующий вид i j а11 а21 … аm1 1 0 0 … 0 i=1…m a12 a22 … am2 0 1 0 … 0 j=1…k H  AT  I K  . . . . . . . . . . . . . . . . . . . a1k a2k … amk 0 0 0 … 1 Транспонированная матрица i a11 a12 … a1k j a21 a22 … a2k .......... T H  am1 am2 … amk 1 0 0 0 1 0 ........... 0 0 1 H T Примеры Коды с контролем по четности В этих кодах всего один контрольный разряд. Поэтому матрица контрольных символов представляет из себя один столбец со всеми единицами. Тогда i = 1 … m, j = 1, k = 1, а проверочная матрица H – одну строку со всеми единицами j i 100…01 010…01 G= 001…01 ......... 000…11 m m+1 H= 1111…11 m+1 10 01 Например при m = 3 матрица G = 0 1 0 1 , H = 0011 1111 Код Хэмминга Код Хэмминга обнаруживает двойные и исправляет одиночные ошибки. Показано, что наиболее просто этот код описывается с помощью контрольной матрицы «H» размерностью к на n = m + k. Эта матрица соответствует коду с минимальным кодовым расстоянием dmin = 3. При этом в качестве исходной берется матрица размером k на n, содержащая все кодовые комбина – ции k – разрядного кода кроме нулевой. Затем путем перестановки столбцов приводят ее к виду контрольной матрицы «H». Возьмем код с m = 4, k = 3 и n = 7. Тогда 0001111 0111 100 011 I H  0 1 1 0 0 1 1 H = 1 0 1 1 0 1 0  AT  I 3 101 1010101 1101 001 110 1000011 111 T H  100 0100101 G  I4  A  0010110 010 0001111 001 Техническая диагностика компьютеров Основные понятия и определения Диагностика – отрасль знаний, включающая в себя теорию и методы организации процесса диагноза, а также принципы построения средств диагноза Диагноз – определение состояния объекта диагноза и места возникновения неисправности. Объект диагноза (ОД) – объект, состояние которого определяется. Процесс диагноза – процесс исследования объекта диагноза и получения результата, т. е. заключения о состоянии объекта и(или) места возникновения неисправности. Процесс диагноза содержит следующие этапы: подачу входных воздействий на входы ОД, получения результатов от входных воздействий, анализ результатов и выдача заключения. Средства диагностики (СД) – это средства, взаимодействующие с ОД и позволяющие определить его состояние и место неисправности. СД реализуют алгоритм диагноза. Объект диагноза (ОД) и средства диагноза (СД) образуют Систему Диагностики (Сис Д). По характеру внешних воздействий различают Два вида Сис Д : систему тестовой диагностики (СТД) и систему функциональной диагностики (СФД). Сис Д решает следующие задачи: проверка исправности объекта (ПИО), проверка работоспособности объекта (ПРО), проверка правильности функционирования объекта (ППФ), поиск неисправности в объекте (ПН). Система тестовой диагностики Здесь в качестве входных сигналов берутся специальные входные воздействия(тестовые воздействия), они подаются от СД. Система функциональной диагностики Здесь в качестве внешних сигналов берутся входные воздействия для рабочих алгоритмов функционирования ОД (рабочие воздейcтвия). Тестов. возд.СТД ОД СД Ответы Рабочие возд. СФД Основные принципы технической диагностики Процесс диагноза в общем случае представляет собой многократную подачу на входы ОД определенных входных воздействий и многократное получение ответов (реакций на входные воздействия) и их анализ. Анализ, как правило, производится сравнением эталонных реакций с вновь полученными. Эталонные – это реакции от исправного ОД. Входные воздействия подаются как на основные, так и на дополнительные, специально для диагноза, входы. Ответы (выходные реакции) снимаются также с основьных и дополнительных выходов. Основные и дополнительные выходы - контрольные точки. Обычно процесс диагноза состоит из отдельных частей – элементарных проверок (ЭП). ЭП определяется значением входного возействия, а также результатом ЭП в виде реакции на на эту ЭП на выходах ОД. Основные принципы процесса диагноза Введем обозначения: Е – множество состояний ОД, S – множество неисправностей, П – множество ЭП, R – выходных реакций. i -ая неисправность, - ая ЭП, - выходная реакR j j i ция на i – тую ЭП при j – той неисправности, R0 эталонное знаj  чение, R j - неопределенное значение выходной реакции. i Si R 0 - ошибок нет j j - Исправ. состояние  j s i  ОД Исправна\ неиспрвна R j  R 0j Неисправна j  1,  R j  R ij Неисправность Si R  S R j  R ij Неиспр. Не найдена S  si  i  1, S R  R ij  Неиспр. сост. из-за i- ой неиспр R j  R 0j Вх    j  s s0  e0 s  ei Вых i Определение тестов Тест – это множество ЭП, позволяющее определить состояние ОД (ПИО, ПРО, ППФ) и определить (ПН) место неисправности. Тесты бывают двух видов: контролирующие, они только опреде ляют состояние ОД (П к) , и диагностирующие (П д), локалзующие место расположения неисправности, для заданного множества неисправностей S = { si }. Множество ЭП Пк = { } контролирующего теста должно обладать j свойством обнаружения, т.е. для любой si  S найдется такая ЭП  П , что Ri  R0  j к j j Множество ЭП Пд ={  j }диагностирующего теста должно обладать свойством различения, т.е. для любых si и sk найдется такая ЭП  j  П Д   j , что Rij  Rkj ОД исправен, если для всех Если для  j  ПД Rj  Rij  j  Пk Rj  R0j -Имеется неисправность Si Характеристики тестов Глубина диагностирования – это точность, с которой данный тест различает неисправности si из S, так как может быть подмножес – тво неисправностей Sn, для которых значения выходных реакций одинаковы и они не различимы. Поэтому при построении теста задается не только множество неисправностей S но и глубина диагностирования. Она задается обычно количеством различимых непересекающихся подмножеств, на которые разбивается все множество состояний ОД в зависимости от множества неисправностей S, включая исправное состояние. При решении задач ПИО, ПРО, ППФ глубина диагностирования равна 2, максимальная глубина диагностирования при решении задачи ПН равна количеству неисправностей + 1. ПодмножесПИО тво Sn Испр. Неиспр. ППФ, ПРО ПН Полнота теста - % выявляемых неисправностей из всех возможных Полный тест – тест, обеспечивающий заданную глубину диагноза. Неизбыточный тест – тест, в котором удаление одной ЭП приводит к уменьшению глубины диагностирования. Минимальный тест – полный не избыточный тест с минимальным числом ЭП. Минимальный контролирующий тест Пк содержит минимальное количество ЭП j , обладающих свойством обнаружения для заданного множества неисправностей S , справочник эталонных 0 выходных реакций R j и алгоритм диагностирования . Минимальный диагностирующий тест Пд содержит минимальное Количество ЭП j , обладющих свойством различения для заданной глубины диагностирования, справочник неисправностей, со0 держащий эталонные выходные реакции R j и выходные реакции R ij ,соответствующие множеству неисправностей S = { si } и заданной глубине диагностирования, алгоритм дигностьирования.   Модели объектов диагностики Модель ОД – это формальное описание объекта и его поведения в исправном и не исправном состояниях. Будем считать, что ОД- система с последействием, т.е. с памятью. Тогда ОД может быть представлен как система, состояния которой в каждый момент времени t определяются: - выходными переменными (реакциями)- Z  ( z1 , z2 ,... zk ) - входными переменными (ЭП) – X  ( x1 , x2 ,... xn ) - внутренними переменными (состояними памяти)- Y  ( y , y ... y ) 1 2 m Модель можно записать в виде функционала: Z  F ( X ,Y , t ) Тогда модели исправного и не исправного ОД запишутся соответственно так: 0 Z 0  F 0 ( X , Yнач , t) i Z i  F i ( X , Yнач , t) Модель ОД может быть задана в явном или неявном виде. Явная модель – задается совокупностью описаний состояний исправного и всех состояний неисправного ОД. Z 0 0 i  F 0 ( X , Yнач , t ) Z i  F i ( X , Yнач , t)  Неявная модель ОД – задается описанием его исправных состояний, моделью неисправностей si  S и правилами получения на основе этих данных описаний состояний неисправного ОД. Z 0 si i  F 0 ( X , Yнач , t ) S  si  ( F 0   Fi)  Построение тестов Построение теста по явной модели заключается в определении по заданной модели минимального набора входных воздействий, обеспечивающих реализацию свойств обнаружения или различения неисправностей при заданной глубине диагностирования и Соответствующего алгоритма. Построение теста по неявной модели заключается в вычислении минимального набора входных воздействий по заданной модели ОД, обеспечивающих обнаружение неисправного состряния ОД или локализации неисправностей s  S . i Построение тестов по явной модели Таблица функций неисправностей (ТФН) ТФН является явной моделью ОД . Е – множество состояний ОД , Соответствующих множеству неисправностей S, П – множество ЭП 0 R R – множество выходных реакций при П и S. ео и j исправное состояние и соответствующие ему выходные реакции . E  ei , S  si ,    j , R  Rij  R 1 П e0 R10 j R 0 j  Ï RÏ0 E ei eS R1i R1S i j S j R RÏi R RÏS Для построения минимального теста по ТФН необходимо: 1. Рассмотреть все возможные поры столбцов ТФН, и для каждой пары определить подмножество ЭП, для которых выходные реакции различны. Количество таких подмножеств равно числу пар.   ,   ,...  ,...  ,...  j 01 j 02 j 37 j 0S j ( S 1) S 2. На основе анализа этих пар формируется подмножество, содержащее минимальное число ЭП, обладающее свойством обнаружения или различения для заданного множества неисправноcтей S{ si } . Процедура покрытия одной пары другой. i k j Тест j j i k j j   ;    , s , s  S , R  R Эту процедуру можно формализовать, используя операции коньюнкции и дизьюнкции на основе данных таблицы покрытий. Для сложных ОД этот подход не возможен. Построение тестов по не явной модели При построении тестов обычно решаются две задачи: прямая и (или) обратная. Считаем, что задана модель исправного ОД Go, на основе котоi рой можно определить значение выходной реакции R j по заданному значению входного воздействия j и определить значение входного воздействия j на ОД по заданной выходной i реакции R j , также задано множество неисправностей S si  Прямая задача – по заданной ЭП для неисправности Si.     j определить реакцию Rij R ij Обратная задача – по заданной выходной реакции определить значение входной ЭП ,соответствующее этой реакции j и неисправности Si .  Для решения этих задач определим условия, позволяющие выявить одиночную неисправность. Условия выявления одиночной неисправности Необходимыми и достаточными условиями обнаружения одиночной неисправности является удовлетворения как условия ее проявления, так и условия транспортировки. аj j aj Проявление  Транспортировка Si R ij Последовательность операций, задана неисправность Si : 1. Задаются условия проявления неисправности Si, т.е.подбирается такое значение входного воздействия аj, при котором значение выхода неисправного элемента, отлично от исправного. 2. Организуется канал (существенный путь) транспортировки ошибки к контрольной точке. Прямой проход. 3. Вычисляется ЭП j , обеспечивающая как проявление так и транспортировку ошибки. Обратный проход.  Построение тестов с помощью решения прямой и обратной задачь возможно только для относительно простых ОД, для сложных- практически невозможно из-за большой размерности задачь. На практике для построения тестов используются определенные методы, позволяющие уменьшить эту размерность и практически построить тест. При этом используются как явная так и неявные модели ОД, строятся как тестовые так и функциональные системы диагностики. Тесты начинают создавать в процессе разработки систем. Используются следующие методы : 1. Аналитические, когда минимальный тест строится на основе определенных аналитических соотношений, алгоритмов и т. п. 2. Статистические, когда в входные воздействия получаются от датчика псевдослучайных чисел. 3. Эвристические, когда тесты строятся на основе знания алгоритмов работы ОД . Диагностика компьютеров Электронная часть компьютера в основном состоит из взаимосоединенных комбинационных схем и элементов памяти (триггеров) Провести их диагностику раздельно не трудно. Диагностика триггера, эвристический метод П Т И0 уст. 0 Ис - сброс И1 – уст. 1 Исч – счет. вход Считаем, что триггер имеет статические отказы каждого выхода в 0 или в 1 : Е И0 И1 Исч Исб eo е1 е2 е3 е4 1 0 0 0 01 01 10 0 1 0 0 10 0 0 1 0 01 01 10 00 11 0 0 1 0 10 01 10 00 11 0 0 0 1 01 01 10 00 11 ео- исправен, е1 –01, е2 – 10, е3 – 00, е4 - 11 00 11 01 10 00 11 Диагностика комбинационных схем (КС) Тесты для КС можно строить, например, используя d – алгоритм (аналитечский) метод или синдром КС (статистический метод). d – алгоритм – использует алгоритм, основанный на необходимых и достаточных условиях обнаружения одиночной неисправности, он легко решается на компьютере. Синдром КС, имеющей N входов и один выход, имеет следующий вид, где n количество 1 на выходе при подаче на входы всех возможных кодовых комбинаций. К – значение синдрома. n K n 2 1 2 1 1  n , K Диз  n , K Сум 2  2 2 2 n K Кон K1 K2 1 1 KKK Сч – к синдр. N N Сч – к вх. КС К Сх.ср. Кэ K  K1  K2 , K  K1  K2  K1K2 K1 & K2 K Методы сигнатурного анализа, статистический метод Они используются для диагностики сложных ОД, являющихся последовательсными системами с памятью. Этод метод основывается на том, что на входы ОД в произвольном порядке подаются входные воздействия, а с контрольной точки снимается результат в виде последовательного двоичного кода, где каждому разряду соответствует свое входное воздействие. Выводимые последовательности являются очень длинными и сними трудно работать. Поэтому и необходимо их сжатие, когда вместо длинной выходной последовательности А(аi) получается контрольный код небольшой длинны, который называется «сигнатурой». В основе получения сигнатуры лежат циклические коды. Пусть имеется m – разрядная двоичная последовательность А(аi),ей соответствует многочлен А(х) вида : m j m 1 m2 1 2 j m A( x )  a x a x ...a ...a Берем специальный хорактеристический многочлен G(x) степени К, где К – число разрядов сигнатуры. Обычно К = 16 или 20. Тогда сигнатура SA есть остаток от деления А(х) на G(x),подобно циклическому коду. x k A( x ) R( x )  Q( x )  G( x ) G( x ) S A  R( x ) Сигнатурный анализатор, где получается сигнатура, представляет из себя сдвиговый регистр с обратными связями в соответствии с храктеристическим многочленом G(x) и с сумматором по mod 2 на входе младшего разряда регистра. На входы сумматора подаются обратные связи и выходная двоичная последовательность с ОД . Схема сигнатурного анализатора – СА. А(х) Сдвиг. регистр СИ После подачи всей последоватедьности А(х) в сдвиговом регистре получается к – разрядная сигнатура SA. Регистр СА может использоваться также и как генератор псевдослучайных чисел (ГенПСЧ), количество ПСЧ с генератора = 2 k 1 Принцип сигнатурного анализа СИ ги Ген.псч ОД А(х) СА SА Сср Sэт ГенПСЧ, ОД, СА – работают синхронно. ГенПСЧ и ОД перед работой устанавливаются в заданное исходное состояние. Если ОД асинхронное устройство, то его надо превратить в синхронное, разорвав обратные связи. Цикл получения сигнатуры занимает 2k 1  m СИ СА – обнаруживает все одиночные ошибки. При большей кратности ошибок вероятность их обнаружения равна 1 1 k 2 Способы организация работы системы диагностики В системе диагностики важнейшим моментом является организация взаимодействия средств диагностики (СД) и ОД. Эта проблема, как правило, усложняется в связи с ограниченным количеством входов и контрольных точек ОД и очень большим числом внутренних элементов, например, БИС, материнская плата, и т.п. Решение этой проблемы производится на основе : - Декомпозиции сложного ОД, когда система при диагностике разбивается на части и каждая проверяется автономно. - Самотестирования, когда СД встраиваются в проверяемую часть устройства, т.е. генератор тестовых воздействий и анализатор выходных реакций реализованы внутри самотестируемой схемы. Для реализаци самотестирования широко используются сигнатурные анализаторы, требующие минимум затрат и позволяющие проверять достаточно сложные устройства. Схема самотестирования Схема построена на основе сигнатурного анализатора(СА). Подключение СА к контрольной точке производится с помощью мультиплексора(МП), входные воздействия идут от Ген.ПСЧ, управляющая программа хранится в ПЗУ программ, а эталонные выходные реакции в ПЗУ эталонов, управляет всем БУ. ПЗУпр БУ ГПСЧ ПЗУэт Сх ср СА МП ОД Методы диагностирования (декомпозиция) 1. Метод двухэтапного диагностирования. 2. Метод сканирования. 3. Метод микродиагностирования. 4. Метод эталонных состояний. 5. Диагностирование на уровне сменных блоков. Двухэтапное диагностирование Сначало проверяются схемы памяти(триггера), затем комбинационные схемы. На первом этапе выходы комбинационных схем с помощью схем “&”отключаются от входов триггеров. Недостаток – требуется большое число входов и выходов. Вх. воздействия СД БУ T Вых. реакции i+1 1 ii КС & T n Метод последовательного сканирования В этом методе алгоритм подобен двухэтапному, но с целью уменьшения числа входов и выходов все триггера соединяются в сдвиговый регистр. Поэтому требуется один вход и один выход: для подачи входных воздействий и съема выходных реакций, но Необходим на каждый основной дополнительный триггер. Метод микродиагностирования В этом случае объектом элементарной проверки является аппаратура, участвующая в выполнении микрооперации. Используютсядва типа микродиагностики: встроенная и внешняя. Метод эталонных состояний Здесь объектом элементарной проверки является аппаратура, используемая для выполнения одного или нескольких тактов рабочего алгооритма. Процесс диагностирования – потактное выполнение рабочего алгоритма, опрос состояний на каждом такте,сравнение с эталоном, ветвление.Для этого необходимы средства: управления потактрвой работой, опроса состояния ОД ,сравнения с эталоном. Диагностика сменных блоков Объектом диагностики является сменный блок (ТЭЗ). Входные воздействия подаются на входы ТЭЗ, а выходные реакции с его выхода. Для уменьшения входов и выходов на входе ТЭЗ ставят дополнительный сдвиговый регистр, а на выходе мультиплексор Раб. входы & Раб.вых. ТЭЗ Сдв.рег. Тест МП Организация процесса диагностики При использовании декомпозиции встает вопрос о последовательности (организации) проверки декомпозируемых частей ОД. Достаточно широко используется так называемый метод раскрутки. Введем понятие диагностического ядра, как уже проверенной части ОД. При раскрутке диагностическое ядро проверяет определенную часть ОД, затем проверенная часть присоединяется к этому ядру, образуя новое диагностическое ядро. Мо mo M1 m1 M2 Mi M1  M 0  m0 ; M 2  M1  m1; M i 1  M i  mi mi Внешние средства диагностики 1. Осциллограф. 2. Логический анализатор. 3. Сигнатурный анализатор. 4. Тестер. 5. Сервисный процессор. 6. Дистанционное обслуживание. Условия контролепригодности цифровых устройств Контролепригодность характеризуется тремя свойствами: 1. Управляемость – есть возможность запустить и остановить устройство в заданном состоянии. 2. Наблюдаемость – можно следить за внешними и внутренними состояниями устройства. 3. Предсказуемость – если задано исходное состояние, то все последующие можно предсказать. Основные принципы построения систем контроля Система контроля компьютера предназначена для обнаружения появления ошибок в процессе его функционирования. Ошибки обнаруживаются как от постоянных отказов, так и от сбоев. при появлении ошибки компьютер прерывает свою работу. Система контроля повышает достоверность работы компьютера. Основные характеристики системы контроля 1. Вероятность обнаружения ошибки, коэфициент качества контр. 2. Время проявления ошибки. 3. Глубина диагностирования. 4. Количество оборудования, охваченного контролем. 5. Количество оборудования, идущего на систему контроля. Организация систем контроля Компьютор можно представить в виде иерархически организованной многоуровневой системы, содержащей следующие уровни 1. Логический уровень - уровень элементов. 2. Функциональный уровень – уровень функций и устройств. 3. Системный уровень – уровень архитектуры компьютера. 4. Пользовательский уровень – уровень решения задач. Ошибка, появившаяся на одном уровне, может перейти на другие. Система контроля построена по принципу того же многоуровневого представления компьютера. Система контроля на каждом уровне строится по своему принципу, взаимодействуя друг с другом. Следующие способы построения систем контроля: 1. Аппаратный: избыточное кодирование, дублирование, тайм-аут, специализированные. 2. Прграмный: повторный счет,логический контроль – по предельным параметрам(уставкам) и обратный счет, тестовый контроль Аппаратный контроль, дублирование Выход Осн. бл. Вх. Бл. Контр. Сх. ср. Сигнал ошибки Програмный контроль, двойной счет. Реш. части задачи Повт. счет есть Ош.? нет Взаимодействие систем контроля и диагностики ОШИБКА Обн.ош. Фикс.ош. Испр.инф. Фикс.сб. Опр.хар.ош. Сб. Ош.? От. Лок.отк. Воз.реконф. Нет Рек.? Да. Пров.рекон. Фик.рек. Вывод инф. Печать Особенности надежности компьютера 1. Это дискретная информационная система, поэтом необходимо учитывать: не только постоянные отказы но и сбои, систему коннтроля. Новая характеристика надежности – достоверность Д. nбо Д ; N вых  nбо  nош.ноб ; N  N вых  nош.об N вых 2. Программно-управляемая система. Надежность ПО. 3. Многофункциональная система. Необходим учет алгоритмов и программ. Компьютор можно рассматривать как простую систему, тогда можно использовать выше рассмотренные характеристики надежности, или как сложную, которая имеет несколько работоспособных состояний, в этом случае в качестве характеристик надежности используют показатели эффективности. Таким образом в общем случае надежность компьютера зависит от: надежности аппаратуры с учетом структуры, характера отказов(постоянные, сбои), надежности програмного обеспечения,системы контроля, алгоритмов и хаоактера решаемых задач. При рассмотрении компьютера, как простой системы, его надежность будет равна: Pком (t )  Pапп (t )  Pпр (t ) ; Pапп (t )  Pот (t )  Pсб (t ); Pапп  F (от , сб ) сб от Надежность аппаратуры Надежность аппаратуры зависит от надежности элементов. Основными элементами компьютера являются: интегральные микросхемы, радиоэлектронные компоненты(резисторы и т.п.), контактные соединения, периферийные устройства. Учитываются обычно внезапные отказы и сбои. Поэтому считают, чтодля элементов действует экспоненциальный закон надежности pэл (t )   эt  Таким образом, чем точнее мы определим Э ,тем точнее расчет надежности. Интенсивность отказов есть функция от условий работы элемента: нагрузки, температуры, механических воздействий, радиации и т.п. Интенсивность отказов элементов равна: m Ý  0  K j Где Kj 0 - интенсивность в нормальных условиях(справочник), j 1 - коэфициенты условий работы, m – их количество. Примеры интенсивностей отказов при нормальных условиях: 1 6 8 - радиоэлектронные компоненты – (10  10 ) час 1 8 12 - контактные соединения – (10  10 ) час 1 6 9 - интегральные микросхемы – (10  10 ) час Характеристики надежности при разных режимах работы компьютеров. 1. Однократного действия, восстановления нет: P(t ); To 2. Многократного использования, восстановление есть: t t K ОГ  K Г (tож )  P(t раб ) 3. Длительного использования: tв tр tр tв K Ã - стационарное значение. tож tраб tож tраб Методы расчета надежности 1) По среднегрупповым интенсивностям отказов эi  0i  К у n  эв м  К у  0i i 1 2) Коэфициентный метод эi  0  К н эi Кн  0 n  эв м  0  К н i 1 3) Полный расчет m эi  0i   К j j 1 m  эв м   0i   К j j 1 Расчет надежности по сбоям с учетом алгоритма решения задачи Считаем, что сбои в выполняемых командах взаимонезависимы. М – множество элементов в ЭВМ. m – количество типов элементов  j- интенсивность отказов элемента j – ого типа Nj – количество элементов j – ого типа n – число разных команд(операций) tоп – время выполнеия i – ой операции m M  N множество элементов участ. в i – ой операции i  j 1 i j N i j – число элемпнтов j – ого типа участв. в i – ой операции А – общее количество команд при решении задачи  i - количество i – х операций при решении задачи   i  i частота появления i – ой команды при решении задачи A n t реш    i  tопi Pзад (t реш )   P xi опi i 1 xi = 1, если i – ая команда участвует в решении задачи, нет = 0 i опi опi Pопi (tопi )  p (t ) pопi (tопi )    опi  N  N i j M i Pопi   ij j  i  опi tопi Pопi   n  xi A Pзад   P   xi опi i 1  A опi  опi tопi опi  опi tопi   опi tопi Надежность программного обеспечения ПО обладает, как и аппаратура, свойством надежности. Надежность ПО определяется корректностью и устойчивостью программы. Программа корректна, если она вырабатывает правильные рзультаты при правильных входных данных. Программа устойчива, если она обеспечивает работоспособность в условиях неблагоприятной внешней сореды. Надежность ПО определяется теми же характеристиками, что и аппаратура. Отказы ПО обусловлены наличием ошибок, превносимых в программу извне. Источниками ошибок являются: разработчики, пользователи, злоумышленники, отказы аппаратуры. Особенности ПО: 1. Не подвергается износу. 2. Ошибки только из-за внешних воздействий. 3. Нет статистики об отказах. 4. Нет эталона. 5. Нет профилактики. Для доказательства корректности ПО используются методы верификации и тестирования программ. Верификация – это доказательство отсутствия ошибок в программе. Тестирование – это проведение испытаний с целью выявления ошибок. Тестирование не гарантирует выявление всех ошибок. Характеристики надежности ПО: вероятность безошибочного выполнения программы, среднее время между ошибками, количество ошибок, оставшихся в программе, интенсивность возникновения ошибок. Оценка надежности производится на основе определенных моделей надежности программного обеспечения. Модель Шумана Допущения: 1.Ошибки в программе взаимонезависимы, проявляются случай – но с постоянной средней интенсивностью. 2.Интенсивность проявления ошибок не зависит от распределен – ния типов команд 3.Тесты должны быть случайны. 4.Ошибки исправляются после тестирования. 5.Количество обнаруживаемых и справляемых ошибок в единицу времени пропорцианально их общему количеству на данный момент времени. Пусть - врмя тестирования, No – количество ошибок перед тестированием, no – количество ошибок, оставшихся после тестирования, К – коэфициент пропорциональности.  dn dt   (t )  k  n0  k ( N 0  n) P (t /  )     ( )t ; n0  N 0   k   ( )  k  n0  k  N 0    k t Модель Миллса (статистическая) n N0  s s  число внесенных ошибок v n  число выявленных собственных ошибок v  число выявленных внесенных ошибок N 0  исходное число ошибок Уровеньзначимости  С C  1 при n k s С s  k 1 k  предполаг. число отк. при n  к Надежность сложных многофункциональных систем Сложные многофункциональные системы, к которым относятся информационно – вычислительные комплексы, имеют несколько работоспособных состояний, зависящих от количества и порядка отказов ее элементов. Причем каждое состояние характеризуется своим уровнем эффективности работы. Поэтому рассмотренные выше характеристики надежности не могут служить для оценки качества ее функционирования, так как нас интересует количественная оценка качества собственно функционирования этой системы. Такая оценка называется «эффективностью функционирования» или «оперативной эффективностью». Для оценки эффективности сложные системы делят на системы длительного и кратковременного действия. Системы длительного действия за время работы с вероятностью близкой к 1 меняют свое состояние. Системы кратковременного действия сохраняют свое состояние за время работы с вероятностью близкой к 1. Система кратковременного действия полностью характеризуется состоянием ее элементов в момент времени t – начала работы и не меняет своего состояния за время работы. Оперативная эффективность системы может быть определена как математическое ожидание выходного эффекта. Тогда в случае системы кратковременного действия ее эффективность определяется как N E   Hi  i i 1 Где N – число возможных состояний, Hi – вероятность i – го состояния, Фi – условный показатель эффективности системы в ее i – ом состоянии. Для систем длительного действия ее эффективность будет определятся траекторией процесса перехода системы из одного состояния в другое. Тогда эффективностью системы будет математическое ожидание от всех возможных траекторий. Отказоустойчивые компьютерные системы Сегодня спрос на широкую функциональность ИТ-систем уходит на второй план, уступая место требованиям максимальной надежности. Особенно актуально это для бизнеса, Особенно сильно от такого рода аварий страдает финансовая индустрия, час неработоспособного простоя которой может исчисляться несколькими миллионами долларов убытка. Ядерная энергетика, военная и авиационная промышленность, космос представляют собой наивысшую потенциальную угрозу человеческой жизни и окружающей среде, и по этой причине особенно нуждаются в наличии максимально надежных и безотказных компьютерных систем, исключающих в работе сбои по вине человеческого фактора. Сейчас широко используются отказоустойчивые серверы, различные виды отказоустойчивых управляющих компьютеров. Отказоустойчивость – способность компьютера не терять работоспособность при отказе некоторого числа элементов и наличии сбоев. В процессе функционирования в аппаратуре компьютера возникают следующие виды отказов: - постоянные (внезапные и постепенные), которые устраняются путем ремонта или замены; - сбои, ошибки от которых ликвидируются путем восстановления информации. Отказоустойчивость обеспечивается введением избыточности и использованием восстановления. Виды избыточности: - аппаратурная: резервирование - функциональная избыточность когда одно устройство может выполнять функции другого, компьютеры с функциональной избыточностью являются сложными системами, эффективность которых ухудшается по мере отказов элементов, - информационная: резервирование информации, избыточное кодирование, - временная избыточность, требующая дополнительное время для выявления возникающих отказов и сбоев. Восстановление используется в двух режимах: - без перерыва в работе, системы с непрерывной готовностью (K Г  1) и горячей заменой, - восстановление с остановом работы системы. Защита от сбоев производится с помощью системы контроля и процедуры повторных вычислений. Отказоустойчивость по постоянным отказам обеспечивается резервированием, избыточным кодированием и функциональной избыточностью. Защита от сбоев производится с помощью системы контроля и процедур восстановления информации. Резервирование может производиться на уровне всего компьютера(ОБЩЕЕ РЕЗЕРВИРОВАНИЕ)или на уровне его отдельных устройств или функциональных блоков (раздельное резервирование). Используются как методы активного так и пассивного резервирования. Часто отказоустойчивость обеспечивается комбинацией резервирования и избыточного кодирования. При раздельном резервировании избыточность вводится либо во все устройства компьютера либо в устройства, наиболее критичные к отказам и сбоям. Такими устройствами являются оперативная помять и внешние ЗУ. Часто резервирование используется для увеличения процента выхода годных микросхем при их производстве. В оперативной памяти oбычно используется код Хэмминга. В дисковых внешних ЗУ используются RAID ( Redundant Arrow of Inexpensive Disks ) системы. Избыточный код Хэмминга уже рассматривался. Принципы построения RAID систем Итак, идея создания RAID-системы заключается в следующем, из набора обычных дисковых накопителей создается массив, который управляется специальным контроллером и определяется сервером как единый логический диск большой емкости (как правило, физических дисков, способных хранить такой объем информации, не существует). Высокое быстродействие системы обеспечивается возможностью параллельного выполнения нескольких операций вывода (ввода), а сохранность информации – ее дублированием или вычислением контрольных сумм. Каждый уровень RAID имеет свои особенности, поэтому подходит для выполнения только определенного круга задач. Существует несколько способов реализации RAID-систем. RAID 0 – массив дисков без избыточного хранения данных. Информация разбивается на блоки, которые записываются на отдельные диски, что обеспечивает увеличение производительности. Данные способ хранения информации ненадежен (поломка одного диска приводит к потере всей информации), поэтому уровнем RAID как таковым не является. За счет возможности одновременного ввода/вывода с нескольких дисков RAID 0 обеспечивает максимальную скорость передачи данных и максимальную эффективность использования дискового пространства, так как не требуется места для хранения контрольных сумм. Реализация этого уровня очень проста. В основном RAID 0 применяется в тех областях, где требуется быстрая передача большого объема данных. Контроллер массива диск 1 диск 2 диск 3 диск 4 диск 5 сегмент1 сегмент2 сегмент3 сегмент4 сегмент5 сегмент6 сегмент7 сегмнет8 сегмент9 сегмент10 RAID - 0 RAID 1 – дисковый массив с дублированием информации, так называемая схема с зеркалированием данных. В простейшем случае два накопителя содержат одинаковую информацию и являются одним логическим диском. Тем самым обеспечивается самый высокий уровень сохранности данных: при выходе из строя одного диска его функции выполняет другой (что абсолютно прозрачно для пользователя). Кроме того, этот уровень удваивает скорость считывания информации, так как эта операция может выполняться одновременно с двух дисков. Недостатками RAID 1 являются низкий коэффициент использования дискового пространства (всего 50%, ниже, чем на всех других уровнях) и снижение скорости записи, так как она должна производиться согласованно на два диска. RAID 1 прост в реализации, позволяет создать отказоустойчивую систему всего из двух дисков, самый большой его минус – высокая стоимость. диск1 данные диск2 копия сегмент1 сегмент1 сегмент3 сегмень3 диск3 данные диск4 копия сегмент2 сегмент4 сегмент2 сегмент4 диск5 не испол. RAID - 1 • RAID 2 – схема резервирования данных с использованием кода Хэмминга (Hamming code) для коррекции ошибок – запатентован компанией Thinking Machines. Поток данных разбивается на слова таким образом, что количество бит в слове равно количеству дисков и при записи слова каждый отдельный бит записывается на свой диск. Для каждого слова вычисляется код коррекции ошибок, который записывается на выделенные диски для хранения контрольной информации. Их число равно количеству бит в слове контрольной суммы. Например, если слово состоит из четырех бит, то под контрольную информацию отводится три диска. RAID 2 – один из немногих уровней, позволяющих обнаруживать двойные ошибки и исправлять “на лету” одиночные. При этом он является самым избыточным среди всех уровней с контролем четности. Такая схема хранения подходит для приложений, где требуется передача большого объема данных (за счет параллельного обращения к дискам), но неприменима для задач с большим количеством запросов малого объема (за счет сравнительно большого объема операций, который требуется для перераспределения данных). Эта схема хранения данных мало применяется, поскольку плохо справляется с большим количеством запросов, сложна в организации и имеет незначительные преимущества перед уровнем RAID 3. • RAID - 2 • RAID уровня 3 — это отказоустойчивый массив с параллельным вводом-выводом и одним дополнительным диском, на который записывается контрольная информация . При записи поток данных разбивается на блоки на уровне байт (хотя возможно и на уровне бит) и записывается одновременно на все диски массива, кроме выделенного для хранения контрольной информации. Для вычисления контрольной информации (называемой также контрольной суммой) используется операция «исключающего ИЛИ» (XOR), применяемая к записываемым блокам данных. При выходе из строя любого диска данные на нем можно восстановить по контрольным данным и данным, оставшимся на исправных дисках. • Пусть имеется m блоков данных, Dj – j –тый блок данных. Каждый блок имеет n разрядов,i – номер разряда. dij – i - тый рaзряд j – ого блока данных. Контрольная информация P имеет n разрядов, pi – i – тый контрольный разряд. m pi   d ij j 1 D1  P  D2  D3    Dm D3  P  D1  D2  D4    Dm • RAID уровня 3 имеет намного меньшую избыточность, чем RAID 2. Благодаря разбиению данных на блоки RAID 3 имеет высокую производительность. При считывании информации не производится обращение к диску с контрольными суммами (в случае отсутствия сбоя), что происходит всякий раз при операции записи. Кроме того, к достоинствам RAID 3 относятся незначительное снижение производительности при сбое и быстрое восстановление информации. • Рассмотрим в качестве иллюстрации блоки размером по четыре бита. Пусть имеются четыре диска для хранения данных и один диск для записи контрольных сумм. Если имеется последовательность бит 1101 0011 1100 1011, разбитая на блоки по четыре бита, то для расчета контрольной суммы необходимо выполнить операцию: • Таким образом, контрольная сумма, записываемая на пятый диск, равна 1001. • Если один из дисков, например третий, вышел из строя, то блок 1100 окажется недоступным при считывании. Однако его значение легко восстановить по контрольной сумме и значениям остальных блоков, используя все ту же операцию «исключающего ИЛИ»: • Блок 3=Блок1 Блок 2 Блок 4 • Контрольная сумма. • В нашем примере получим: • Блок 3= (1101)  (0011)  (1011)  (1001) = 1100. RAID - 3 • RAIDуровня 4 — это отказоустойчивый массив независимых дисков с одним диском для хранения контрольных сумм . RAID 4 во многом схож с RAID 3, но отличается от последнего прежде всего значительно большим размером блока записываемых данных (большим, чем размер записываемых данных). В этом и есть главное различие между RAID 3 и RAID 4. После записи группы блоков вычисляется контрольная сумма (точно так же, как и в случае RAID 3), которая записывается на выделенный для этого диск. Благодаря большему, чем у RAID 3, размеру блока возможно одновременное выполнение нескольких операций чтения (схема независимого доступа). • RAID 4 повышает производительность передачи файлов малого объема (за счет распараллеливания операции считывания). Но поскольку при записи должна вычисляться контрольная сумма на выделенном диске, одновременное выполнение операций здесь невозможно (налицо асимметричность операций ввода и вывода). Эта схема хранения данных имеет невысокую стоимость, но ее реализация достаточно сложна, как и восстановление данных при сбое • RAID - 4 RAID 5 – отказоустойчивый массив независимых дисков с распределением контрольных сумм (массив с вращающейся четностью). Самый распространенный уровень. Блоки данных и контрольные суммы циклически записываются на все диски массива, отсутствует выделенный диск для хранения информации о четности: нет асимметричности конфигурации дисков. В случае RAID 5 все диски массива имеют одинаковый размер, но один из них невидим для операционной системы. Например, если 3 диска имеют размер 1 Гб, то фактически размер массива составляет 2 Гб, 1 Гб отводится на контрольную информацию. В случае добавления четвертого диска операционная система будет видеть 3 Гб, 1 Гб предназначен для хранения контрольных сумм. Самый большой недостаток уровней RAID от 2-го до 4го – это наличие отдельного (физического) диска, хранящего информацию о четности. Операции считывания не требуют обращения к этому диску, и, как следствие, скорость их выполнения достаточно высока, но при каждой операции записи на нем изменяется информация, поэтому схемы RAID 2-4 не позволяют проводить параллельные операции записи RAID 5 лишен этого недостатка, так как контрольные суммы записываются на все диски массива, что делает возможным выполнение нескольких операций считывания или записи одновременно. RAID - 5 • • Реализация RAID-системы программным путем Некоторые операционные системы, в частности Microsoft Windows NT (2000) Server и Novell NetWare. Имеют встроенные программы для реализации RAID-массивов (уровней 0, 1, 1+0 и даже 5). Самое большое преимущество такого способа построения RAID-систем – низкая стоимость, так как не требуется никаких дополнительных аппаратных средств. Для проведения всех операций (записи, считывания, вычисления контрольной суммы) программа использует ресурсы центрального процессора, что значительно снижает производительность всей системы. Следует отметить, что центральный процессор оптимизирован для работы с подсистемой памяти, а не периферийными устройствами. Основной вклад в снижение общей производительности вносит обработка прерываний от дисков. RAID-системы, реализованные программным путем, работают значительно медленнее аппаратных и характеризуются минимальной надежностью, поскольку при выходе сервера из строя возможна полная потеря всей информации. Кроме того, при замене неисправного диска, добавлении нового (в это время сервер, естественно, выключен) или изменении уровня RAID также теряются все накопленные данные. • RAID-системы на основе внутренних контроллеров • Чтобы повысить надежность, производительность и масштабирование RAID-систем, их строят на основе контроллеров, которые устанавливаются внутрь сервера (обычно они имеют PCI интерфейс). По этой шине можно передавать данные со скоростью, вполне достаточной для серверов начального и среднего уровней (максимальная пропускная способность 32битной шины PCI – 132 Мб/с, 64-битной –264). RAIDконтроллеры значительно разгружают центральный процессор, увеличивая производительность всей системы. Кроме того, наличие интегрированного кеша (до 128 Мб) повышает скорость работы дискового массива. BIOS контроллеров и прилагаемые программы позволяют создавать RAID-массивы различных уровней, заменять и добавлять диски без потери информации. Самые технологически совершенные контроллеры обеспечивают проведение так называемой “горячей” замены неисправного накопителя, т.е. без приостановки работы сервера. Отказоустойчивые компьютеры При построении отказоустойчивых компьютеров используется как введение избыточности, так и восстановление. Это касается и аппаратуры и программного обеспечения. Рассмотрим основные способы построения таких компьютеров. Построение компьютеров на основе мажоритарного резервирования Такой способ используется в управляющих и бортовых компьютерах (БК), которые не допускают перерыва в работе при выполнении заданных функций. Обычно применяется 3-х канальная сиcтема с голосованием 2 из 3. Голосование осуществляется с помощью мажоритарных элементов, а также программным спосо бом. Используется как общее, так и раздельное резервирование, однократные и многократные связи. Примеры: серия БК типа «Аргон-16», «Салют-5Б», РС МКС для кораблей «Восток», «Мир» «Союз-Т», Международной космической станции. Прогр. голосование УКМ 1 И 1 УКМ 2 УКМ Управл. компьютерные модули 3 Интерфейсные модули И 3 И 2 МЭ Распредел. Модуль согласования Датчики вых вх вых вх Компьютеры фирмы Stratus Компьютеры используют резервирование с восстановлением. Это отказоустойчивые серверы, работающие в режиме непрерыв– ной готовности с горячей заменой. Это обеспечивает Кг =0,99999 за год, т.е. время простоя за год 5 минут. Основные принципы по – строения. • Модульность. Каждый модуль системы является единицей обслуживания, • Быстрое проявление неисправности. Каждый модуль должен либо работать правильно, либо немедленно останавливаться. • Независимость отказов. • Избыточность и ремонт. В систему должны быть заранее установлены или сконфигурированы запасные модули, так что при отказе одного из модулей, запасной модуль может заменить его практически немедленно. Отказавший модуль может ремонтироваться автономно, в то время как система продолжает работать. • Принцип быстрого проявления неисправности обычно реализуется с помощью двух методов: самоконтроля и сравнения.. Принцип дублирования дуплексных модулей , который предпо – лагает создание некоторого "супермодуля" – комбинации двух дуплексных модулей, построенных на принципах быстрого проявления неисправности, Такой "супермодуль» продолжает работать даже когда отказывает один из субмодулей. Контроль в дуплекс – ном модуле осуществляется методом дублирования. Дупл. м 1 2 1 2 Супер.м Сх.ср. Сх.ср. Таким образом, в основе систем непрерывной готовности компании Stratus лежит аппаратная отказоустойчивая архитектура, состоящая из дублированных функциональных узлов, причем, большинство этих узлов работает в режиме пошаговой блокировки. Оборудование увеличевается в 4 раза. Пошаговая блокировка Режим пошаговой блокировки предполагает, что все дублирован ные элементы некоторой подсистемы обрабатывают одну и ту же команду или данные в один и тот же момент времени. Например, два процессора (ЦП) объединяются парами и одновременно вы полняют одну и ту же команду. При этом специальная схема сравнения в каждом такте проверяет, что оба ЦП вычислили тот же са мый результат. Если ошибки отсутствуют, работа ЦП продолжается. Если обнаруживается ошибка,то работа останавливается. Неисправные компоненты аппаратуры автоматически изолируют ся и выполняюется цикл самотестирования. Если этот тест проходит успешно, то соответствующий функциональный узел автома тически возвращает себя в рабочий режим и продолжает работу. Если тест самоконтроля не проходит, то в системный журнальный файл заносится соответствующая запись. Система с неисправными компонентами сама дозванивается по сети удаленного обслуживания до сервисного центра фирмы Stratus. Структурная схема компьютера Отказоустойчивые серверы фирмы Tundem Интерес представляет отказоустойчивая архитектура, где все ус тройства взаимодействуют через специальную сеть. Такая система состоит из нескольких процессорных узлов и узлов ввода/вывода, объединенных друг с другом системной сетью ServerNet. Базовым элементом системной сети ServerNet является маршрутизатор. Для обеспечения отказоустойчивости предпола гается возможность построения двух независимых подсетей ServerNet: X и Y. ServerNet представляет собой быструю, масштабируемую, на дежную системную сеть, обеспечивающую гибкость соединения большого числа ЦП и периферийных устройств в/в между собой. Главными свойствами этой сети коммутации пакетов являются малая задержка и высокая надежность передачи данных. Структура избыточной системы

надежность, контроль и диагностика вычислительных систем

Related documents

Products

Support

надежность, контроль и диагностика вычислительных систем

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib