ВВЕДЕНИЕ. ПРОБЛЕМА НАДЕЖНОСТИ СЛОЖНЫХ СИСТЕМ Проблема обеспечения надежного функционирования технических систем возникла одновременно с появлением этого класса систем. Действительно, каждого, кто эксплуатирует техническую систему, наряду с другими качественными показателями системы в значительной степени интересует ее надежная работа. Более того, в значительном числе случаев, когда система выполняет ответственные функции, надежность является определяющим свойством. Рост важности решения проблемы надежности за последние 2-3 десятилетия обусловлен следующими причинами: I. Ростом сложности технических систем Можно констатировать рост сложности в той или иной степени всех классов технических систем, в том числе информационно-вычислительных, к которым относятся АСУ и САПР. Например: Таблица 1.1 ЭВМ Емкость ОЗУ 1-я ЭВМ в СССР МЭСМ 31 число(17 разрядное) и 63 команды 1-е поколение БЭСМ-1 1024=1К чисел (39 разрядных) 2-е поколение М-220 до 16384=16 К чисел (45 разрядных) 3-е поколение ЕС-1030 до 612 Кбайт=512/4 К слов=128 К слов (32 разрядных) 4-е поколение ПЭВМ до 1 Мбайт (16 разрядные) 5-е поколение ПЭВМ (типа возможность наращивания до 64 Мбайт (16 IBM PC) разрядные) Если не предпринимать никаких мер, то, как нами далее будет показано, рост сложности системы (нерезервируемой) ведет к понижению надежности. II. Повышением требований к техническим характеристикам и качеству функционирования систем: повышению точности, быстродействия (скорости сбора и обработки информации), помехоустойчивости (помехозащищенности), емкости запоминающих устройств и другие. Повышение требований к техническим характеристикам вызывает необходимость либо реализации новых, как правило, более сложных проектных решений в рамках имеющегося набора технических средств, либо перехода к более совершенным техническим программным и аппаратным средствам. Например: повышение быстродействия вычислительных систем последнего поколения осуществляется с помощью распараллеливания вычислительного процесса; что связано с необходимостью организации многопроцессорных систем, т.е. повышением сложности. Как правило, стремление улучшить эти показатели приводит к повышению сложности системы, что ведет к понижению надежности. Эта причина является, пожалуй, основной из стимулирующих развитие науки и надежности. III. Повышением ответственности функций, выполняемых системами, а также высокой экономической, моральной и политической ценой отказа. Все эти факторы усугубляются, если отказ системы связан с гибелью людей. Например: а) «В 1971 г. во Франции производился крупный метеорологический эксперимент. Было запущено 115 шаров-зондов с измерительными приборами в верхние слои атмосферы, а также спутник для переснятия данных между шарами и наземными станциями. Шары умели реагировать на две команды: команду чтения, по которой данные пересылались от шара к спутнику, и команду ликвидации - для взрыва помещенного в шаре заряда, если шар собьется с курса. К несчастью, в программном обеспечении системы была ошибка. В результате команды чтения была послана команда ликвидации, уничтожившая 72 шара, находившихся в поле зрения спутника.»1 б) Отказ релейной защиты в энергосистеме северо-восточной части США привел к нарушению энергоснабжения целого региона и к убытку около 500 млн. долларов. в) Неудачи в осуществлении космических программ наносят существенный экономический, моральный и политический ущерб, особенно в случае гибели космонавтов. г) «Классическим примером психологического эффекта ненадежности являются спутники «Авангард». Соединенные штаты, остро переживая успехи России, запустившей «Спутник-1», попытались вступить в соревнование, использовав для этого почти не испытанную ракету, которой пришлось работать почти на пределе своих возможностей. Неудачи и последовавшие за этим уныние и потеря престижа были очень серьезны»2. IV. Полной или частичной автоматизацией производственных и других процессов и исключением непрерывного наблюдения и контроля за их ходом со стороны человека. Автоматизация процессов ведет к повышению производительности труда, позволяет осуществлять управление сложнейшими процессами, но в то же время исключает возможность непосредственного, непрерывного наблюдения человеком за всеми деталями хода процесса, что не позволяет в ряде случаев своевременно ликвидировать аварийные ситуации. Эта причина особенно важна для таких систем, как АСУП, АСУТП, АСНИ. V. Усложнением эксплуатационных условий: низкие и высокие температуры, высокая влажность и давление, существенные ускорения и вибрации, воздействие радиации и агрессивных средств. Проявление этих факторов обусловлено расширением диапазона Майерс Г. Надежность программного обеспечения: М., Мир, 1980 - с.21. Ллойд Д., Линов М. Надежность. Организация исследования, методы, математический аппарат. 1 2 применения систем: военная техника, авиационно-космические системы, глубинные аппараты, системы для проведения научных экспериментов (например: ядерных), технологические процессы со сложными физикохимическими условиями. VI. Высокой интенсивностью режимов работы системы, в частности, непрерывные режимы работы, при которых компоненты системы используются при нагрузках, близких к максимально допустимым. Например: а) Автоматизированные системы управления непрерывными техническими процессами должны обеспечивать круглосуточно безотказное управление ходом технических процессов. б) Достигнутый уровень развития силовых частей космических системдвигателей обуславливает максимально развиваемую тягу. Тогда для увеличения доли полезного веса уменьшают вес ракеты-носителя, в частности, за счет понижения толщины ее корпуса, что, конечно, создает более напряженный режим работы последнего. VII. Стремлением контролирования планирования показателей или, надежности по крайней систем при мере, их проектировании, производстве и эксплуатации. Названные причины и приведенные выше примеры указывают на то, что проблема надежности современных технических систем имеет первостепенное значение. В этой связи проблеме обеспечения надежности уделяется повышенное внимание. В нашей стране существует целый ряд документов, регламентирующих терминологию в теории надежности, методы определения характеристик надежности как на государственном (ГОСТы), так и на отраслевом уровне (ОРММ). В ряде промышленно развитых стран в государственных масштабах созданы специальные службы, комитеты по надежности. Понятно, что решение задач надежности для сложных систем возможны лишь на основе научных принципов. Общие принципы проектирования, производства и эксплуатации систем с целью обеспечения соответствующих показателей надежности разрабатываются научной дисциплиной, которая носит название теория надежности3. Теория надежности - это научная дисциплина, изучающая общие закономерности, которых следует придерживаться при проектировании, производстве, испытаниях и эксплуатации изделий для получения максимальной эффективности от их использования. Первые публикации по надежности появились в 40х-50х годах. В основном на начальном этапе разрабатывались вопросы надежности радиоэлектронных систем, что в частности объясняет тот факт, что в настоящее время эти вопросы являются наиболее проработанными. Основной вклад в развитие науки о надежности внесли ученые и инженеры СССР и США. К настоящему времени в теории надежности получены значительные результаты. Однако, следует констатировать, что настоящее состояние теории надежности еще далеко от логически завершенного. Многие прикладные, инженерные задачи не нашли еще своего решения. Наряду с общенаучной дисциплиной «Теория надежности» существуют также «отраслевые» теории надежности. Это связано в первую очередь с тем, что в различных областях науки и техники используются различные математические модели возникновения отказов. Например: а) В задачах конструкционной надежности используются математические модели теории упругости, пластичности материалов, сопротивления материалов. б) В задачах исследования постепенных отказов радиоэлектронных элементов используются математические модели, описывающие процессы старения элементов, т.е. необратимого изменения физико-химических свойств материалов. Гнеденко Б.В., Беляев Ю.К,, Соловьев А.Д. Математические методы теории надежности: М.; Наука, 1965. 3 Предметом нашего рассмотрения являются автоматизированные системы (АС). В каждой такой системе принято выделять аппаратное и программное обеспечение. Применительно к ним и будем рассматривать задачи надежности. Следует заметить, что если для аппаратного обеспечения, которое по существу является радиоэлектронным оборудованием, как следует из сказанного выше, вопросы надежности в значительной степени разработаны, то для программного обеспечения проблемы надежности находятся на стадии начального разрешения. В настоящее время существуют два основных подхода к определению показателей надежности: 1. Путем проведения испытаний на надежность (статистическая теория надежности). Для этого проводится серия испытаний на надежность реального изделия при реальных условиях эксплуатации. При этом расчет показателей надежности изделия сводится к соответствующей обработке результатов экспериментов с использованием аппарата математической непосредственно установить статистики. Достоинство: причинно-следственную позволяет связь между показателями надежности и факторами, ее определяющими. Недостаток: требует проведения большого числа испытаний, зачастую длительных по времени и дорогостоящих. Это не везде возможно, особенно для высоконадежных, сложных и уникальных изделий.4 2. Путем построения математической модели (аналитическая теория надежности) изделия с точки зрения задач надежности на основе некоторых априорных сведений о процессе возникновения отказов и анализа функционирования изделий и проведения расчетов показателей надежности аналитическим путем или путем моделирования на ЭВМ. Автоматизированные системы - сложные программно-аппаратные человекомашинные системы, включающие три составляющие разной природы: Барлоу Р., Прошан Ф. Статистическая теория надежности и испытания на безотказность: М. Наука, 1984 4 комплекс технических средств, программное обеспечение и человека, - для описания которых используются математические модели принципиально разных классов. Объединение этих моделей в одну для анализа надежности представляет непростую задачу. Достоинство: понижение стоимости оценки показателей надежности путем устранения трудоемкого процесса проведения многочисленных испытаний. Недостаток: требуется построение математической модели изделия с точки зрения надежности, которая лишь частично отражает реальные процессы. Однако, этот недостаток не носит глобального характера, в ряде случаев удается получить одни и те же качественные выводы о надежности независимости от априорных данных. Возможно сочетание обоих подходов. Мы в дальнейшем будем в основном работать в рамках второго подхода.