Лекция 1

Тема: Основные понятия надёжности информационных систем и пути её обеспечения

План

  1. Основные определения и понятия надёжности технических систем (ИС).
  2. Задачи теории надёжности, основные причины определяющие внимание к проблеме надёжности ИС.
  3. Классификация отказов ИС, стандартизированные определения показателей надёжности.
  4. Средства повышения и обеспечения надёжности. Перспективные методы обеспечения надёжности ИС.

Ключевые слова

Надёжность, информационные системы, классификация отказов, внезапный отказ, постепенный отказ, сбой, безотказность,сохраняемость,ремонтопригодность,восстанавливаемые системы, обслуживаемые, необслуживаемые, высоконадёжный элемент,резервирование, аппаратная избыточность, программное обеспечение, контроль, диагностика, встроенные средства, типовые элементы замены, самопроверяемые устройства, самовосстановление, отказоустойчивость, работоспособность.

Информационная система – это сложная человеко-машинная система, включающая в свой состав эргатические звенья, технические средства и программное обеспечение.

Использование современных компьютеров и компьютерных систем (КС) может иметь место при условии их достаточно надежной работы. Основными причинами, определяющими повышенное внимание к проблемам надежности являются:

  • рост сложности аппаратуры и появление сложных высокопроизводительных компьютерных систем КС;
  • медленный рост уровня надежности комплектующих элементов;
  • увеличение важности выполняемой аппаратурой функций;
  • усложнение условий эксплуатации и др.

Надежность компьютеров и КС определяется, с одной стороны, отсутствием отказов, сбоев и ошибок в работе устройств, с другой возможностью восстановления аппаратуры и вычислительного процесса.

Основными задачами теории надежности являются:

  • методы анализа надежности элементов и систем;
  • установление видов количественных показателей надежности;
  • выработка методов аналитической оценки надежности;
  • разработка методов оценки надежности по результатам испытаний;
  • оптимизация надежности на стадиях разработки и эксплуатации.

При определении основных терминов и понятий в области надежности (например, отказ, восстановление, само понятие надежности и др.) будем следовать нормативно-техническим документам системе государственных стандартов «Надежность в технике», описываемая ГОСТ.24.701-86.

Основным понятием в теории надежности является понятие системы. Под системой понимают совокупность элементов, взаимодействующих между собой в процессе выполнения заданных функций. Например, в качестве систем могут рассматриваться КС, вычислительный комплекс, автоматическая система управления движением космического корабля, судна, микропроцессорная система и др.

Объекты, образующие системы представляют собой элементы системы. Элементом системы называют часть системы, которая имеет самостоятельную характеристику надежности, используемую при расчетах и выполняющую определенную функцию в интересах системы. Примерами элементов для систем, перечисленных выше, могут служить соответственно ЗУ-КС, мини-микро ЭВМ вычислительного комплекса, исполнительный механизм рулевого привода и т.д. Каждый из этих элементов можно рассматривать в качестве системы, состоящей из более мелких элементов.

Элементы и системы могут находится в двух состояниях: работоспособном и неработоспособном.

Работоспособным называется такое состояние системы (элемента), при котором они способны выполнить заданные функции, сохраняя значения заданных параметров в пределах установленных нормативно-технической документацией (НТД).

Неработоспособным называется состояние системы, при котором значение хотя бы одного параметра, характеризующего способность выполнять заданные функции, не находится в переделах, установленных, нормативно-технической документацией.

Событие, заключающееся в нарушении работоспособности системы, т.е. в переходе её из работоспособного в неработоспособное состояние, называется отказом.

Отказы объектов могут классифицироваться по многим признакам, например по характеру возникновения, внешним проявлениям, способам обнаружения. Приведем классификацию отказов по основным признакам (табл. 1).

Таблица 1

 

Классификационный признак Значение классификационного признака Вид отказа
1 Характер измене-ния параметров объекта до воз-никновения отказов Скачкообразное изменение одного или нескольких параметров Внезапный отказ
Постепенное изменение одного или нескольких параметров Постепенный отказ
2 Взаимосвязь отказов Отказ элемента объекта не обусловлен отказами других элементов объекта Независимый отказ элемента
Отказ элемента объекта обусловлен отказами других элементов объекта Зависимый отказ элемента
3 Происхождение отказов Нарушение норм и методов конструирования Конструкционный отказ
Нарушение процесса изготовления, ремонта, технологии Производственный отказ
Нарушение условия эксплуатации объекта Эксплуатационный отказ
4 Устойчивость неработоспособного состояния (характер воздействия отказа) Неработоспособность сохраняется устойчиво Устойчивый отказ
Неработоспособность сохраняется кратковременно, затем восстанавливается Самоустраняющийся отказ (сбой)
Неработоспособность одного и того же характера возникает и самоустраняется многократно Перемежающийся отказ

При анализе надежности конкретного объекта классификация его отказов позволяет выявить причины отказов и найти пути повышения надежности. Отметим, что в общей массе отказов в вычислительных машинах и микропроцессорных системах преобладают сбои, т.е. самоустраняющиеся отказы.

Под сбоем логического элемента КС понимается непредусмотренное изменение состояния этого элемента, после которого работоспособность самовосстанавливается (без проведения ремонта). Сбои приводят к кратко-временному нарушению работоспособности, они опасны для компьютеров, КС, любых ИС так как приводят к искажению информации и к неправильному функционированию системы.

На основании использования понятий работоспособности и отказа сформулируем понятие надежность [1, 2, 3].

Основные стандартизованные определения показателей надежности

Надежность – свойство объекта (ИС) сохранять во времени в установленных пределах способность выполнять требуемые функции в заданных режимах и условиях применения, технического обслуживания, ремонтов, хранения и транспортирования.

Надежность является комплексным свойством включающим в себя безотказность, ремонтопригодность и сохраняемость.

Безотказность – свойство системы или элемента непрерывно сохранять работоспособное состояние в течение некоторого времени или некоторой наработки.

Под наработкой понимают объем работы объекта (системы).

Сохраняемость – свойство системы непрерывно сохранять исправное, работоспособное состояние в течение всего времени хранения.

Ремонтопригодность – свойство системы или элемента, заключающееся в приспособлении к предупреждению, обнаружению и устранению причин возникновения отказов путем проведения ремонтов и технического обслуживания.

Объекты делятся на восстанавливаемые и невосстанавливаемые, в зависимости от того какое решение должно быть принято в случае отказа объекта.

Таким образом можно видеть, что понятие надежности является фундаментальным понятием, которое охватывает все стороны технической эксплуатации элементов и систем. В свою очередь надежность является составной частью более широкого понятия – эффективности.

Под эффективностью понимается свойство системы (элемента) выполнять заданные функции с требуемым качеством.

Средства повышения надежности ИС

В настоящее время, можно выделить несколько основных направлений работ по повышению надежности ИС и микропроцессорных систем.

  1. В первую очередь надежность ИС достигается за счет использования в ней высоконадежных элементов. Это достигается применением в устройствах ИС интегральных схем с высокой степенью интеграции (интенсивность отказов в ИС 10-6÷10-8 1/ч), использованием оптических элементов, а также внедрением новых типов печатных плат, контактных соединений, новых технологий ИС и т.д.
  2. Вторым направлением повышения надежности являются обеспечение оптимальных режимов работы элементов. Большое значение при этом имеет выбор коэффициента нагрузки по тепловому, механическому и радиационному режиму. Режимы зависят от конструкции устройств, от принятых технических решений, которые необходимо учитывать в процессе проектирования.
  3. Эффективным средством повышения надежности технических систем является введение избыточности или резервирования. Резервирование – применение дополнительных средств и возможностей с целью сохранения работоспособного состояния объекта при отказе одного или нескольких его элементов. В компьютерах, КС используются различные виды резервирования: структурное, временное, функциональное, информационное и программное.
  4. Эффективным методом повышения надежности является восстановление отказавших устройств. Здесь необходимо решить задачи, связанные с обнаружением отказа и с поиском отказавших элементов. Эффективность диагностирования повышается при использовании автоматизированных систем контроля.

Одним из средств повышения надежности является уменьшение времени восстановления. Время восстановления сокращается за счет обеспечения доступности всех узлов устройства для осмотра, т.е. определяется ремонтопригодностью разрабатываемых конструкций. В настоящее время широко используется модульно-блочный принцип построения устройств, при которых замена отказавших элементов осуществляется путем замены целых блоков. Снятые блоки уже вне изделия подлежат восстановлению на специальных стендах с использованием контрольно-измерительных приборов.

  1. Для повышения надежности компьютеров, КС, ИС необходимо обеспечить надежность программного обеспечения. Надежность программного обеспечения может быть увеличена за счет программного резервирования и использования средств автоматического контроля за правильностью выполнения вычислительного процесса. Наличие системы автоматического контроля способствует увеличению готовности и обслуживаемости ИС.
  2. Одним из перспективных путей достижения высоких показателей надежности ИС является их построение на базе использования самопроверяемых средств функционального диагностирования, создание самопроверяемых устройств и отказоустойчивых систем.

Из всех перечисленных особо можно отметить проблему контроля и диагностирования.

Анализ надежности элементов ИС показывает, что примерно 40-45% всех отказов возникает из-за ошибок на этапе проектирования, 20% от ошибок, допущенных при производстве, 30% от неправильной эксплуатации и 5-10% от естественного износа и старения.

Рассмотрим основные методы обеспечения надежности на этапах жизненного цикла ИС, которые могут быть включены в программы по обеспечению надежности.

Этап составления технического задания. На этом этапе необходимо собрать все имеющиеся данные об аналогичных или близких реализованных системах, а также данные об условиях применения технических систем и требованиях предъявляемых к ним (функциям, выполняемым рассматриваемой системой).

Этап эскизного проектирования. На этапе эскизного проектирования выбирается элементная база, структура и организация разрабатываемой системы. Проводится предварительный расчет надежности, принимается решение о резервировании наименее надежных подсистем, а также решения о способах и организации технического обслуживания (профилактических и ремонтных работ). Исследуется вопрос о целесообразности и способах реализации методов автоматического восстановления и отказоустойчивости в системе.

Этапы технического и рабочего проектирования. На этих этапах проверяются и уточняются ранее принятые технические решения. Основой для этого служат данные о надежности, полученные на основании расчетов и результаты экспериментов над моделями, макетами, опытными и промышленными образцами.

Разрабатывается программное обеспечение системы и проводится её проверка по тестам (путем имитационного моделирования на модели разрабатываемой ТС).

Этап производства. Здесь основным является технический контроль, охватывающий все стадии производственного процесса (входной контроль качества комплектующих изделий, соответствия тех. документациям печатных плат, блоков, устройств, схемных соединений и т.д.) и устранение недостатков в разработке системы.

Этап эксплуатации. На этом этапе важными являются контроль и обеспечение условий окружающей среды, квалификация и состав обслуживающего персонала, организация и проведение технического обслуживания и ремонтов в предусмотренном порядке.

В период эксплуатации продолжается сбор сведений об отказах аппаратуры и программного обеспечения. Эти сведения передаются разработчикам с целью устранения причин отказов и уточнения исходных данных для расчета надежности.

Контрольные вопросы и задания

  1. Дайте определение понятию «надежность».
  2. Перечислите основные задачи теории надежности.
  3. В каких состояниях могут находится элементы и системы ИС?
  4. Что такое отказ? Какой вид отказа преобладает в компьютерах и КС?
  5. Какие свойства включает в себя надежность?
  6. На какие виды делятся объекты ИС?
  7. Определите существующие пути повышения надежности элементов и устройств ИС.
  8. Назовите наиболее перспективный метод обеспечения надежности современных компьютеров?
  9. В каких состояниях могут находится элементы и устройства ИС?
  10. Какие свойства включает в себя надежность?

Литература:

  1. Иыуду К.А. Надежность, контроль и диагностика вычислительных машин и систем. М: Высшая школа, 1989-216с
  2. Расулова С.С. Надежность вычислительных машин и систем. Учебное пособие, ТашГТУ, 1995-60с
  3. Расулова С.С Надежность ЭВС. Конспект лекций. ТашГТУ, 2001-90с
  4. Расулова С.С. Обеспечение надежности и отказоустойчивости компьютерных систем. Проблемная лекция. ТашГТУ, 2004-27с
  5. Бройдо В.Л. Вычислительные системы, сети и телекоммуникации. 2 изд. Учебник. СПб.: «Питер», 2005. глава 20, -703 с.

Меню выбора лекций

Следующая лекция