Расчет основных показателей надежности. Количественные показатели надежности Номинальная интенсивность отказов

Аннотация: Рассматриваются два вида средств поддержания высокой доступности: обеспечение отказоустойчивости (нейтрализация отказов, живучесть) и обеспечение безопасного и быстрого восстановления после отказов (обслуживаемость).

Доступность

Основные понятия

Информационная система предоставляет своим пользователям определенный набор услуг (сервисов). Говорят, что обеспечен нужный уровень доступности этих сервисов, если следующие показатели находятся в заданных пределах:

  • Эффективность услуг . Эффективность услуги определяется в терминах максимального времени обслуживания запроса, количества поддерживаемых пользователей и т.п. Требуется, чтобы эффективность не опускалась ниже заранее установленного порога.
  • Время недоступности . Если эффективность информационной услуги не удовлетворяет наложенным ограничениям, услуга считается недоступной. Требуется, чтобы максимальная продолжительность периода недоступности и суммарное время недоступности за некоторый период (месяц, год) не превышали заранее заданных пределов.

В сущности, требуется, чтобы информационная система почти всегда работала с нужной эффективностью. Для некоторых критически важных систем (например, систем управления) время недоступности должно быть нулевым, без всяких "почти". В таком случае говорят о вероятности возникновения ситуации недоступности и требуют, чтобы эта вероятность не превышала заданной величины. Для решения данной задачи создавались и создаются специальные отказоустойчивые системы , стоимость которых, как правило, весьма высока.

К подавляющему большинству коммерческих систем предъявляются менее жесткие требования, однако современная деловая жизнь и здесь накладывает достаточно суровые ограничения, когда число обслуживаемых пользователей может измеряться тысячами, время ответа не должно превышать нескольких секунд, а время недоступности – нескольких часов в год.

Задачу обеспечения высокой доступности необходимо решать для современных конфигураций, построенных в технологии клиент/сервер. Это означает, что в защите нуждается вся цепочка – от пользователей (возможно, удаленных) до критически важных серверов (в том числе серверов безопасности).

Основные угрозы доступности были рассмотрены нами ранее.

В соответствии с ГОСТ 27.002, под отказом понимается событие, которое заключается в нарушении работоспособности изделия. В контексте данной работы изделие – это информационная система или ее компонент.

В простейшем случае можно считать, что отказы любого компонента составного изделия ведут к общему отказу , а распределение отказов во времени представляет собой простой пуассоновский поток событий. В таком случае вводят понятие интенсивности отказов и , которые связаны между собой соотношением

где – номер компонента,

интенсивность отказов ,

– .

Интенсивности отказов независимых компонентов складываются:

а среднее время наработки на отказ для составного изделия задается соотношением

Уже эти простейшие выкладки показывают, что если существует компонент, интенсивность отказов которого много больше, чем у остальных, то именно он определяет среднее время наработки на отказ всей информационной системы. Это является теоретическим обоснованием принципа первоочередного укрепления самого слабого звена .

Пуассоновская модель позволяет обосновать еще одно очень важное положение, состоящее в том, что эмпирический подход к построению систем высокой доступности не может быть реализован за приемлемое время. При традиционном цикле тестирования/отладки программной системы по оптимистическим оценкам каждое исправление ошибки приводит к экспоненциальному убыванию (примерно на половину десятичного порядка) интенсивности отказов . Отсюда следует, что для того, чтобы на опыте убедиться в достижении необходимого уровня доступности, независимо от применяемой технологии тестирования и отладки, придется потратить время, практически равное среднему времени наработки на отказ . Например, для достижения среднего времени наработки на отказ 10 5 часов потребуется более 10 4,5 часов, что составляет более трех лет. Значит, нужны иные методы построения систем высокой доступности , методы, эффективность которых доказана аналитически или практически за более чем пятьдесят лет развития вычислительной техники и программирования.

Пуассоновская модель применима в тех случаях, когда информационная система содержит одиночные точки отказа , то есть компоненты, выход которых из строя ведет к отказу всей системы. Для исследования систем с резервированием применяется иной формализм .

В соответствии с постановкой задачи будем считать, что существует количественная мера эффективности предоставляемых изделием информационных услуг. В таком случае вводятся понятия показателей эффективности отдельных элементов и эффективности функционирования всей сложной системы.

В качестве меры доступности можно принять вероятность приемлемости эффективности услуг, предоставляемых информационной системой, на всем протяжении рассматриваемого отрезка времени. Чем большим запасом эффективности располагает система, тем выше ее доступность.

При наличии избыточности в конфигурации системы вероятность того, что в рассматриваемый промежуток времени эффективность информационных сервисов не опустится ниже допустимого предела, зависит не только от вероятности отказа компонентов, но и от времени, в течение которого они остаются неработоспособными, поскольку при этом суммарная эффективность падает, и каждый следующий отказ может стать фатальным. Чтобы максимально увеличить доступность системы, необходимо минимизировать время неработоспособности каждого компонента. Кроме того, следует учитывать, что, вообще говоря, ремонтные работы могут потребовать понижения эффективности или даже временного отключения работоспособных компонентов; такого рода влияние также необходимо минимизировать.

Несколько терминологических замечаний. Обычно в литературе по теории надежности вместо доступности говорят о готовности (в том числе о высокой готовности ). Мы предпочли термин "доступность", чтобы подчеркнуть, что информационный сервис должен быть не просто "готов" сам по себе, но доступен для своих пользователей в условиях, когда ситуации недоступности могут вызываться причинами, на первый взгляд не имеющими прямого отношения к сервису (пример – отсутствие консультационного обслуживания).

Далее, вместо времени недоступности обычно говорят о коэффициенте готовности . Нам хотелось обратить внимание на два показателя – длительность однократного простоя и суммарную продолжительность простоев, поэтому мы предпочли термин " время недоступности " как более емкий.

Основы мер обеспечения высокой доступности

Основой мер повышения доступности является применение структурированного подхода, нашедшего воплощение в объектно-ориентированной методологии. Структуризация необходима по отношению ко всем аспектам и составным частям информационной системы – от архитектуры до административных баз данных, на всех этапах ее жизненного цикла – от инициации до выведения из эксплуатации. Структуризация , важная сама по себе, является одновременно необходимым условием практической реализуемости прочих мер повышения доступности. Только маленькие системы можно строить и эксплуатировать как угодно. У больших систем свои законы, которые, как мы уже указывали, программисты впервые осознали более 30 лет назад.

При разработке мер обеспечения высокой доступности

Надежность и живучесть бортовых вычислительных систем (БЦВС).

Надежность – это свойство изделий выполнять требуемые функции, сохраняя свои эксплуатационные показатели в заданных пределах в течение требуемого промежутка времени.

Живучесть - способность вычислительной системы выполнять свои основные функции, несмотря на полученные повреждения и вышедшие из строя элементы аппаратуры.

К надежности и живучести БУВМ и БЦВС предъявляются более жесткие требования, чем к надежности и живучести универсальных и персональных ЭВМ. При отказе БЦВМ нарушается работоспособность системы, и не выполняются поставленные задачи, что может привести к непоправимым последствиям, в том числе и к человеческим жертвам.

Повторное решение задачи после восстановления БЦВМ и БЦВС часто невозможно. Так, например, при сбое в работе БЦВС зенитно-ракетного комплекса будет уничтожен обороняемый объект. И, если вы в короткий срок восстановите работу системы, то разрушения не удастся вернуть так же, как и потерянные жизни. Сбой в авионике может привести к крушению самолета или самопроизвольному сходу ракет. В этом случае восстановление работы БЦВС так же не позволит исправить последствия ошибки.

Обеспечение высокой надежности и живучести БЦВС усложняется условиями работы аппаратуры на борту при больших колебаниях температуры, влажности, действии механических нагрузок и в условии высокой запыленности. Так же ограничение накладывается на габариты и массу аппаратуры. Это в основном относится к авиации, но так же большое значение имеет и для БЦВС других направлений.

Таким образом, проблема надежности и живучести БЦВМ и БЦВС имеет ряд особенностей, обусловленных своеобразием структуры БЦВМ и характером выполняемых ими функций.

Задача обеспечения в сложной системе высокой надежности и живучести может оказаться весьма дорогостоящей, сложной и требующей больших затрат времени, хотя затруднения с выпуском продукции и проблемы, возникающие во время эксплуатации, в связи с необходимостью обеспечения и поддержания требуемого уровня надежности, могут вызвать еще большие затруднения.

Например, при уменьшении надежности ракетной системы на 10% для обеспечения одной и той же степени поражения цели потребуется увеличение, по меньшей мере, на 10% фактического количества боевых ракет. Для этих ракет нужны дополнительные пусковые площадки, испытательная аппаратура, оборудование для пуска, обслуживающий персонал и вспомогательное оборудование, что связано с большими затратами денежных средств и времени.

Чем сложнее структура вычислительной системы, тем труднее обеспечить надежность и живучесть. Следует заметить, что большинство отказов, имевших место при пусках управляемых ракет и искусственных спутников в США, не было вызвано неисправностью какого-либо экзотического устройства, конструкция которого ускорила прогресс современного уровня техники. Напротив, многие отказы были вызваны неисправностью функциональных и конструктивных элементов ранее апробированной конструкции. Иногда элементы были изготовлены неправильно, а в других случаях имели место ошибки в работе программистов или обслуживающего персонала. Нет такой мелочи, которая была бы слишком ничтожной для того, чтобы не оказаться возможной причиной отказа. Высокие потенциальная и практически достижимая надежности в значительной степени являются результатом глубокого и пристального внимания к мелочам.

Проблема повышения надежности и отказоустойчивости свойственна не только БЦВС, но и коммерческой аппаратуре. Например, в кластере Google в среднем происходит отказ 1 компьютера в день (то есть за год аварии происходят примерно на 3% компьютеров). Конечно, за счет резервирования данных и кода эти сбои пользователям незаметны, но для программиста они являются большой проблемой.

Случай, когда вычислительная система или ее часть вышли из строя, и дальнейшая работа невозможна без ремонта - называется отказом.

Теория надежности различает 3 характерных признака отказов, которые могут быть присуще аппаратуре и проявляются без всякого воздействия со стороны людей.

1. Приработные отказы. Эти отказы происходят в течение раннего периода эксплуатации и в большинстве случаев вызваны недостатком технологии производства и дефектами при изготовлении элементов вычислительных систем. Эти отказы могут быть исключены процессом отбраковки, приработки и технологического тестирования готового изделия.

2. Дефектные или постепенные отказы. Это - отказы, возникающие из-за износа отдельных параметров или частей аппаратуры. Они характеризуются постепенным изменением параметров изделия или элементов. В начале эти отказы могут проявляется как временные сбои. Однако, по мере того, как износ возрастает, временные сбои превращаются в серьезные отказы аппаратуры. Эти отказы являются признаком старения БЦВС. Они частично могут быть устранены при правильной эксплуатации, хорошей профилактике и своевременной замене изношенных элементов аппаратуры.

3. Внезапные или катастрофические отказы. Эти отказы не могут быть устранены ни при отладке аппаратуры, ни правильным обслуживанием, ни профилактикой. Внезапные отказы возникают случайно, никто не может их предсказать, однако, они подчиняются определенным законам вероятности. Так что частота внезапных отказов в течение достаточно большого периода времени становится примерно постоянной. Это происходит в любой аппаратуре. Примером случайных отказов является обрыв или замыкание цепей. Такой отказ приводит, обычно, к тому, что на выходе устанавливается постоянно либо 0, либо 1. При возникновении случайных отказов необходимо заменять элементы, в которых они произошли. Для этого вычислительная система должна быть ремонтопригодной и позволять быстро проводить профилактические работы в полевых условиях.

В отдельную группу можно выделить перемежающиеся отказы или сбои. Под сбоем подразумевается кратковременное нарушение нормальной работы БЦВМ, при котором один или несколько ее элементов, при выполнении одной или нескольких смежных операции, дает случайный результат. После сбоя вычислительная система может нормально функционировать в течение длительного времени.

Причиной возникновения сбоев могут быть электромагнитные наводки, механические воздействия и др. Часто сбои не приводит к выходу из строя комплекса, а только изменяют ход работы программного обеспечения из-за неверного выполнения одной или нескольких команд, что может привести к катастрофическим последствиям. Отличие сбоев от отказов в том, что при обнаружении последствий от сбоя, необходимо восстанавливать не аппаратуру, а информацию, искаженную сбоем.

Рассказывая о сбоях, необходимо упомянуть о, так называемых, Шрёдинбагах. Шрёдинбаг – это ошибка, при которой вычислительная система долгое время функционирует нормально, однако, при определенных условиях, например, задании нестандартных параметров работы, возникает сбой. При анализе этого сбоя оказывается, что программное обеспечение вычислительной системы имеет принципиальную ошибку, из-за которой оно в принципе не должно было функционировать.

Шрёдинбаг может быть образован сложной комбинацией парных ошибок (когда ошибка в одном месте компенсируется ошибкой противоположного действия в другом месте). При определенном стечении обстоятельств баланс ошибок разрушается, что приводит к парализации работы.

Таким образом, для БЦВС характерно еще одно свойство, определяющее ее надежность – безошибочность или достоверность функционирования. Следовательно, надежность БЦВС – это совокупность безотказности, достоверности функционирования, живучести и ремонтопригодности.

В качестве параметров надежности применяют:

1. Интенсивность отказов –

2. Средняя наработка на отказ –

3. Вероятность безотказной работы в течение заданного времени – Р

4. Вероятность отказа – Q

Интенсивность отказов

Интенсивность отказов – это частота, с которой происходят отказы. Если аппаратура состоит из нескольких элементов, то ее интенсивность отказов равна сумме интенсивности отказов всех элементов, отказы которых приводят к неисправности оборудования.

Кривая интенсивности отказов, в зависимости от времени эксплуатации, изображена на рисунке ниже.

При начале эксплуатации (в момент времени t = 0) вводится в действие большое количество элементов. Эта совокупность элементов в начале может имеет большую интенсивность отказов, за счет дефектных образцов. Поскольку дефектные элементы отказывают один за другим, интенсивность отказов относительно быстро уменьшается в течение периода приработки и становится приблизительно постоянной к моменту нормальной эксплуатации (Т норм), когда дефектные элементы уже отказали, и были заменены на работоспособные.

Совокупность элементов, прошедших период приработки, имеет самый низкий уровень отказов, который сохраняется примерно постоянным до начала выхода из строя элементов, из-за износа (Т износа). С этого момента интенсивность отказов начинает возрастать.

Средняя наработка на отказ

Средняя наработка на отказ – это отношение общего отработанного времени к общему числу отказов. В течение периода нормальной эксплуатации, когда интенсивность отказов примерно постоянна, средняя наработка на отказ представляет собой величину обратную интенсивности отказов:

Вероятность безотказной работы.

Вероятностью безотказной работы называется вероятное или ожидаемое число устройств, которое будет безотказно функционировать в течение заданного периода времени:

Эта формула справедлива для всех устройств, которые прошли приработку, но не испытывают влияние износа. Следовательно, время t не может превышать периода нормальной эксплуатации устройств.

График, показывающий вероятность безотказной работы в зависимости от времени нормальной эксплуатации, приведен ниже:

Вероятность отказа.

Вероятность отказа – это величина обратная вероятности безотказной работы.

Номинальная интенсивность отказов.

Элементы аппаратуры проектируют так, чтобы они могла выдерживать определенные номинальные: напряжение, силу тока, температуру, вибрации, влажность и так далее. Когда аппаратура в процессе работы подвергается влиянию таких воздействий, наблюдается некая определенная интенсивность отказов. Ее называют номинальной интенсивностью отказов.

При увеличении общей рабочей нагрузи или некоторых частных нагрузок, или вредных воздействий окружающей среды сверх номинальных уровней, интенсивность отказов возрастает довольно резко по сравнению со своим номинальным значением. И наоборот, интенсивность отказов уменьшается, когда нагрузка становится ниже номинального уровня.

Например, если элемент должен работать при номинальном значении температуры 60 градусов, то путем понижения температуры, в результате применения принудительной системы охлаждения, можно снизить интенсивность отказов. Однако, если снижение температуры влечет за собой слишком большое увеличение количества элементов и веса аппаратуры, то более выгодным может оказаться выбор элементов с увеличенным номинальным значением рабочей температуры и применение их при температуре, ниже номинальной. В этом случае аппаратура может стать дешевле, а масса меньше (что принципиально при работе в летательном аппарате), чем при применении принудительной системы охлаждения.

Методы определения надежности БЦВС.

Когда проектируются и создаются новые изделия механическими, электрическими, химическими или другими измерениями, нельзя определить значение интенсивности отказов. Интенсивность отказов можно определить путем сбора статистических данных, полученных при испытании на надежность этого или аналогичных изделий.

Вероятность безотказной работы в течение любого момента времени испытаний выражается формулой:

Интенсивность отказов определяется формулой:

При измерении интенсивности отказов необходимо поддерживать постоянное число элементов, участвующих в испытании, путем замены отказавших элементов новыми.

Таким образом, для получения данных о количественных характеристиках надежности аппаратуры, необходимо изготовить специальный образец аппаратуры для испытаний на надежность. Испытания на надежность должны проводиться в условиях, соответствующих реальным условиям эксплуатации оборудования по внешним воздействиям, периодичности включения и изменения параметров питания.


Интенсивность отказов - отношение плотности распределения вероятности отказов к вероятности безотказной работы объекта:

где - плотность вероятности отказов и - вероятность безотказной работы .

Простыми словами, интенсивность отказов выражает шанс отказать в ближайший момент времени объекта (например, прибора), который уже проработал без отказов определённое время.

Статистически интенсивность отказов есть отношение числа отказавших образцов техники в единицу времени к среднему числу образцов, исправно работающих на интервале :

Где - среднее число исправно работающих образцов

на интервале .

Соотношение (1) для малых следует непосредственно из формулы вероятности безотказной работы (3)

и формулы плотности распределения безотказной работы (частоты отказов) (4)

На основе определения интенсивности отказов (1) имеет место равенство:

Интегрируя (5), получим:

Интенсивность отказов является основным показателем надёжности элементов сложных систем. Это объясняется следующими обстоятельствами:

  • надёжность многих элементов можно оценить одним числом, т.к. интенсивность отказа элементов - величина постоянная;
  • интенсивность отказов нетрудно получить экспериментально.

Опыт эксплуатации сложных систем показывает, что изменение интенсивности отказов большинства количества объектов описывается - образной кривой.

Время можно условно разделить на три характерных участка: 1. Период приработки. 2. Период нормальной эксплуатации. 3. Период старения объекта.

Период приработки объекта имеет повышенную интенсивность отказов, вызванную приработочными отказами, обусловленными дефектами производства, монтажа и наладки. Иногда с окончанием этого периода связывают гарантийное обслуживание объекта, когда устранение отказов производится изготовителем. В период нормальной эксплуатации интенсивность отказов практически остаётся постоянной, при этом отказы носят слуайный характер и появляются внезапно, прежде всего из-за случайных изменений нагрузки, несоблюдения условий эксплуатации, неблагоприятных внешних факторов и т.п. Именно этот период соответствует основному времени эксплуатации объекта. Возрастание интенсивности отказов относится к периоду старения объекта и вызвано увеличением числа отказов из-за износа, старения и других причин, связанных с длительной эксплуатацией. То есть вероятность отказа элемента, дожившего для момента в некотором последующем промежутке времени зависит от значений только на этом промежутке, а следовательно интенсивность отказов - локальный показатель надёжности элемента на данном промежутке времени.

На стадии прикидочного и ориентировочного расчетов электротехнических устройств рассчитывают основные показатели надежности.

Основными качественными показателями надежности является:

Интенсивность отказов

Средняя наработка до отказа.

Интенсивность отказов l(t) - это число отказавшихn(t) элементов устройства в единицу времени, отнесенное к среднему общему числу элементов N(t) , работоспособных к моменту времени Δ t [ 9]

l (t)=n(t)/(Nt*Δt) ,

где Δt - заданный отрезок времени.

Например : 1000 элементов устройства работали 500 часов. За это время отказали 2 элемента. Отсюда,

l (t)=n(t)/(Nt*Δt)=2/(1000*500)=4*10 -6 1/ч, то есть за 1 час может отказать 4-е элемента из миллиона.

Показатели интенсивности отказов l(t) элементов являются справочными данными, в приложении Г приводятся интенсивности отказов l(t) для элементов, часто применяемых в схемах.

Электротехническое устройство состоит из большого числа комплектующих элементов, поэтому определяют эксплуатационную интенсивность отказов l(t) всего устройства как сумму интенсивностей отказов всех элементов, по формуле [ 11]

где k – поправочный коэффициент, учитывающий относительное изменение средней интенсивности отказов элементов в зависимости от назначения устройства;

m – общее количество групп элементов;

n і - количество элементов в і- й группе с одинаковой интенсивностью отказов l і (t) .

Вероятность безотказной работы P(t) представляет собой вероятность того, что в пределах указанного периода времени t , отказ устройства не возникнет. Этот показатель определяется отношение числа устройств, безотказно проработавших до момента времени t к общему числу устройств, работоспособных в начальный момент.



Например, вероятность безотказной работы P(t) =0,9 представляет собой вероятность того, что в пределах указанного периода времени t= 500час, отказ произойдет в (10-9=1) одном устройстве из десяти, и из 10 устройств 9 будут работать без отказов.

Вероятность безотказной работы P(t) =0,8 представляет собой вероятность того, что в пределах указанного периода времени t=1000час, отказ произойдет двух 2 устройствах из ста, и из 100 устройств 80 устройств будут работать без отказов.

Вероятность безотказной работы P(t) =0,975 представляет собой вероятность того, что в пределах указанного периода времени t=2500час, отказ произойдет в 1000-975=25 устройствах из тысячи, а 975 устройств будут работать без отказов.

Количественно надёжность устройства оценивается как вероятность P(t) события, заключающегося в том, что устройство в течение времени от 0 до t будет безотказно выполнять свои функции. Величина P(t) вероятность безотказной (рассчитанное значение Р(t) не должно быть менее 0,85) работы определяется выражением

где t – время работы системы, ч (t выбирается из ряда: 1000, 2000, 4000, 8000, 10000 ч.);

λ – интенсивность отказов устройства, 1 / ч;

Т 0 – наработка на отказ, ч.

Расчёт надёжности заключается в нахождении общей интенсивности отказов λ устройства и наработки на отказ:

Время восстановления устройства при отказе включает в себя время поиска неисправного элемента, время его замены или ремонта и время проверки работоспособности устройства.

Среднее время восстановления Т в электротехнических устройств может выбираться из ряда 1, 2, 4, 6, 8, 10, 12, 18, 24, 36, 48 час. Меньшие значения соответствуют устройствам с высокой ремонтнотпригодностью. Среднее время восстановления Т в можно уменьшить используя встроенный контроль или самодиагностику, модульное исполнение составных частей, доступный монтаж.

Значение коэффициента готовности определяется по формуле

где Т 0 – наработка на отказ, ч.

Т в – среднее время восстановления, ч.

Надёжность элементов в значительной степени зависит от их электрических и температурных режимов работы. Для повышения надёжности элементы необходимо использовать в облегченных режимах, определяемых коэффициентами нагрузки.

Коэффициент нагрузки – это отношение расчетного параметра элемента в рабочем режиме к его максимально допустимому значению. Коэффициенты нагрузки различных элементов могут сильно отличаться.

При расчёте надежности устройства все элементы системы разбиваются на группы элементов одного типа и одинаковыми коэффициентами нагрузки К н.

Интенсивность отказа і- го элемента определяется по формуле

(10.3)

где К н і - коэффициент нагрузки, рассчитывают в картах рабочих режимов, либо задают полагая, что элемент работает в нормальных режимах, в приложении Г приводятся значения коэффициентов нагрузки элементов;

λ 0і – базовая интенсивность отказов і - го элемента приводится в приложении Г.

Часто, для расчета надежности, используются данные интенсивности отказа λ 0і аналогов элементов.

Пример расчета надежности устройства состоящего из покупного комплекса BT-85W импортного производства и разрабатываемого на элементной базе серийного производства источника питания.

Интенсивности отказов изделий импортного производства определяют, как обратную величину времени эксплуатации, (иногда берут гарантийный срок обслуживания изделия) из расчета эксплуатации в одни сутки определенного числа часов.

Гарантийный срок службы покупного импортного изделия 5 лет, изделие будет работать 14,24часа в сутки:

Т=14,24час х 365дней х 5 лет = 25981 часов – время наработки на отказ.

10 -6 1/час - интенсивность отказов.

Расчёты и исходные данные выполняют на ЭВМ с использованием программ Excel и приводятся в таблицах 10.1 и 10.2. Пример расчета приводится в таблице 10.1.

Таблица 10.1 – Расчет надежности системы

Наименование и тип элемента или аналога Коэффи-циент, нагрузки, К н i
λ i *10 -6 , 1 / ч λ i *К н i *10 -6 1 / ч Кол-во n i , n і *λ i *10 -6 , 1 / ч
Комплекс BT-85W 1,00 38,4897 38,4897 38,4897
Конденсатор К53 0,60 0,0200 0,0120 0,0960
Розетка (вилка)СНП268 0,60 0,0500 0,0300 0,0900
Микросхема TRS 0,50 0,0460 0,0230 0,0230
Резистор ОМЛТ 0,60 0,0200 0,0120 0,0120
Вставка плавкая ВП1-1 0,30 0,1040 0,0312 0,0312
Стабилитрон 12В 0,50 0,4050 0,2500 0,4050
Индикатор 3Л341Г 0,20 0,3375 0,0675 0,0675
Кнопочный выключатель 0,30 0,0100 0, 0030 0,0030
Фотодиод 0,50 0,0172 0,0086 0,0086
Соединение сваркой 0,40 0,0001 0,0004 0,0004
Провод, м 0,20 0,0100 0,0020 0,2 0,0004
Соединение пайкой 0,50 0,0030 0,0015 0,0045
l всего устройства å=39,2313

Определяем общую интенсивность отказов устройства

Тогда наработка на отказ согласно выражению (10.2) и соответственно равна

Для определения вероятности безотказной работы за определенный промежуток времени построим график зависимости:

Таблица 10.2 - Расчет вероятности безотказной работы

t(час)
P(t) 0,97 0,9 0,8 0,55 0,74 0,65 0,52 0,4 0,34

График зависимости вероятности безотказной работы от времени работы показан на рисунке 10.1.

Рисунок 10.1 – Вероятность безотказной работы от времени работы

Для устройства, как правило задают вероятность безотказной работы от 0,82 до 0,95. По графику рисунка 10.1 можем определить для разработанного устройства при заданной вероятности безотказной работы Р(t)=0,82, время наработки на отказ Т о =5000час.

Расчет выполнен для случая, когда отказ любого элемента приводит к отказу всей системы в целом, такое соединение элементов называется логически последовательным или основным. Надежность можно повысить резервированием.

Например . Технология элементов обеспечивает среднюю интенсивность отказов элементарных деталей l i =1*10 -5 1/ч . При использовании в устройстве N=1*10 4 элементарных деталей суммарная интенсивность отказов lо= N*li=10 -1 1/ч . Тогда среднее время безотказной работы устройства To=1/lо=10 ч. Если выполнить устройство на основе 4-х параллельно включенных одинаковых устройств, то среднее время безотказной работы увеличится в N/4=2500 раз и составит 25000 ч. или 34 месяца или около 3 лет.

Формулы позволяют выполнить расчет надежности устройства, если известны исходные данные - состав устройства, режим и условия его работы, интенсивности отказов его элементов.

“ Обеспечение высокой доступности ”

Цель работы:

Изучить два вида средств поддержания высокой доступнос­ти: обеспечение отказоустойчивости (нейтрализация отказов, живу­честь) и обеспечение безопасного и быстрого восстановления после отказов (обслуживаемость). Получить навык работы по обеспечению высокой доступности.

1. Теоретическое введение

1.1. Доступность

1.11. Основные понятия

Информационная система предоставляет своим пользователям определенный набор услуг (сервисов). Говорят, что обеспечен нужный уровень доступности этих сервисов, если следующие показатели находятся в заданных пределах:

Эффективность услуг. Эффективность услуги определяется в терминах максимального времени обслуживания запроса, количества поддерживаемых пользователей и т.п. Требуется, чтобы эффективность не опускалась ниже заранее установленного порога.

Время недоступности. Если эффективность информационной услуги не удовлетворяет наложенным ограничениям, услуга считается недоступной. Требуется, чтобы максимальная продолжительность периода недоступности и суммарное время недоступности за некоторой период (месяц, год) не превышали заранее заданных пределов.

В сущности, требуется, чтобы информационная система почти всегда работала с нужной эффективностью. Для некоторых критически важных систем (например, систем управления) время недоступности должно быть нулевым, без всяких "почти". В таком случае говорят о вероятности возникновения ситуации недоступности и требуют, чтобы эта вероятность не превышала заданной величины. Для решения данной задачи создавались и создаются специальные отказоустойчивые системы, стоимость которых, как правило, весьма высока.

К подавляющему большинству коммерческих систем предъявляются менее жесткие требования, однако современная деловая жизнь и здесь накладывает достаточно суровые ограничения, когда число обслуживаемых пользователей может измеряться тысячами, время ответа не должно превышать нескольких секунд, а время недоступности - нескольких часов в год.

Задачу обеспечения высокой доступности необходимо решать для современных конфигураций, построенных в технологии клиент/сервер. Это означает, что в защите нуждается вся цепочка - от пользователей (возможно, удаленных) до критически важных серверов (в том числе серверов безопасности).

Основные угрозы доступности были рассмотрены нами ранее.

В соответствии с ГОСТ 27.002, под отказом понимается событие, которое заключается в нарушении работоспособности изделия. В контексте данной работы изделие - это информационная система или ее компонент.

В простейшем случае можно считать, что отказы любого компонента составного изделия ведут к общему отказу, а распределение отказов во времени представляет собой простой пуассоновский поток событий. В таком случае вводят понятие интенсивности отказов и среднего времени наработки на отказ, которые связаны между собой соотношением

i - номер компонента,

Интенсивность отказов,

Среднее время наработки на отказ.

Интенсивности отказов независимых компонентов складываются:

а среднее время наработки на отказ для составного изделия задается соотношением

Уже эти простейшие выкладки показывают, что если существует компонент, интенсивность отказов которого много больше, чем у остальных, то именно он определяет среднее время наработки на отказ всей информационной системы. Это является теоретическим обоснованием принципа первоочередного укрепления самого слабого звена.

Пуассоновская модель позволяет обосновать еще одно очень важное положение, состоящее в том, что эмпирический подход к построению систем высокой доступности не может быть реализован за приемлемое время. При традиционном цикле тестирования/отладки программной системы по оптимистическим оценкам каждое исправление ошибки приводит к экспоненциальному убыванию (примерно на половину десятичного порядка) интенсивности отказов. Отсюда следует, что для того, чтобы на опыте убедиться в достижении необходимого уровня доступности, независимо от применяемой технологии тестирования и отладки, придется потратить время, практически равное среднему времени наработки на отказ. Например, для достижения среднего времени наработки на отказ 105 часов потребуется более 104,5 часов, что составляет более трех лет. Значит, нужны иные методы построения систем высокой доступности, методы, эффективность которых доказана аналитически или практически за более чем пятьдесят лет развития вычислительной техники и программирования.

Пуассоновская модель применима в тех случаях, когда информационная система содержит одиночные точки отказа, то есть компоненты, выход которых из строя ведет к отказу всей системы. Для исследования систем с резервированием применяется иной формализм.

В соответствии с постановкой задачи будем считать, что существует количественная мера эффективности предоставляемых изделием информационных услуг. В таком случае вводятся понятия показателей эффективности отдельных элементов и эффективности функционирования всей сложной системы.

В качестве меры доступности можно принять вероятность приемлемости эффективности услуг, предоставляемых информационной системой, на всем протяжении рассматриваемого отрезка времени. Чем большим запасом эффективности располагает наличии избыточности в конфигурации системы вероятность того, что в система, тем выше ее доступность.

При рассматриваемый промежуток времени эффективность информационных сервисов не опустится ниже допустимого предела, зависит не только от вероятности отказа компонентов, но и от времени, в течение которого они остаются неработоспособными, поскольку при этом суммарная эффективность падает, и каждый следующий отказ может стать фатальным. Чтобы максимально увеличить доступность системы, необходимо минимизировать время неработоспособности каждого компонента. Кроме того, следует учитывать, что, вообще говоря, ремонтные работы могут потребовать понижения эффективности или даже временного отключения работоспособных компонентов; такого рода влияние также необходимо минимизировать.

Несколько терминологических замечаний. Обычно в литературе по теории надежности вместо доступности говорят о готовности (в том числе о высокой готовности). Мы предпочли термин "доступность", чтобы подчеркнуть, что информационный сервис должен быть не просто "готов" сам по себе, но доступен для своих пользователей в условиях, когда ситуации недоступности могут вызываться причинами, на первый взгляд не имеющими прямого отношения к сервису (пример - отсутствие консультационного обслуживания).

Далее, вместо времени недоступности обычно говорят о коэффициенте готовности . Нам хотелось обратить внимание на два показателя - длительность однократного простоя и суммарную продолжительность простоев, поэтому мы предпочли термин "время недоступности" как более емкий.

Публикации по теме