硬體可靠性
出自 MBA智库百科(https://wiki.mbalib.com/)
硬體可靠性(hardware reliability)
目錄 |
什麼是硬體可靠性[1]
硬體可靠性是指在給定的操作環境與條件下,硬體在一段規定的時間內正確執行要求功能的能力。
硬體可靠性設計[2]
一般來說,系統總是由多個子系統組成,而子系統又是由更小的子系統組成,直到細分到電阻器、電容器、電感、晶體管、集成電路、機械零件等小元件的複雜組合,其中任何一個元件發生故障都會成為系統出現故障的原因。因此,硬體可靠性設計在保證元器件可靠性的基礎上,既要考慮單一控制單元的可靠性設計,更要考慮整個控制系統的可靠性設計。
1.影響硬體可靠性的因素
(1)元件失效。元件失效有三種:一是元件本身的缺陷,如硅裂、漏氣等;二是加工過程、環境條件的變化加速了元件、組件的失效;三是工藝問題,如焊接不牢、篩選不嚴等。
(2)設計不當。在電腦控制系統中,許多元器件發生的故障並不是元件本身的問題,而是系統設計不合理或元器件使用不當所造成。在設計過程中,如何正確使用各種型號的元器件或集成電路,是提高硬體可靠性不可忽視的重要因素。
1)電氣性能:元器件的電氣性能是指元器件所能承受的電壓、電流、電容、功率等的能力,在使用時要註意元器件的電氣性能,不能超限使用。
2)環境條件:電腦控制系統的工作環境有時相當惡劣,由於環境因素的影響,不少系統的實驗室試驗情況雖然良好,但安裝到現場並長期運行就頻出故障。其原因是多方面的,包括溫度、干擾、電源、現場空氣等對硬體的影響。因此,設計系統時,應考慮環境條件對硬體參數的影響,元件設備須經老化試驗處理。
3)組裝工藝:在硬體設計中,組裝工藝直接影響硬體系統的可靠性。由於工藝原因引起的故障很難定位排除,一個焊點的虛焊或似接非接很可能導致整個系統在工作過程中不時地出現工作不正常現象。另外,設計印製電路板時應考慮元器件的佈局、引線的走向、引線的分類排序等。
2.提高硬體可靠性的一般方法
在電腦控制系統的整體設計中,如何提高系統硬體的可靠性是整個系統設計的關鍵,系統硬體設計時常需採用必要的可靠性措施:
(1)電路設計。據統計,影響電腦控制系統可靠性的因素約45%來自系統設計。為了保證系統的可靠性,在對其電路設計時應考慮最極端的情況。
各種電子元器件的特性不可能是一個恆定值,總是在其額定(典型)參數的某個範圍內;同時,電源、電壓也有一個波動範圍。最壞的設計方法是考慮所有元件的公差,並取其最不利的數值核算電路每一個規定的特性。如果這一組參數值能保證電路正常工作,那麼在公差範圍內的其他所有元件值都能使電路可靠地工作。
在設計應用系統電路時,還要根據元器件的失效特征及其使用場所採取相應的措施,對容易產生短路的部件以串聯方式複製,對容易產生開路的部分以並聯方式複製。
(2)元器件選擇。在確定元器件參數之後,還要確定元器件的型號,這主要取決於電路所允許的公差範圍。由於製造工藝所限,有些元器件參數的公差範圍可能較大,如電容器電容量等。另外,元件或器件的額定工作條件包括多個方面(如電流、電壓、頻率、機械參數以及環境溫度等),設計時要考慮參數裕量,併在運行時儘量保證接近元器件的設計工作溫度。
(3)結構設計。結構可靠性設計是硬體可靠性設計的最後階段。結構設計時,首先應註意元器件及部件的安裝方式,其次是控制系統工作環境的條件(如通風、除濕、防塵等)。
(4)雜訊抑制。雜訊對模擬電路的影響會直接影響系統精度,雜訊對數字電路也會造成誤動作。因此,在工程設計中必須採用雜訊抑制和屏蔽措施。對於模擬應用系統,可在電源端增加一些低通濾波電路來抑制由電源引入的干擾;對於數字系統,通常採用濾波器和接地系統;同時,在整體結構佈局時應註意元器件的位置和信號線的走向。對於電磁干擾、電場干擾可採用電磁屏蔽、靜電屏蔽來隔離雜訊,也可採用接地、去耦電容等措施來減少雜訊的影響。
(5)冗餘設計。硬體冗餘設計可以在元件級、子系統級或系統級上進行,必然增加硬體和成本。因此,設計時應仔細權衡採用硬體冗餘的利弊關係。在電腦控制系統中,主要採用控制單元冗餘和控制系統冗餘來提高系統硬體可靠性。
控制與介面單元是指能獨立完成某些測控功能的功能模塊,其可靠性設計主要包括微處理器系統的冗餘設計、輸入輸出通道干擾的抑制、電源系統干擾的抑制、控制單元運行狀態的監視等。
1.I/O通道干擾的抑制
模擬量輸入通道常態干擾的頻率通常高於被測信號的頻率,因此可考慮採用濾波網路對模擬量輸入信號進行濾波。可採用各種形式的金屬屏蔽層做好信號傳送線路的屏蔽工作,將信號線與外界電磁場有效地隔離開來;在系統既有模擬電路又有數字電路時,數字地與模擬地要分開,最後只在一點相連,以防相互干擾。I/O通道一般應採用光電耦合器進行電氣隔離,既可避免構成地環路,還可有效地抑制雜訊。另外,在輸入輸出通道上應採用一定的過壓保護電路。
2.電源系統干擾的抑制
同一電源網路上有較多大功率設備時,在控制單元與供電電源之間可加入三相隔離變壓器,以防止電網干擾侵入控制系統。在整機的電源線入口處,可通過增加電源濾波器來防止其他電子設備與本系統之間產生相互干擾。在機內獨立的印刷板上應安裝小型電源濾波器,以防止板與板之間的相互干擾。
由於開關電源具有較強的抗工頻電壓波動和頻率波動能力,同時能隔離從電源線進入的傳導干擾,適當場合可選用開關電源。必要時,系統輸入輸出通道和其他設備可考慮採用獨立的供電電源,實行電源分組供電。另外,邏輯電路板上的直流電源線和接地線要註意合理佈線。
3.控制單元運行狀態監視
可使用看門狗定時器(WDT)監視控制單元的運行狀態。WDT的輸出直接連到CPU的中斷請求端或控制單元的複位端,WDT的每次“定時到”溢出脈衝信號均能引起CPU的中斷或複位。WDT受CPU控制,可對其重新設置時間常數或刷新。
定時器重新開始計時,只要程式正常運行就不會產生定時中斷或系統複位。一旦程式執行出錯或發生程式亂飛、死機現象,看門狗定時器就會產生溢出脈衝信號,引起定時中斷或複位,從而使控制單元重新啟動或進入中斷服務程式進行糾錯處理。
4.控制單元的掉電保護
對付電網瞬間斷電或電壓突然下降的有效方法就是掉電保護,對電腦測控系統可外加不間斷電源(UPS),對測控系統中的控制單元可增加掉電保護電路,並慎重設計。掉電信號由硬體電路檢測,加到控制單元CPU的外部中斷輸入端。軟體中斷將掉電中斷規定為高級中斷,使控制單元CPU能及時對掉電做出反應。在掉電中斷子程式中,首先進行現場保護,保存當時重要的狀態參數。當電源恢復正常時,CPU重新複位,恢復現場並繼續未完成的工作。
5.控制單元冗餘設計
目前常用的控制單元冗餘設計包括熱備份並聯冗餘和冷備份並聯冗餘,兩者都是以增加成倍的硬體投資來換取系統硬體的可靠性。
(1)熱備份並聯冗餘是將若幹功能相同的控制單元並聯運行,同步執行相同的處理程式,當並聯繫統中至少有一個控制單元工作正常時,整個系統即維持正常工作。
為了提高控制單元的可靠性和經濟性,常採用雙機熱備份並聯方式。對受控系統而言,雙機熱備份並聯方式只是其中一個控制單元完成測控任務,另一個控制單元處於並行工作的待命狀態。但兩個控制單元同步執行同樣的程式,一旦自檢系統發現主控單元有故障時,則待命狀態的備控單元自動切換上去,代替主控單元使系統繼續正常運行。在設計雙機熱備份系統時,要解決以下兩個主要問題:
1)雙機同步。雙機同步一般是以事件作為同步令牌,其中事件可由設計者定義。如系統的工作過程為:輸入介面採集由感測器送來的數據,在CPU內將採集到的數據和設定值進行比較、處理,最後得到本次的控制量輸出。那麼,事件可劃分為數據採集和數據處理兩個事件。
當應用系統啟動時,兩機同時執行第一事件,即採集狀態數據。當第一事件完成後,再將兩結果進行比較,如果相同則繼續第二事件;若有錯誤,則主控單元自動切換,用備控單元代替主控單元。只要主控單元工作正常,則備控單元一直處於待命狀態。
當事件進行數據處理時,若超出精度範圍,則認為其中一個數據可能有錯誤,這時可以讓雙機重新轉到本事件的首地址再執行一遍。若仍有差錯,則再轉到故障檢測程式。這種軟體回捲方法可以消除某些偶然性因素的影響。
2)故障檢測。可以利用兩機各自的自檢程式分別進行自檢,找出發生故障的控制單元。如果故障機是主控單元,則可進行自動切換,使程式繼續執行下一個事件。為了能及時切換,可以根據任務的特點多設置一些事件,使得雙機同步校驗次數增多。
所謂切換是指通過輸入輸出介面相互交換雙機狀態,一旦某控制單元出錯,另一控制單元就可及時知道。當備控單元發現主控單元有故障時,就可以發出控制信號,使主控單元自動退出控制,備控單元代替主控單元使系統繼續正常運行。
(2)冷備份並聯冗餘設計中,備份的控制單元平時不加電工作,只在發現主控單元出故障時才用其代替主控單元。冷備份的控制單元在硬體結構、軟體實現上都與主控單元完全一樣,各種聯機設備都安置到位,處於接通電源即可投入正常工作的冷備份狀態。
冷備份並聯繫統中的冷熱切換可以用人工操作轉換,也可以自動切換。在設計成自動切換時,主控單元必須設置各路(或關鍵幾路)報警信號。若發現超限現象,則及時輸出切換信號去觸發冷備份系統的電源觸點,使備份單元投入正常運行。
軟體與硬體可靠性的區別[3]
軟體可靠性與硬體可靠性之間主要存在以下區別:
①最明顯的是硬體有老化損耗現象,硬體失效是物理故障,是器件物理變化的必然結果,有浴盆曲線現象;軟體不發生變化,沒有磨損現象,有陳舊落後的問題,沒有浴盆曲線現象。
②硬體可靠性的決定因素是時間,受設計、生產、運用所有過程的影響;軟體可靠性的決定因素是與輸入數據有關的軟體差錯,是輸入數據和程式內部狀態的函數,更多地取決於人。
③硬體的糾錯維護可通過修複或更換失效的系統重新恢復功能,軟體只能重新設計。
④對硬體可採用預防性維護技術預防故障,採用斷開失效部件的辦法診斷故障;而對軟體則不能採用這些技術。
⑤基於預估計可靠性測試和可靠性的逐步提升等技術對軟體和硬體有不同的意義。
⑥為提高硬體可靠性可採用冗餘技術,而同一軟體的冗餘不能提高可靠性。
⑦硬體可靠性檢驗方法已建立,並已標準化且有一套完整的理論;而軟體可靠性驗證方法仍未建立,更沒有完整的理論體系。
⑧硬體可靠性已有成熟的產品市場,而軟體產品市場還很新。
⑨軟體錯誤是永恆的,可重現的,一些瞬間的硬體錯誤可能會被誤認為是軟體錯誤。
總之,軟體可靠性比硬體可靠性更難保證。實際上,即使是美國宇航局的軟體系統,其可靠性仍比硬體可靠性低一個數量級。