中國聯通沈陽分公司 翟玉杰
在通信系統的運行維護中,我們經常會涉及到網絡設備的可靠性問題,尤其是電源設備的可靠性問題比較突出,如:某某基站開關電源總出問題,基站電源環境監控總有上傳告警等等,然而我們的運維力量總是有限的,基站分布畢竟較廣,如果基站電源設備的故障率高,就不可避免地發生顧東顧不了西、無法及時處理現象,移動網絡的信譽和經濟效益勢必受到嚴重影響。交換局電源設備對通信網絡的影響更是一刻千金。要保證全網通信的可靠性就必須在電源設備的設計、選購、驗收、維護中要緊緊圍繞可靠性這一關鍵課題,樹立可靠性是通信網絡生命線的思想,時刻牢記可靠性是質量的更高要求和綜合體現,為提高系統可靠性而做好各項專業工作。
一、減少設備的早期失效
瞬時失效率λ(t)是單位時間內設備的失效數占該時間段開始時正常工作設備總數的比值。它反映的是設備發生失效的相對速率即故障瞬時強度。一般電子設備的失效率λ(t)都遵循浴盆曲線規律,如圖1所示。

圖1一般電子設備的失效率λ(t)的曲線規律
圖1中的故障率λ(t)曲線按照失效率的變化情況明顯地分為三段:早期失效期、偶然失效期、損耗失效期。
早期失效發生在設備開始工作之初,失效率λ(t)隨使用時間的增加而迅速下降,主要對應于設備的設計和制造的質量缺陷。故障內容可分為:不能工作、工作不穩定、功能劣化及其它異常現象。具體表現如:開關電源模塊的交流輸入濾波電容耐壓不合格、機內元件安裝絕緣不良等等,造成開機瞬間損壞;交流接觸器線圈發熱、信號轉接電路板輔助電源、缺少液晶顯示屏的對比度低溫補償電路、熔絲狀態檢測電路設計不合理、溫度補償電路誤差偏大等等造成設備工作一段時間后出現才發生故障或者誤告警。解決設備早期失效率高的關鍵在于嚴格操作規程,加強對原材料、半成品以及外購件的檢驗和質量控制,進行工藝篩選和老化試驗,及時處理設備的質量反饋意見,找出產生故障的根本原因,及時解決。處理設備出現的故障時不能單純更換備件、簡單解決了事,應該分析故障原因,如果是元件質量、電路設計、軟件設計方面的問題,則必須重新確認其他設備是否也存在同樣的隱患,一般來說只要在一年內出現完全相同的故障就應該引起注意,認真分析故障原因。對所購買的設備進行出廠前檢驗也有助于保證設備的可靠性,廠驗可從產品設計、元件篩選、工藝檢測老化試驗等多方面進行審核、驗收,尤其對于小規模企業和新產品防止產生低級錯誤非常有效。我們在訂貨中合理地確定交貨期,是保證設備可靠性的基本條件。我們一般都希望到貨越快越好,但是從投料到產品出廠,不僅需要經過正常的生產周期以外,產品的最終質量檢驗和老化處理也是必不可少的,脫離實際地縮短交貨期,必然影響產品可靠性。遼寧聯通三期工程的一家開關電源供應商,承諾一個月內的交貨期,結果發生這批產品安裝后多數一上電就發生濾波電容爆炸,可想而知,這批產品出廠前肯定沒有充分進行上電老化實驗。
二、只有提高可靠性指標,才能夠減少電源設備的故障率和維護量
電源設備的早期問題經過處理和更換后失效率λ(t)逐漸下降,趨于穩定,進入偶然失效期階段。其特點是失效發生是隨機的,失效率近似為常數,是設備的可靠工作時期,相當于設備的最佳狀態期,所以把設備的使用壽命主要取決于這一階段的時間。我們假設設備失效率λ(t)在這一階段為常數λ,則。按照YD-T1051-2000《通信局(站)電源系統總技術要求》對高頻開關電源的平均失效間隔時間(MTBF)應≤5×104h的規定, ,MTBF=1×105小時 和MTBF=5×104小時的設備在不同時間段內的相對故障發生的概率計算如表1所示。

可見MTBF=1×105小時和MTBF=5×104小時的瞬時故障率相差一倍,即我們的維護量相差一倍,所以選購設備時應以MTBF為主要質量考核指標。
我們把設備的不失效頻率定義為:可靠度,它是某一時刻正常工作的設備數量與設備總數的比值因為在偶然失效期階段λ(t)=λ(常數),電源設備的壽命一般遵循指數分布,即:
我們把MTBF=1×105小時和MTBF=5×104小時的設備在不同時間段內的可靠度計算如表2所示。

從表2中不難看出設備的可靠性隨著運行時間的增加,呈指數降低。在設備運行的中后期,MTBF對設備的可靠性影響較大。無論對單臺設備還是整批設備的運行可靠性我們應該參考上表,越到設備運行后期越應加強設備維護檢查,做到及時發現故障,及時解決故障,采取人工方式盡量提高設備的可靠性。
損失失效期出現在產品的使用后期,其特點是失效率隨時間的增加而上升,耗損失效是由于設備中的某些元件已經老化,過度的磨損、疲勞、壽命衰竭,因而失效率上升。
三、選用優質產品,加強檢驗,提高設備的可靠性
電源設備與許多現代工業產品一樣,都是由成千上萬種元件、器件組成的,有的甚至還包括軟件,只要其中一個元件,一個環節出現問題,就可能影響整個設備工作,設備的使用條件和環境也千變萬化,在設備的工作過程中,能否保持設備原有的性能而不發生故障,即工作可靠、經久耐用,這就是對設備質量進一步要求而提出的可靠性問題。可靠性管理是不同于生產質量管理,我們往往只注意比較產品的性能、外觀、工藝質量等等,沒有明確提出可靠性的指標,這樣可能造成巨大的潛在損失。比如一臺名牌的電視機可以正常使用十年以上,而一臺普通雜牌電視機使用兩年以后就出現故障,修來修去,耗工費時,其成本不知不覺地加大。可靠性相差懸殊,其價格和成本也明顯不同,可靠性的提高必然伴隨著設備成本的提高,一些國際知名的企業都在不惜重金聘用可靠性工程師,在產品的可靠性改進中不斷增加投入,所以在市場競爭中,其產品的可靠性發揮著巨大威力。國內一些小的開關電源生產廠為了爭奪市場,價格非常誘人,服務態度更是以用戶為上帝,但是其產品卻經常發生通訊故障、誤報警、二次下電誤動作等等,甚至整批產品一上電就短路,這樣的可靠性實在令人擔心。
要提高設備的可靠性必須在開發、設計、生產、使用、維護各個階段,即產品壽命周期的全過程中進行控制和管理。初級設計階段,就要求保證設備在給定的時間內以預期的成功概率進行正常工作,采取冗余、減額、熱、穩定等設計方案。選用電阻、電容、二極管、VMOS功率管等電子元件時應考慮這些產品的性能在環境溫度、老化程度、電壓波動等各種外界條件影響下保持不變,選用滿足上述要求的型號,并且在耐壓、功率等參數的選擇上預留安全裕量。在元件質量檢測方面應加強可靠性老化篩選,在設備組裝完成后應結合產品質量檢驗進行環境、市電條件的老化篩選和抽樣壽命試驗。還必須根據設備現場的故障反饋,找出影響設備可靠性的原因和隱患,加以根本解決。設備的可靠性直接影響著企業的聲譽和經濟效益,體現著企業的技術、生產、質量、服務的綜合素質。所以應該選擇信譽高、規模大的企業產品。另外設備的可靠性不是在設備購買使用后才能得出結論,根據YD/T282-2000《通信設備可靠性通用試驗方法》,設備在出廠前可以根據訂貨合同進行可靠性驗證。可以選擇各種環境條件下的定時截尾實驗,進行失效率和無故障時間的驗收實驗。
四、優化電源系統的可靠性設計
組成設備的各單元的可靠性從功能上可以分為串聯系統、并聯系統、備用冗余系統和串并聯系統。
1.串聯系統的可靠性小于任一組件的可靠性
串聯系統比較常見,如開關電源的交流單元、整流模塊、直流單元就組成了串聯可靠性系統,如圖2所示。

系統總的可靠度為:
=R1(t)·R2(t)···Rn-1(t)·Rn(t)
由于串聯系統的任何一個部分的可靠度R(t)都小于100%,即小于1,所以串聯的部分越多,系統的總可靠度越小,所以減少系統串聯成部分可以提高設備的可靠性,即結構簡化就是可靠。

2.并聯冗余系統的可靠性大于任一組件的可靠性
當一種設備的可靠性指標可能無法滿足系統的要求時,我們可以采取并聯系統、備用冗余系統來增加系統的可靠性。
并聯系統即設備并機熱備份系統,其結構模型如圖3。
系統的總可靠度為:
=1-(1-R2)·(1-R2)···(1-Rn-1)·(1-Rn)
可見并聯系統越多,系統的總可靠度越大,而且統的總可靠度大于任何一個分系統的可靠度。
由于開關電源整流模塊、UPS的內部串聯組分較多,而且包含功率元件,如果采取單一工作方式,可靠性必然較低,我們采取N+1并聯工作方式就很好地解決了這個問題。開關電源整流模塊N+1并聯工作就是把以最佳工作電流并聯運行的整流模塊數量再加上一個相同的冗余模塊;UPS的N+1并聯工作一般是采取二臺相同UPS并聯工作,平時每臺UPS各負擔50%的負荷容量,總負荷容量一般小于一臺UPS的最大容量。
3.備用系統關鍵在于可靠切換
備用系統如圖4,由完全獨立的分系統并聯組成,平時只有一個分系統工作,其余不參加工作,處于備用狀態,當一個分系統發生故障時,需要用切換開關轉換到其它分系統上去,保證系統正常輸出。如交換局的交流保證供電系統由二路市電和固定式柴油發電機組成,平時我們只使用其中一路市電,當在用市電發生故障時,首先應切換到另一路市電,二路市電都發生故障時,則必須啟動自備柴油發電機供電。這種系統中的備用分系統的可靠性最高,但是由于轉換開關與備用設備是串聯系統,所以轉換開關直接影響系統的可靠性。如能解決故障檢測和切投轉換這個可靠性瓶頸,那么備用冗余系統的總可靠性將比并聯系統高很多。
轉換開關有自動和手動兩種工作方式,受各種外界因素的影響,我們往往采用手動切投轉換。因此設立可靠的故障報警裝置、實行先進運維管理方法對于提高系統的可靠性都是必不可少的。
五、提高設備的使用和環境可靠性
由于經濟和產品本身的原因,設備的可靠性無法滿足要求時,我們可以選擇并機系統如:UPS、整流模塊等;備用冗余系統的可靠性最高,但是必須保證可靠的切投轉換,除了上述的方法外,制定科學的運行維護規程、加強技術培訓、提高使用的可靠性;加強施工和配套設備管理,提高環境的可靠性都有助于提高設備的可靠性。
1.使用可靠性就是能夠保證設備使用壽命的合理的安裝和操作維護方法,杜絕操作失誤。例如基站空調的安裝方式和使用方法,基站空調的主要作用是夏季制冷,考慮冬季氣溫較低我們東北地區一般選用熱泵式空調,室外機如果安裝在向陽的地方,那么夏季制冷時室外機的散熱效果就不如安裝在北側的室外機,造成冷凝器溫度高,內壓大,勢必增加壓縮機的負荷,縮短空調的壽命。如果兩臺基站空調采取自動備份式工作,即:平時一臺空調工作,一臺空調備用,當基站室溫升高超過設定標準時,兩臺空調一起工作,既能分擔負荷,又能避免工作的空調發生故障時,造成基站室內溫度驟升。及時檢查維護設備也非常重要,常規項目如:檢查軸承、加潤滑油、定期更換易損件和材料等。
2.提高環境可靠性就是加強市電和環境管理,就是當市電的變化范圍超標或諧波超標時,必須配套交流凈化穩壓器。據有關資料顯示:當環境溫度升高10℃時,電子計算機的可靠性下降25%,因此保證設備環境溫度、濕度、潔凈度都在允許范圍內,是保證設備可靠性和壽命的必要條件。
可靠性貫穿于設備的設計、選購、驗收、維護等各個環節中,我們只有一絲不茍地重視每一個環節的可靠性,才能保證整個通訊系統的可靠性,才能建立通訊企業生存和長期發展的基礎。