上海鐵通公司 田文
在目前的通信運營網絡中,SDH技術受到了廣泛的應用。就鐵通上海分公司目前大規模的城域傳送網建設來看,四個跨區大環及其用于擴容功能的延伸環都采用華為公司的Metro3000和Metro1000設備,滿足上海鐵通公司的傳輸業務需求。
由于傳輸業務中斷故障對電信運營商的影響是很大的,因此要求盡快地給予定位和排除。現結合鐵通上海分公司使用的華為傳輸設備的故障判斷處理情況進行闡述。
一﹑業務中斷的原因
業務中斷的可能原因是多方面的,如外部的供電電源故障、交換機故障、光纖電纜故障,人為的誤操作、配置錯誤以及設備本身的故障等。設備問題引起的業務中斷,有些可能是由于指針調整太大引起的,有些可能是誤碼過大引起的,保護倒換失效也會導致的業務中斷。
二﹑處理業務中斷故障的一般過程與方法
各種類型的業務中斷故障,除瞬斷問題處理比較特殊和復雜外,其它類型故障都可以按一般的業務中斷故障的處理方法進行處理。對于業務瞬斷問題,只能通過長期對全網告警、性能數據的仔細分析,通過對設備、單板運行狀態的深入查詢,并通過替換法等多種方法,逐一排除電源低壓問題、光纖電纜問題、接地不良問題、單板軟硬件穩定性等問題,最終將故障排除。
處理一般業務中斷故障的過程和方法和非中斷故障的處理方法相仿,處理原則為1.先外部,后內部,也就是先考慮傳輸設備以外的因素,比如光纖,電源等;2.先單站,后單板;3.先線路,后支路;4.先高階,后低階。
具體的處理過程和方法如下:
1.排除外部設備故障
先通過自環法、替換法、告警分析法等方法排除外部設備故障的可能性。
2.定位故障在單站
然后,在通過告警性能事件分析法一時無法確定故障點的情況下,應用逐段環回法迅速將故障定位到單站;故障定位到站點后,再利用狀態、配置數據檢查、分析法排除掉人為誤操作、配置錯誤、設備狀態異常等情況,最后通過更換單板、重下配置、更改配置、復位、掉電重啟等方法將故障排除。
我們知道,通過逐站自環的方法,可以將故障定位到單站或兩站之間的光板上。下面講述的是通過自環法將故障定位到單站或兩個站間的光板之后,如何再進一步排除業務中斷故障。
3.故障定位到兩站之間的光板后的業務中斷故障處理
第一步:分析故障現象,并根據各種單板處理信號的特性,判斷可能是哪個站的哪塊板有問題。如,對于SS31T16板,該板一片芯片處理的是連續四個奇數或偶數個VC4通道信號;而SS31R16板一片芯片處理的是四個連續的VC4通道。若此時故障現象是四個連續的偶數個VC4通道有問題,則可以判斷是T16的問題。
第二步:若通過分析法無法定位故障的單板,則只能帶上備用光板,到現場通過對光口硬自環的方法判斷出問題的光板了。
應該注意的是,對于復用段環,硬自環前,應首先鎖定保護倒換或停止保護倒換協議。對于軟內自環業務正常的光板,若再使用光纖硬自環(注意光功率不要過載),業務也正常,則可判斷該板沒有問題,問題出在對端光板。應到對端站點,換掉有問題的光板,排除故障;若再硬自環后,業務不通,則說明該板有問題,可通過更換該板排除故障。
4.故障定位到單站后的業務中斷故障處理
a.若能通過告警性能事件分析法迅速定位出故障的單板,則通過更換單板排除故障。
b.若一時無法定位出故障位置,則按以下步驟進行。
第一步:檢查有無誤操作。如支路板、線路板通道有無軟自環或硬自環的現象等。
第二步:檢查一些基本配置是否正確。如對于通道環,應檢查邏輯系統屬性以及支路板通道屬性配置是否正確;對于復用段,應檢查邏輯系統屬性以及節點參數配置是否正確;檢查時隙配置、母板類型配置、業務裝載配置是否正常等。這一步在改動了網元數據的場合尤為重要(比如升級擴容),因為我們經常發現由于命令行配置文件的小錯誤而導致業務中斷。
第三步:檢查系統自動生成的數據以及單板狀態參數是否正確。如,對于通道環,檢查交叉板備用總線生成的數據是否正確;對于復用段,檢查各頁面數據是否正確;檢查單板的狀態參數,如內、外定時、總線選擇等參數是否正確。
第四步:若通過以上步驟都無法定位故障,則使用經驗處理法,如重下配置、復位拔插單板、掉電重啟等方法嘗試能否排除故障。
第五步:若以上處理法都無效,則只能通過逐一更換單板的方法,排除故障。
三﹑傳輸網上常見的業務中斷問題
1.配置沒有下發到單板
a.對單板的autoload狀態缺省為“enable”。如果設置為“disable”,重新下發配置也不能下發到單板;
b.如果設置為“disable”,網元掉電、單板復位可以正常開工,但是用網管更改配置(如時隙)卻不能下發到單板。
查詢配置是否正確下發到單板,可以用cfg-get-autoload查詢,也可以使用“:cfg-check-board:板位,板類型;”命令。此命令是將單板側bddb庫中的內容和主機側bsdb庫中的內容相比較,如果一致則返回成功
2.OPtiX 設備處在保護倒換狀態時不允許配置業務
交叉板在倒換時是不允許進行業務配置的。交叉在保護倒換時不允許配置業務,這是出于保護當前業務的目的,在交叉進入保護時,表明原有業務已經處于保護態了,這時還下發新的配置是不合理的。此時如果配置業務會導致:
a.下發了新的業務配置,主機校驗后,向所有相關板發送新的配置,包括線路板、支路板、交叉板。線路和支路接受了新的配置,但交叉板不理睬,從而導致業務不通;
b.然后主機產生新的復用段的保護頁面數據;
c.這時停止協議時,主機下發部分新的數據(交叉連接),業務還是不通的,因為交叉板的其他配置未下發。
d.因此這種情況下必須拔插或復位交叉板,修改的數據才能加載到單板。
3.刪除邏輯系統導致業務中斷
邏輯系統被刪除后,其相應的業務也被刪除。
這就要求進行網管操作的時候特別小心,考慮清楚以后再進行下一步的操作
四﹑保護倒換失效所導致的業務中斷處理
1.通道環業務中斷故障處理的基本思路和方法
在處理通道環的業務中斷故障時,首先應檢查一下邏輯系統的屬性和支路板的通道保護屬性這兩項基本配置是否正確。邏輯系統屬性配置為“通道保護環”,支路板通道屬性配置為“保護”,如果這兩個屬性配置錯誤,業務倒換就無法實現。
在故障定位的時候,可以采用硬件和軟件的方式強制支路板選取主環或備環的業務。硬件方式,一般我們將通道環改造成兩條鏈來進行處理——東向一條鏈和西向一條鏈。方法比較簡單,任意斷掉一個站東向或西向一側的收、發兩根光纖即可。當然,若業務中斷時,通道環已經是一個斷環,則不需改造了。改造成鏈后,先排除一個方向主備通道的問題,再排除另一個方向主備通道的問題。軟件方式,可以用命令強制支路板選取主環或備環業務,看是支路板的倒換有問題還是主備環業務路徑的其他環節有問題。
當然,任何故障都一樣,若能通過故障現象的簡單分析就可以定位出故障的單板,則不需要上面繁瑣的操作步驟了。
2.復用段環業務中斷故障處理的基本思路和方法
查看APS協議是否正常
對于復用段保護倒換故障,首先要判斷APS協議是否正常,判斷的依據是APS參數、狀態、事件和aps_fatal庫的內容。若倒換協議異常,如協議不能正常啟停、保護倒換不動作或部分站點倒換狀態不對、交叉板頁面切換錯誤等,則首先要排除協議問題,然后再排除設備存在的其它問題。
排除協議問題后的處理
如果已經排除了協議異常的問題,則此時的業務中斷有兩種情況:一種是全網保護倒換處于正常狀態,保護倒換還沒有動作;還有一種情況是保護倒換已經正常動作。