趙艷明 全子一
(北京郵電大學電信工程學院 北京100876)
摘 要 可視電話是多媒體通信的一個重要應用。本文介紹了可視電話的關鍵技術,相應標準的發展歷程,并探討了今后的發展方向。
關鍵詞 可視電話 H.320 H.323 H.324
一、引言
電話作為人們日常生活、工作中不可缺少的通信工具,以其方便、快捷等特點被廣泛應用,但普通電話機只能提供語音通信服務。可視電話使人們在通話時不僅能夠聽到對方的聲音,而且還能夠看到對方的圖像。它不僅適用于家庭生活,而且還可以廣泛應用于各項商務活動、遠程教學、保密監控、醫院護理、醫療診斷、科學考察等不同行業的多種領域,因而有著廣闊的市場前景。
1964年,美國貝爾實驗室提出了第一個可視電話解決方案。但是由于受各種技術條件的限制,可視電話一直沒有取得實質性進展。八十年代末,隨著通信、計算機、語音和視頻編解碼技術的不斷發展,可視電話在世界各國得到了迅速發展。為了實現互聯互通,以推動可視電話和視頻會議系統的發展,國際電信聯盟(ITU-T)于九十年代推出了包括H.310、H.320、H.321、H.322、H.323和H.324的系列多媒體通信標準。
在上述標準中,以H.320、H.324和H.323應用最為廣泛。近年來,由于IP網的迅猛發展,基于H.323的可視電話終端和會議電視系統逐漸占據了主導地位,各大廠商紛紛推出基于H.323的應用。值得注意的是,基于會話發起協議(SIP)的可視電話也開始出現。
本文在對上述多媒體框架協議分析的基礎上,給出了一種基于媒體處理器TM1300的軟硬件解決方案。該方案的大部分模塊對H.320、H.323和H.324系統是通用的。硬件方面只要修改一下網絡接口的設計,軟件方面采用相應的控制協議,就可以得到針對H.320、H.323和H.324系統的不同的解決方案。
二、可視電話的基本結構和核心技術
1. 可視電話的基本結構
ITU-T推出的H.32X系列標準是框架性協議,服從不同標準的可視電話終端,具有類似的結構。可視電話的基本結構包括視頻輸入/輸出單元、視頻編解碼器、語音輸入/輸出單元、語音編解碼器、延時單元、數據處理單元(可選)、系統控制單元、多媒體數據復用/解復用單元和網絡接口單元。不同的標準適用的網絡不同,因此有不同的通信控制協議、多媒體數據打包協議和不同的網絡接口單元,但是視頻和語音輸入/輸出單元、視頻編解碼器、語音編解碼器相似。
語音和視頻壓縮技術是可視電話的核心技術。可視電話作為一種消費產品,要想走入尋常百姓家,必須能夠提供足夠好的語音和視頻質量,同時占用的信道帶寬要盡量小。語音編碼技術和視頻編碼技術的發展就是圍繞著上述兩點展開的:在保證壓縮后語音和圖象質量的同時,盡量提高壓縮效率。我們在具體選用語音和視頻壓縮標準的時候,也要結合這兩點來選擇。
2. 語音編碼技術
語音通信是可視電話最基本的功能。受網絡條件的限制,可視電話通常工作在較低碼率下。為了適應這種低碼率語音應用,ITU-T推出了G.72X系列語音壓縮標準。其中G.723.1、G.728、G.729和G.729A,在可視電話中得到了廣泛應用。表1列出了各個語音標準所采用的技術、碼率、時延和語音質量等。
G.723.1能夠產生兩種速率的碼流,高速率編碼器使用多脈沖最大自然量化(MP-MLQ)算法,低速率編碼器使用代數碼激勵線性預測(ACELP)算法。G.729A是G.729的簡化版本,G.729A算法復雜度與G.729相比降低了50%,語音質量略有降低,兩種標準編碼后的碼流可互相解碼。當可視電話與普通電話通信時,采用G.711標準。G.711為PCM編碼,只對語音信號進行采樣和量化,產生64kbit/s的碼流。G.711編碼后的語音質量高,缺點是占用的帶寬也很高。在實際選擇語音壓縮標準時,要綜合考慮帶寬、時延、算法復雜度等各種因素。
3. 視頻編碼技術
視頻壓縮是多媒體應用中的核心技術,ITU-T推出的低碼率視頻壓縮標準對推動可視電話的發展和實用化起到了重要的促進作用。H.261是ITU-T推出的第一個低碼率視頻壓縮標準,碼率為p×64kbit/s,其中p=1~30,圖像格式為CIF和QCIF。H.261壓縮編碼算法的基本思想是利用預測編碼減少時間冗余度,利用變換編碼減少空間冗余度。算法主要由運動估計、運動補償、DCT變換、量化和霍夫曼編碼構成。每幀圖像分成圖像層、宏塊組(GOB)層、宏塊(MB)層、塊(Block)層共4個層次來處理,分為I幀和P幀。后來推出的H.263、H.264標準繼承了H.261的基本思想,在H.261的基礎上提出了一些改進。
與H.261相比,H.263在以下幾個方面做出了改進:更多的圖像格式、半像素運動估計、不同的GOB結構、四個可選模式、減少的頭信息開銷、采用不同的VLC表等。在相同的圖像質量下,因為H.263在運動估計及編碼方面的改進,H.263編碼后的碼率大約比H.261低30%。為進一步提高H.263的編碼效率和抗誤碼性能,ITU-T在H.263的基礎上,增加了一些選項,修改后的版本被稱之為H.263+、H.263++。目前,H.263是可視電話中應用的最廣泛的視頻壓縮標準。
2003年,ITU-T通過了一個新的視頻編碼標準,即H.264標準。H.264與H.263相比具有靈活的宏塊和塊的分割方式,運動估計精度進一步提高,可采用1/4或1/8像素精度的運動估計。H.261和H.263采用的是DCT變換,而H.264采用的是類似于DCT的整數變換。在相同的重建圖像質量下,H.264編碼后的碼率比H.263低50%。H.264在提高編碼效率的同時,計算復雜度也大大增加。據估計,編碼的計算復雜度大約相當于H.263的三倍,解碼復雜度大約相當于H.263的兩倍。隨著DSP芯片處理能力的進一步提高,H.264在可視電話等多媒體通信中必將得到越來越廣泛的應用。
4. 通信協議
ITU-T推出的H.32X系列標準,具有相同的系統框架。不同之處在于面向的網絡不同,因此具有不同的網絡接口,不同的信令過程,以及為適應不同的網絡而優化設計的包結構,具體各部分的標準如表2所示。復用協議規定了視頻數據、語音數據等的打包標準,而控制協議的作用是在終端之間協商通信方式,如視頻編碼標準的協商,語音編碼標準的協商,信道帶寬的協商等。
三、一種基于媒體處理器TM1300的單機解決方案
目前流行的可視電話終端包括單機型終端和基于PC機的終端。基于PC機的可視電話解決方案,利用PC機已有的軟、硬件資源(處理能力、網卡、話筒、耳機和顯示器等),另外再為PC機配置一個攝像頭和一套可視電話軟件,就可以實現可視通信。單機型可視電話與普通電話,從外觀到使用方法基本相同,對用戶的要求較低,而且計費簡單。因此,目前運營商在推廣可視電話業務時推出的都是單機型可視電話終端。單機型可視電話又分為基于專用芯片的解決方案和基于通用DSP芯片的解決方案。采用專用芯片可以大大減少軟件的工作量,加快開發進度,但是成本也大幅度增加,而且設計方案不靈活,不便于繼承應用。
這里以H.320可視電話終端為例,給出一種基于通用DSP芯片的解決方案。本方案的硬件平臺以Philips公司的TM1300芯片為中心處理芯片,通過芯片上的專用接口與其它外圍電路相連。其中PEB2163,SAA7111和SAA7125為語音和圖像的A/D,D/A芯片,通過單片機AT89C51進行配置。單片機AT89C51、FLASH、CPLD和網絡接口芯片PEB2086則是通過通用PCI/XIO總線與TM1300 DSP CPU相連。
TM1300是一種專門為高性能多媒體應用而設計的微處理器。該芯片有一個超長指令字(VLIW)結構的CPU,在一個指令周期內能同時執行5個操作。另外,TM1300的指令集中還包括許多高效的多媒體類操作。利用這些多媒體類操作,可以大大提高圖象和聲音的壓縮和解壓縮算法的處理速度。該芯片還包括大量的片上外圍芯片,如視頻輸入單元,視頻輸出單元,音頻輸入單元,音頻輸出單元,SSI接口,PCI接口,主存接口以及定時器等。這種集成了多個片上外圍的單片化的微處理器,大大降低了硬件電路板的體積,同時還降低了功耗和開發成本,提高了可靠性。
可視電話的軟件部分可以分為四個功能相對獨立的模塊:圖象編解碼,聲音編解碼,用戶-網絡接口協議,復接解復接和端到端的呼叫控制。
在上述四個模塊中,圖象編解碼和聲音編解碼部分運算量很大,要實現實時處理,必須對該部分的軟件進行優化。端到端呼叫控制和復接解復接模塊,以及用戶-網絡接口模塊屬于控制復雜型的功能塊。這兩個模塊需要和其它模塊進行較多較頻繁的信息交互,而且對于響應時間也有較高要求。
TM1300微處理器上運行了一個小的實時操作系統內核pSOS+,用于管理眾多的軟件模塊,并為模塊之間的同步提供手段。在可視電話軟件中使用pSOS實時操作系統,使整個軟件結構清晰,便于聯調,而且開發出來的軟件可靠性和穩定性較高。很多代碼都可以重用。
我們已成功開發出基于上述方案的H.320可視電話終端。該終端通過了H.320標準的各項檢測,并能夠穩定地運行。在此基礎上,修改網絡接口硬件設計,把適用于N-ISDN的芯片PEB2086更換成適用于IP網絡的以太網控制器,即可得到H.323可視電話終端硬件解決方案。
趙艷明,北京郵電大學博士研究生,主要研究方向:多媒體通信。
全子一,北京郵電大學教授,博士生導師。主要研究方向:圖象壓縮與圖象處理、多媒體通信。