摘要:隨著網絡多媒體技術的發(fā)展,采用MPEG-4技術向計算機用戶提供VOD業(yè)務已經大量出現(xiàn),由于都是MPEG(運動圖像專家組)這個組織提出的建議,因此一般地認辦MPEG-4是MPEG-2的一個延續(xù)版本。事實上,這兩者之間有著較大的差別。本文對MPEG-2與MPEG-4作一些簡單的介紹和比較。
熟悉數(shù)字視音頻技術的人對MPEG一定不陌生,這是ISO組織運動圖像專家組(Moving Picture Expert Group)的簡稱,該組織成立于1988年,多年來一直致力于制定與有關研制視頻壓縮、音頻壓縮及多種壓縮數(shù)據(jù)流復合及同步方面的國際標準。繼1990年公布MPEG-1的標準以來,先后公布了MPEG-2標準(1994年)以及MPEG-4標準(1996年),目前正在研究制定MPEG-7標準。其中,大家所熟知的VCD和DVD分別采用了MPEG-1和MPEG-2技術,而MPEG-4則是最近一階段隨著網絡多媒體發(fā)展而大量被采用的技術。從原理來看,MPEG-2是MPEG-1的延伸,而MPEG-4的編碼出發(fā)點與MPEG-2相比則有較大的差異。因此,本文旨在介紹MPEG-2與MPEG-4這兩個標準。
1 MPEG-2技術
MPEG-2的初衷是為廣播級電視質量(CCIR6601格式)的視音頻信號定義的壓縮編碼標準,但最終結果是成為了一個通用的標準,能在很大范圍內對不同分辨率和不同輸出比特率的圖像信號進行有效編碼。
MPEG-2的編碼技術主要基于兩個概念:即時間相關性與空間相關性。所謂時間相關性指的是物體前后運動的連續(xù)性,例如,一扇門的開啟不可能是開關兩個狀態(tài),而一定是關、微開、開等一系列的連續(xù)動作,因此利用前一次的動作可以預測下一次的動作;空間相關性指的是空間內相鄰物體的色彩和亮度是一個漸變過程,而非一個突變過程。有一點美術常識的人都很容易明白,即白黑的過渡是漸進的,而非突變。如果將空間每一點及時間上每一幀進行獨立編碼,雖然能夠表達所有的信息,但是帶寬非常大,幾乎沒有一樣載體可以經濟地傳送這種信號;另一方面從信息學的角度來看,也包含著大量的冗余信息。數(shù)據(jù)壓縮正是基于這樣的角度,采用相應的編碼方式將大量的冗余信息去除,保留有用的信息,有效節(jié)省帶寬。
MPEG-2技術綜合采用了3大基本編碼技術,即預測編碼、變換編碼和統(tǒng)計編碼。壓縮技術采用多種編碼手段消除系統(tǒng)的冗余信息,歸納起來將有以下四個方面。
①利用二維DCT減少圖像的空間冗余度;
②利用運動補償預測減少圖像的時間域冗余度;
③利用視覺加權量化減少圖像的“灰度域”冗余度;
④利用熵編碼來減少圖像“頻率域”上統(tǒng)計特性方面的冗余度;
此外,MPEG-2在MPEG-1的基礎之上擴充了“可伸縮性”和“可分級性”兩個概念,所謂“可伸縮性”指的是對碼流的一部分進行編碼和對碼流的全部解碼獲得的圖像分辨率(或信噪比等)要低。MPEG-2所支持的可伸縮的視頻編碼方式共有時間、空間、信噪比及數(shù)據(jù)分割等四種。“可分級性”則是指在MPEG-2中用范疇(Profile)以及層次兩個定義來描述不同的編碼參數(shù)集。每個范疇是前一個的合集(Profile),層次則規(guī)定了空間和時間分辨率的上限。
MPEG-2標準的第3部分詳細地描述音頻部分的壓縮,并在MPEG-1的基礎之上,增加了AC-3編碼方式。對音頻部分信號采用3種壓縮模式,稱為層次1、2和3。隨著層次的增加,復雜度相應增加,層次具有向下兼容性,即層次3的解碼器可以對層次2或層次1編碼的碼流進行解碼。
層次2與MUSICAM(Masking Pattern Adapted Universal Subband Integrated Coding and Mul-tiplexing)壓縮方法相同。對于頻率在20kHz以下的音樂信號,以48kHz(或44.1kHz)采用并用16(或18)比特量化,采用上述的方法可以將雙聲道立體聲的一個聲道壓縮成96或128kb/s。層次1是層次2的簡化形式,它將單聲道壓縮到192或256kb/s。層次3即我們通常說的MP3,采用了MUSICAM和ASPEC(Adaptive Spectual Perceptual Entropy Coding)兩種算法的結合,壓縮后的比特率為每聲道64kb/s。
AC-3則是對6個聲道的音頻進行壓縮的標準,這6個聲道分別為左、中、右、左環(huán)繞、右環(huán)繞和低頻增強,其中前5個聲道的帶寬為3Hz20kHz,最后一個聲道限制在120Hz。所有聲道的采樣率均為48kHz,每個取樣值量化到1622b,并采用TDAC分析儀將音頻信號劃分成子帶,然后根據(jù)人的聽覺心理-生理特征對不同子帶信號采取不同的量化以實現(xiàn)數(shù)據(jù)的壓縮。多個聲道的總數(shù)據(jù)率最后壓縮成320kb/s。
2 MPEG-4技術
從技術角度來看,MPEG-4標準與MPEG-2標準的基點大相徑庭,MPEG-4不再將圖像看成是一個矩形像素陣列的序列,把音頻看成是一個多聲道或單聲道的聲音,而是深入到組成一個場景的視頻、音頻對象的語義中去,對不同的主體采用不同的編碼方式,例如把一幅圖像中活潑的白貓和毛線團以及背景中的房間分別進行編碼。各種視、音頻源不限于自然界,也可以是合成源,最終在解碼端進行組合。因此MPEG-4是完全基于對象的一種編碼方式。當然MPEG-4采用了比MPEG-2更為先進的壓縮方式,因此簡單說,基于內容的壓縮、更高的壓縮比和時空可伸縮性是MPEG-4的3個最重要的特點。
MPEG-4幾乎涵蓋了MPEG-2的所有功能,并支持基于內容的獨立編碼和解碼。此項功能又成為基于內容的可分級性,這一機制為壓縮域中對圖像或視頻內容的交互提供了最基本機制,而無須在接收機做進一步的分割或代碼轉換。
MPEG-4自制定之日起,就受到了密切關注,從1993年開始著手制定,到預定完成時間(1997年)似乎仍很不成熟,因而轉向全面支持目前標準尚未全面支持的應用。例如,移動通信中的聲像業(yè)務、與其它多媒體數(shù)據(jù)(如計算機產生的圖形、圖像)的集成和交互式多媒體服務等。MPEG-4發(fā)展的艱難歷程可以從兩個方面加以說明。
(1)MPEG-4標準在制定時想適用于所有的應用和環(huán)境,并想采用第二代壓縮算法。但是實際由于當時第二代算法中的很多算法都很不成熟,因此結果使得MPEG-4的壓縮技術變的難度很高,使得其不得不中途變節(jié),加長了應用的時間、喪失了占據(jù)市場的先機;
(2)由于時間上的延遲,本希望應用于各種場合,結果反變成沒有適用的場合。從低信息量的視訊電話、視訊會議、到儲存媒體的VCD、DVD,到最高品質的HDTV,各種標準已經確定,各相關產品也已經陸續(xù)上市。而廠商受限于研發(fā)及銷售成本和時間的考慮,不太可能為了新的標準而重新開發(fā)產品。
3 結論
通過以上的介紹不難看出,MPEG-2與MPEG-4之間最根本的區(qū)別在于編碼的出發(fā)點的不同,前者是基于矩陣相素圖像的壓縮,后種是基于圖像中不同物體的壓縮;前者發(fā)展的比較成熟,并已經成為廣播電視行業(yè)的標準,后者主要針對于低碼率場合應用,適用相對范圍寬。從發(fā)展趨勢上看,MPEG-2將會在有線電視網上進一步發(fā)展,而MPEG-7則是MPEG-4的進一步發(fā)展,主要適用于基于對象的查詢,并將在IP網上將會得到進一步發(fā)展。