摘要:本文從MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21標準以及它們的應用等方面,介紹了MPEG系列標準及其應用。
隨著數字化、網絡化、全球一體化信息時代的來臨,多媒體技術成為信息技術的重要組成部分。它包括聲音、圖形、數據以及圖像在內的多種媒體信息的傳送和處理,其關鍵在于壓縮技術。此外,在多媒體的傳輸、處理、應用中還有許多問題:如何在網絡上傳輸視頻?如何通過手機上網并接收視頻和圖像?如何對多媒體數據進行快速有效的檢索?如何對多媒體信息進行統一的存取?等等。
MPEG是活動圖像專家組(Moving Picture Exports Group)英文的縮寫,于1988年成立,是為數字視/音頻制定壓縮標準的專家組,目前已擁有300多名成員,包括IBM、SUN、BBC、NEC、INTEL、AT&&T等世界知名公司。MPEG組織最初得到的授權是制定用于“活動圖像”編碼的各種標準,隨后擴充為“及其伴隨的音頻”及其組合編碼。后來針對不同的應用需求,解除了“用于數字存儲媒體”的限制,成為現在制定“活動圖像和音頻編碼”標準的組織。MPEG組織制定的各個標準都有不同的目標和應用,目前已提出MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21標準。
一、MPEG-1標準及其應用
MPEG-1標準于1993年8月公布,用于傳輸1.5Mbps數據傳輸率的數字存儲媒體運動圖像及其伴音的編碼。該標準包括五個部分:
第一部分說明了如何根據第二部分(視頻)以及第三部分(音頻)的規定,對音頻和視頻進行復合編碼。第四部分說明了檢驗解碼器或編碼器的輸出比特流符合前三部分規定的過程。第五部分是一個用完整的C語言實現的編碼和解碼器。
該標準從頒布的那一刻起,MPEG-1取得一連串的成功,如VCD和MP3的大量使用,Windows95以后的版本都帶有一個MPEG-1軟件解碼器,可攜式MPEG-1攝像機等等。
二、MPEG-2標準及其應用
MPEG組織于1994年推出MPEG-2壓縮標準,以實現視/音頻服務與應用互操作的可能性。MPEG-2標準是針對標準數字電視和高清晰度電視在各種應用下的壓縮方案和系統層的詳細規定,編碼碼率從每秒3兆比特~100兆比特,標準的正式規范在ISO/IEC13818中。MPEG-2不是MPEG-1的簡單升級,MPEG-2在系統和傳送方面作了更加詳細的規定和進一步的完善。MPEG-2特別適用于廣播級的數字電視的編碼和傳送,被認定為SDTV和HDTV的編碼標準。MPEG-2還專門規定了多路節目的復分接方式。MPEG-2標準目前分為9個部分,統稱為ISO/IEC13818國際標準。
MPEG-2圖像壓縮的原理是利用了圖像中的兩種特性:空間相關性和時間相關性。一幀圖像內的任何一個場景都是由若干像素點構成的,因此一個像素通常與它周圍的某些像素在亮度和色度上存在一定的關系,這種關系叫作空間相關性;一個節目中的一個情節常常由若干幀連續圖像組成的圖像序列構成,一個圖像序列中前后幀圖像間也存在一定的關系,這種關系叫作時間相關性。這兩種相關性使得圖像中存在大量的冗余信息。如果我們能將這些冗余信息去除,只保留少量非相關信息進行傳輸,就可以大大節省傳輸頻帶。而接收機利用這些非相關信息,按照一定的解碼算法,可以在保證一定的圖像質量的前提下恢復原始圖像。一個好的壓縮編碼方案就是能夠最大限度地去除圖像中的冗余信息。
MPEG-2的編碼圖像被分為三類,分別稱為I幀,P幀和B幀。
I幀圖像采用幀內編碼方式,即只利用了單幀圖像內的空間相關性,而沒有利用時間相關性。I幀使用幀內壓縮,不使用運動補償,由于I幀不依賴其它幀,所以是隨機存取的入點,同時是解碼的基準幀。I幀主要用于接收機的初始化和信道的獲取,以及節目的切換和插入,I幀圖像的壓縮倍數相對較低。I幀圖像是周期性出現在圖像序列中的,出現頻率可由編碼器選擇。
P幀和B幀圖像采用幀間編碼方式,即同時利用了空間和時間上的相關性。P幀圖像只采用前向時間預測,可以提高壓縮效率和圖像質量。P幀圖像中可以包含幀內編碼的部分,即P幀中的每一個宏塊可以是前向預測,也可以是幀內編碼。B幀圖像采用雙向時間預測,可以大大提高壓縮倍數。值得注意的是,由于B幀圖像采用了未來幀作為參考,因此MPEG-2編碼碼流中圖像幀的傳輸順序和顯示順序是不同的。
P幀和B幀圖像采用幀間編碼方式,即同時利用了空間和時間上的相關性。P幀圖像只采用前向時間預測,可以提高壓縮效率和圖像質量。P幀圖像中可以包含幀內編碼的部分,即P幀中的每一個宏塊可以是前向預測,也可以是幀內編碼。B幀圖像采用雙向時間預測,可以大大提高壓縮倍數。值得注意的是,由于B幀圖像采用了未來幀作為參考,因此MPEG-2編碼碼流中圖像幀的傳輸順序和顯示順序是不同的。
MPEG-2的編碼碼流分為六個層次。為更好地表示編碼數據,MPEG-2用句法規定了一個層次性結構。它分為六層,自上到下分別是:圖像序列層、圖像組(GOP)、圖像、宏塊條、宏塊、塊。MPEG-2標準的主要應用如下:
1、視音頻資料的保存
2、非線性編輯系統及非線性編輯網絡
3、衛星傳輸
4、電視節目的播出
三、MPEG-4標準及其應用
運動圖像專家組MPEG 于1999年2月正式公布了MPEG-4(ISO/IEC14496)標準第一版本。同年年底MPEG-4第二版亦告底定,且于2000年年初正式成為國際標準。
MPEG-4與MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具體壓縮算法,它是針對數字電視、交互式繪圖應用(影音合成內容)、交互式多媒體(WWW、資料擷取與分散)等整合及壓縮技術的需求而制定的國際標準。MPEG-4標準將眾多的多媒體應用集成于一個完整的框架內,旨在為多媒體通信及應用環境提供標準的算法及工具,從而建立起一種能被多媒體傳輸、存儲、檢索等應用領域普遍采用的統一數據格式。
MPEG-4的編碼理念是:MPEG-4標準同以前標準的最顯著的差別在于它是采用基于對象的編碼理念,即在編碼時將一幅景物分成若干在時間和空間上相互聯系的視頻音頻對象,分別編碼后,再經過復用傳輸到接收端,然后再對不同的對象分別解碼,從而組合成所需要的視頻和音頻。這樣既方便我們對不同的對象采用不同的編碼方法和表示方法,又有利于不同數據類型間的融合,并且這樣也可以方便的實現對于各種對象的操作及編輯。例如,我們可以將一個卡通人物放在真實的場景中,或者將真人置于一個虛擬的演播室里,還可以在互聯網上方便的實現交互,根據自己的需要有選擇的組合各種視頻音頻以及圖形文本對象。
MPEG-4系統的一般框架是:對自然或合成的視聽內容的表示;對視聽內容數據流的管理,如多點、同步、緩沖管理等;對靈活性的支持和對系統不同部分的配置。
與MPEG-1、MPEG-2相比,MPEG-4具有如下獨特的優點:
(1)基于內容的交互性
MPEG-4提供了基于內容的多媒體數據訪問工具,如索引、超級鏈接、上下載、刪除等。利用這些工具,用戶可以方便地從多媒體數據庫中有選擇地獲取自己所需的與對象有關的內容,并提供了內容的操作和位流編輯功能,可應用于交互式家庭購物,淡入淡出的數字化效果等。MPEG-4提供了高效的自然或合成的多媒體數據編碼方法。它可以把自然場景或對象組合起來成為合成的多媒體數據。
(2)高效的壓縮性
MPEG-4基于更高的編碼效率。同已有的或即將形成的其它標準相比,在相同的比特率下,它基于更高的視覺聽覺質量,這就使得在低帶寬的信道上傳送視頻、音頻成為可能。同時MPEG-4還能對同時發生的數據流進行編碼。一個場景的多視角或多聲道數據流可以高效、同步地合成為最終數據流。這可用于虛擬三維游戲、三維電影、飛行仿真練習等。
(3)通用的訪問性
MPEG-4提供了易出錯環境的魯棒性,來保證其在許多無線和有線網絡以及存儲介質中的應用,此外,MPEG-4還支持基于內容的的可分級性,即把內容、質量、復雜性分成許多小塊來滿足不同用戶的不同需求,支持具有不同帶寬,不同存儲容量的傳輸信道和接收端。
這些特點無疑會加速多媒體應用的發展,從中受益的應用領域有:因特網多媒體應用;廣播電視;交互式視頻游戲;實時可視通信;交互式存儲媒體應用;演播室技術及電視后期制作;采用面部動畫技術的虛擬會議;多媒體郵件;移動通信條件下的多媒體應用;遠程視頻監控;通過ATM網絡等進行的遠程數據庫業務等。MPEG-4主要應用如下:
1、應用于因特網視音頻廣播
2、應用于無線通信
3、應用于靜止圖像壓縮
4、應用于電視電話
5、應用于計算機圖形、動畫與仿真
6、應用于電子游戲
四、MPEG-7標準及其應用
MPEG-7標準被稱為“多媒體內容描述接口”,為各類多媒體信息提供一種標準化的描述,這種描述將與內容本身有關,允許快速和有效的查詢用戶感興趣的資料。它將擴展現有內容識別專用解決方案的有限的能力,特別是它還包括了更多的數據類型。換而言之,MPEG-7規定一個用于描述各種不同類型多媒體信息的描述符的標準集合。該標準于1998年10月提出,于2001年最終完成并公布。
MPEG-7的目標是支持多種音頻和視覺的描述,包括自由文本、N維時空結構、統計信息、客觀屬性、主觀屬性、生產屬性和組合信息。對于視覺信息,描述將包括顏色、視覺對象、紋理、草圖、形狀、體積、空間關系、運動及變形等。
MPEG-7的目標是根據信息的抽象層次,提供一種描述多媒體材料的方法以便表示不同層次上的用戶對信息的需求。以視覺內容為例,較低抽象層將包括形狀、尺寸、紋理、顏色、運動(軌道)和位置的描述。對于音頻的較低抽象層包括音調、調式、音速、音速變化、音響空間位置。最高層將給出語義信息:如“這是一個場景:一個鴨子正躲藏在樹后并有一個汽車正在幕后通過。”抽象層與提取特征的方式有關:許多低層特征能以完全自動的方式提取,而高層特征需要更多人的交互作用。MPEG-7還允許依據視覺描述的查詢去檢索聲音數據,反之也一樣。
MPEG-7的目標是支持數據管理的靈活性、數據資源的全球化和互操作性。
MPEG-7標準化的范圍包括:一系列的描述子(描述子是特征的表示法,一個描述子就是定義特征的語法和語義學);一系列的描述結構(詳細說明成員之間的結構和語義);一種詳細說明描述結構的語言、描述定義語言(DDL);一種或多種編碼描述方法。
MPEG-7由以下幾部分組成:
(1)MPEG-7系統:它保證MPEG-7描述有效傳輸和存儲所必須的工具,并確保內容與描述之間進行同步,這些工具有管理和保護的智能特性;
(2)MPEG-7描述定義語言:用來定義新的描述結構的語言;
(3)MPEG-7音頻:只涉及音頻描述的描述子和描述結構;
(4)MPEG-7視頻:只涉及視頻描述的描述子和描述結構;
(5)MPEG-7屬性實體和多媒體描述結構;
(6)MPEG-7參考軟件:實現MPEG-7標準相關成分的軟件;
(7)MPEG-7一致性:測試MPEG-7執行一致性的指導方針和程序。
在我們的日常生活中,日益龐大的可利用音視頻數據需要有效的多媒體系統來存取、交互。這類需求與一些重要的社會和經濟問題相關,并且在許多專業和消費應用方面都是急需的,尤其是在網絡高度發展的今天,而MPEG-7的最終目的是把網上的多媒體內容變成象現在的文本內容一樣,具有可搜索性。這使得大眾可以接觸到大量的多媒體內容,MPEG-7標準可以支持非常廣泛的應用,具體如下:
(1)音視數據庫的存儲和檢索;
(2)廣播媒體的選擇(廣播、電視節目);
(3)因特網上的個性化新聞服務;
(4)智能多媒體、多媒體編輯;
(5)教育領域的應用(如數字多媒體圖書館等);
(6)遠程購物;
(7)社會和文化服務(歷史博物館、藝術走廊等);
(8)調查服務(人的特征的識別、辯論等);
(9)遙感;
(10)監視(交通控制、地面交通等);
(11)生物醫學應用;
(12)建筑、不動產及內部設計;
(13)多媒體目錄服務(如,黃頁、旅游信息、地理信息系統等);
(14)家庭娛樂(個人的多媒體收集管理系統等)。
原則上,任何類型的AV(Audio-Video)材料都可以通過任何類型的查詢材料來檢索,例如,AV材料可以通過視頻、音樂、語言等來查詢,通過搜索引擎來匹配查詢數據和MPEG-7的音視頻描述。
五、MPEG-21標準及其應用
互聯網改變了物質商品交換的商業模式,這就是“電子商務”。新的市場必然帶來新的問題:如何獲取數字視頻、音頻以及合成圖形等“數字商品”,如何保護多媒體內容的知識產權,如何為用戶提供透明的媒體信息服務,如何檢索內容,如何保證服務質量等。此外,有許多數字媒體(圖片、音樂等)是由用戶個人生成、使用的。這些“內容供應者”同商業內容供應商一樣關心相同的事情:內容的管理和重定位、各種權利的保護、非授權存取和修改的保護、商業機密與個人隱私的保護等。目前雖然建立了傳輸和數字媒體消費的基礎結構并確定了與此相關的諸多要素,但這些要素、規范之間還沒有一個明確的關系描述方法,迫切需要一種結構或框架保證數字媒體消費的簡單性,很好地處理“數字類消費”中諸要素之間的關系。MPEG-21就是在這種情況下提出的。
制定MPEG-21標準的目的是:(1)將不同的協議、標準、技術等有機地融合在一起;(2)制定新的標準;(3)將這些不同的標準集成在一起。MPEG-21標準其實就是一些關鍵技術的集成,通過這種集成環境就對全球數字媒體資源進行透明和增強管理,實現內容描述、創建、發布、使用、識別、收費管理、產權保護、用戶隱私權保護、終端和網絡資源抽取、事件報告等功能。
任何與MPEG-21多媒體框架標準環境交互或使用MPEG-21數字項實體的個人或團體都可以看作是用戶。從純技術角度來看,MPEG-21對于“內容供應商”和“消費者”沒有任何區別。標準化是產業化成功的前提,MPEG-1已成功地在中國推動了VCD產業,MPEG-2標準又帶動了DVD及數字電視等多種消費電子產業,其它MPEG標準的應用也在實施或開發中,MPEG緊扣應用發展的脈搏,與工業和應用同步。未來是信息化的社會,各種多媒體數據的傳輸和存儲是信息處理的基本問題,因此,可以肯定MPEG系列標準將發揮越來越大的作用。