1 U-vMOS的標準及對網絡要求
1.1 U-vMOS評價體系介紹
視頻已成為網絡上的最主要流量,視頻業務體驗已成為衡量網絡服務質量的關鍵指標。伴隨著視頻分辨率的不斷提升(從360p/720p逐漸過度至4K/8K),視頻業務對網絡的要求也越來越高。如何評價當前網絡下視頻業務的體驗,對用戶和運營商來說意義越來越重大。
IP承載網是一個“盡力而為”的網絡,網絡視頻業務占用帶寬資源較多、實時性要求較高,并且對分組丟失、時延、抖動等網絡特性非常敏感,尤其是時變的網絡特性嚴重影響網絡視頻業務的質量。通過對網絡視頻質量的監控和反饋,可以調節編解碼器或信道的參數,改善傳輸視頻的服務質量。因此,需要實時準確地對網絡視頻服務質量進行監控,獲得反映用戶感受的視頻體驗質量。
早在2009年ITU-T就啟動了針對視頻業務的vMOS標準研究項目,并于2012年參考語音MOS指標體系發布了第一個基于視頻體驗的VMoS指標,用于監控視頻經過網絡傳輸后的質量損失,關注點在于視頻QoE的檢測和問題定位。這套指標完全參考了語音MOS的定義,先定義影響因素Compression、packet-loss、rebuffering,自下而上地計算vMOS。出發點是為了發現問題,用于視頻質量監控,只站在技術視角看問題,沒有考慮消費者對視頻體驗優劣的評價是跨越視頻業務的全流程,也沒有站在最終消費者體驗的角度去橫向比較不同的分辨率帶給用戶的不同體驗。因此也無法完整的指導運營商網絡的設計和優化。
華為認為在原有vMOS的基礎上,需要根據以用戶體驗為中心的評價體系標準,用統一的衡量標準,來評價不同網絡,不同屏幕,不同場景應用下的視頻體驗的好壞。基于以上出發點,華為視頻研究團隊結合人體工程學實驗,樣本調研和深入技術研究,提煉出適配全場景的視頻體驗TOP3影響因子,即視頻質量(sQaultiy),互動體驗(sInteraction)和觀看體驗(sView)。華為基于三大核心思想,設計了視頻體驗衡量體系評價標準U-vMOS,使TOP3視頻體驗影響因子得以量化,使得視頻體驗標準體系實現可采集、可評估、可演進。據此,我們擬合出如下公式(其中,影響視頻質量、操作體驗和播放體驗三個模塊的主要因素如圖2~4所示)。
1.2 基于U-vMOS評價體系對網絡的要求
基于U-vMOS標準,對其中的各項KQI進一步分解,可以得出某一目標U-vMOS得分的條件下,網絡需要提供的KPI:
基于U-vMOS 5分標準,分解出的網絡要求已經大大超出當前網絡的能力,我們認為,5分的標準需要依賴云/管/端革新的技術&方案才能達成。
中短期內,U-vMOS達到4分已經代表了較好的體驗,我們將U-vMOS4分設置為網絡優化達成的目標。
2 面向U-vMOS的移動承載網絡優化方案介紹
從上一章節的介紹中我們知道,影響視頻業務體驗的網絡要素,主要是三個:帶寬(更確切的說是通量)、時延、以及丟包率。其中,丟包率往往由端到端的線路質量決定,難以通過個別網絡節點的調整達到立竿見影的優化效果;通量和時延則不然。如何在當前移動承載網絡的基礎上,通過成本可控的優化方案,保障移動承載網的高通量和低時延,繼而提升每用戶的移動視頻體驗高質量(U-vMOS>=4),我們認為可以參考如下的策略和應對方案。
2.1 TCP加速技術
2.1.1 傳統TCP的不足
互聯網帶寬的高速發展增催生了各類高吞吐率應用,典型如4K視頻播放,普通4K視頻片源的平均碼率基本都在25Mbps以上,峰值碼率甚至會達到50Mbps以上。雖然物理帶寬能夠通過擴容來滿足4K視頻應用的吞吐率需求,但是由于承載視頻傳輸的TCP協議的設計局限和不足,實際傳輸吞吐率可能遠遠達不到物理帶寬,TCP可能會成為高吞吐率應用的瓶頸。
TCP通過調節擁塞窗口CWND來控制數據發送的吞吐率,由于TCP并不了解應用需求和網絡狀態,為了避免盲目增長窗口造成網絡擁塞,傳統TCP協議采用比較保守的擁塞控制策略,例如Reno在擁塞避免階段采用的AIMD策略,窗口增長采用緩和的線性方式,窗口降低采用激進的指數方式,具體如圖5所示:
a) 丟包時進入快速重傳和快速恢復狀態,CWND減半;
b) 收到重傳報文的ACK后進入擁塞避免狀態,每個RTT周期CWND增加一個MSS;
以100Mbps帶寬、60ms時延的網絡為例,應用傳統TCP技術,在吞吐率逼近100Mbps的情況下,單純發生一次丟包,吞吐率需要經過約16.2秒才能重新恢復到丟包前的水平;如果丟包率為1/10000,那么實際吞吐率將只有23Mbps左右,遠遠小于物理帶寬。而在真實的網絡環境中,隨著終端設備接入的多樣化尤其是手機等無線設備的加入,網絡中可能會存在更高的隨機丟包率和時延抖動,類似Reno的傳統TCP算法已經無法滿足應用高吞吐率的需求,提出一種高效的TCP加速技術勢在必行。
2.1.2 TCP加速技術演進
TCP加速技術的核心是設計高效的擁塞控制算法,在不喪失TCP公平性和友好性的前提下盡量提升TCP流的吞吐率。擁塞控制的基本思路是發送端根據從網絡獲得的擁塞反饋信息調整TCP的發送速率,基于根據何種擁塞反饋信息可以將TCP加速技術分為三類:基于顯式信息反饋的TCP加速技術、基于隱式信息反饋的TCP加速技術和基于智能數據分析的TCP加速技術,本節將逐一分析三類技術的基本原理和優缺點。
基于顯式信息反饋的TCP加速技術
部分TCP加速技術提出了利用路由器配合進行顯式擁塞反饋,由路由器主動向發送端通告網絡的擁塞狀況,發送端據此調整發送速率。比較典型的主要有:XCP和VCP等。由于該類技術對網絡設備支持的依賴程度非常高,因此協議可擴展性很差,這也是該類技術至今依然停留在理論,尚未在網絡中獲得大規模部署的原因。
基于隱式信息反饋的TCP加速技術
如果路由器不提供顯式的擁塞指示,那么TCP只能利用傳輸過程中獲取的反饋作為隱式擁塞指示,典型反饋信息主要分為丟包事件和往返時延,該類TCP加速技術通常根據其中一或兩個維度來判定當前網絡的擁塞程度,并在發送端做出相應的擁塞控制策略。
丟包事件是最能直觀反映網絡擁塞的行為,目前大多數TCP加速技術都選擇將丟包事件作為擁塞反饋,然而,該類技術都面臨一個共通的問題:對丟包事件判定不精確,無法區分擁塞丟包和隨機丟包。只要發生丟包事件就根據預設參數降低窗口,這種做法會導致在隨機丟包較多的網絡中吞吐率很低。
與丟包時間相比,往返時延能夠更加及時地反應網絡擁塞,將往返時延作為擁塞反饋的TCP加速技術也有一些。該類技術的思路是:根據往返時延與網絡輕載時時延的變化程度來調整窗口。該類技術所面臨的問題是:時延測量的不公平性,例如網絡擁塞時加入的TCP流測得的網絡輕載時延偏高,這會導致該TCP流的擁塞窗口設置過大、占用過大的帶寬。
由上分析可知,基于隱式信息反饋的TCP加速技術依賴于丟包事件和往返時延等信息對網絡擁塞判定的精確度,無論是擁塞丟包和隨機丟包的判斷錯誤,還是輕載網絡時延的判定錯誤,都會給TCP的擁塞控制產生負面影響,因此依靠簡單的隱式擁塞信息反饋來調整TCP擁塞控制難以滿足應用的高吞吐率需求。
基于智能數據分析的TCP加速技術
針對上述兩類TCP加速技術的缺點,華為公司研究設計了新一代的基于智能數據分析的TCP加速技術——RACE(Rapid, Adjustable, Clever, Efficient),針對每一條TCP流收集與該流相關的來自于應用和網絡等多個維度的信息,通過設計智能數據分析引擎,將來自應用的真實需求信息和來自網絡的真實狀態信息分析處理成智能標識擁塞控制信息,指導算法更加精確地判斷網絡擁塞程度。華為公司提出的RACE首次將智能數據分析技術引入TCP加速技術,克服了傳統TCP加速技術對網絡狀況判斷不準確的缺陷,真正能夠做到:窗口快速增長(Rapid)、目標速率可調(Adjustable)、丟包智能甄別(Clever)和自適應調整窗口達到高通量(Efficient)。
2.1.3 典型部署方案介紹
本節我們介紹一下,采用華為新一代TCP加速技術RACE的高通量路由器(High Throughput Router),在實際部署中的常見應用場景。如下圖所示,通常我們會采用HTR旁路部署的方案,該方案對現網原有業務影響小,方案可靠性高,加速性能上無性能損失。如果客戶加速的流策略比較穩定,沒有頻繁調整的需求,可作為現網部署的首選方案。
HTR旁路部署方案:
1. 將加速設備新增鏈路旁路署在EPC與公網鏈路之間;
2. 調整上下游設備的路由策略,針對要加速的視頻流量做ACL策略,讓相應的需要加速的流量上下行都經過加速設備;
3. 在HTR設備上啟用TCP加速功能,代理相應的視頻流量,起到端到端加速的效果。
路由及引流策略:
1. 如果要針對某個網外IP內容加速,在PE和EPC/PGW上可以匹配相應IP段引流到HTR設備;
2. 如果要針對整個移動數據業務加速,在PE和EPC/PGW上以PGW的公網IP引流到HTR設備;
3. 如果要針對整個特定的用戶業務加速,要求用戶按固定的地址段映射公網IP,在PE和EPC/PGW上以該公網IP+端口范圍作策略引流到HTR設備。
2.2 CDN下沉方案
2.2.1 背景
隨著LTE在全球大規模部署,移動互聯網高速發展,移動互聯網流量將以每年57%的速度增長,預測2019年移動視頻流量占所有移動數據流量的超過70%。這種增長主要將由用戶更加偏好視頻流服務,包括新聞、廣告與社交媒體等在線視頻內容日益普及所驅動,流量的快速增長也對移動承載網提出更高的帶寬要求。
各運營商之間的競爭慢慢聚焦到用戶體驗的競爭,提供最佳體驗的運營商才能持續獲得商業成功。現階段,移動視頻寬帶業務在高速發展,更高分辨率的視頻(1080P和4K)逐漸普及,人們觀看視頻也在追求極致體驗,對網絡E2E時延提出了新的挑戰。正是基于此,華為的CDN下沉方案將CDN內容下沉到網絡各個不同位置,聚焦減少用戶訪問內容源的端到端時延,節省承載帶寬,保障用戶體驗。
2.2.2 CDN下沉的多種方案
a) CDN下沉到基站
內容下沉到eNodeB,“零”距離接近用戶,這種方案可最大程度節省RTT和承載帶寬,但是每個基站部署CDN-Edge,面臨部署成本高,維護難度大的問題;另一方面,基站覆蓋的用戶少、訪問分散,根據Cache熱點緩存的特性,CDN下沉到基站的命中率會稍低。
b) CDN下沉到EPC SGi口
內容下沉到EPC SGi出口,部署成本可控,用戶訪問量大,熱點效應明顯。然而,這個方案無法節省MBH的承載帶寬,并且省干傳輸帶來RTT時延較大(3~5ms),給體驗帶來了一定的影響。
c) CDN下沉到MBH
內容下沉到MBH網絡,兼顧RTT時延(節省省干單向時延3-5ms、EPC單向時延4ms)、部署成本可承受(如地市PTN L2入L3節點2~7對)、節省MBH網絡帶寬(引流的匯聚節點到EPC之間的鏈路)、用戶訪問內容熱點效應明顯等特點,是綜合CDN下沉成本與節省時延效益的折衷考慮結果。
3 面向U-vMOS的移動視頻運維方案介紹
3.1 現狀概述
最后,讓我們談談移動承載網絡運維過程中遇到的問題。隨著LTE網絡的快速發展,手機視頻流量在移動網絡中的份額逐年上升。視頻業務體驗對用戶來說至關重要,然而傳統的網絡維護手段只關注網絡KPI,無法感知用戶的業務體驗,往往會出現網絡KPI很好,但用戶反映體驗很差的情況;同時當用戶投訴時,故障現象可能早已消失,造成問題定位困難。實際上更為常見的是,最終用戶為了避免麻煩、不進行任何投訴,選擇直接關閉應用窗口。這在無形中造成了用戶忠誠度的下降、繼而帶來用戶流失的風險。
本章節描述針對OTT移動視頻業務,如何實時監控用戶體驗,并在用戶觀看移動視頻發生卡頓時,能夠對移動承載網進行實時定界定位的運維方案。
3.2 方案描述
在承載網出口或Gi接口,通過分光或直通的方式部署SIG,SIG通過分析用戶報文直接監控用戶體驗。當SIG監測到用戶觀看視頻發生卡頓時,通告給uTraffic,uTraffic還原用戶視頻業務報文在承載網的傳輸路徑,并在傳輸路徑上部署管道IPFPM進行故障的定界定位。
用戶視頻卡頓監控
SIG通過觀察和分析用戶視頻報文,判斷視頻質量是否發生了劣化。原理如下:
SIG實時計算獲取視頻流已經下載的字節數、視頻播放的時間、播放器的播放碼率,如果播放碼率與視頻已播放時間大于已經下載的字節數,則表明卡頓發生了。
網絡故障定位
uTraffic接收到SIG傳來的用戶卡頓信息后, 向承載網設備查詢用戶視頻報文傳輸的路徑。 在用戶視頻報文的傳輸路徑確定后,在各設備上部署IPFPM檢測設備的丟包率,最終精確定位故障的設備。
IPFPM是華為公司提出的隨流的性能監控系統。它通過給報文的IP頭染色來提示沿路IPFPM測量點進行性能統計,不插入任何額外報文,并且具有高的精度, 能夠有效監控用戶業務流的性能狀況。
通過此方案的部署,運營商維護人員可以在定位到故障設備后, 快速有效的進行針對性排障, 保證用戶的視頻體驗。