1 引言
近年來,隨著IP網絡技術的廣泛應用,關于IP網絡所能提供的業務的服務質量問題受到研究者們越來越多的關注,如何來對服務質量進行科學可靠的測量與評價是網絡測量與網絡規劃設計中相當關鍵的問題。VoIP作為下一代基于分組傳輸的匯聚業務網絡的先驅,其語音質量的測量將為未來網絡的服務質量測量提供參考與經驗。
2 VoIP語音特性對網絡性能的要求
語音在IP網絡上的傳送,不同于傳統PSTN語音傳輸,它是采用語音編碼方式,將模擬話音數字化并打包后采用盡力投送的IP包傳送機制,通過IP網絡傳送到接收端,接收端收集數據包后語音解碼得到模擬話音。此外VoIP也與傳統的網絡應用有許多的不同,例如,像FTP文件傳輸方式盡可能地占用網絡帶寬去快速地傳送文件;而ERP應用程序則發送較少的數據,但是卻在發送者和接收者之間頻繁地交互數據流。相反,VoIP只占用很少的網絡帶寬,但是它不能容忍網絡的延時和變化。即使VoIP業務和傳統數據業務在同一網絡中實現,語音流和數據流也不能被同一方式處理,因為:
(1)它們有不同的數據包大小
(2)它們按照不同速率發送數據包
(3)它們以不同的方式緩存和傳送數據包到目的地
(4)它們必須滿足不同的用戶期望
目前,大部分網絡并沒有準備好為端到端的VoIP實施提供像PSTN一樣的語音質量和可靠性。現存的VoIP網絡主要實現了IP中繼,提供兩個遠距離的PSTN的廉價長途連接。以下的兩個主要VoIP的語音特性反映對網絡性能的具體需求:
第一,VoIP利用RTP實時傳輸協議傳送數據。RTP是一個基于無連接UDP的應用協議,UDP是無連接的,它不會對數據包的傳送提供應答和跟蹤,這樣RTP也不會重新傳送網絡的丟包,這就要求網絡傳輸中應盡可能減少數據包的丟失;此外,按照TCP的應用協議,RTP也沒有直接的碰撞控制,以致于因為發送者發送太多太快的數據包,接收者將被淹沒。為了克服這個問題,RTP應用程序總是以固定速率發送數據包,這就要求網絡能夠盡量以固定的速率傳輸數據包。
第二,交互式會話不能容忍過大的延時。一個典型的電話會話依賴于發起者和接聽者之間的大量的交互,交互得越多,在會談中所能承受的延時則越小。這就要求數據包通過網絡的延時盡可能的小。
由此可見語音在IP網絡上的傳輸需要考慮許多不同于傳統電話網絡和傳統數據網絡的因素,所有這些特性因素都將制約到VoIP的語音質量。
3 VoIP的語音質量評價標準
怎樣評判VoIP的語音質量是好或是壞?當然希望VoIP語音質量與PSTN的一樣好,這也稱為Toll 級別,它是非常好的,但是事實并不一定是這樣的。在實施VoIP以前或以后,必須知道網絡能夠有怎樣的語音質量,因此我們需要一些語音質量的測量標準。從發明電話開始,語音質量的測量方式是主觀的,人們摘起一個電話,然后由人耳來感知語音的好壞,這個方法是被廣泛認同的。在完善之后,這個主觀的語音質量測量方法就是現在的平均主觀值MOS方法,定義在ITU-T P.800中。基于該主觀評測,人類接聽和感知語音質量的行為被調研和量化,接聽何種級別質量的語音,得到多少平均主觀值MOS,人類將起主要的反映作用。這個語音質量和平均主觀值的對應關系為網絡的配置、基準和監視提供了標準依據。
一個平均主觀值MOS是4或更高,被認為是比較好的語音質量,而若平均主觀值MOS低于3.6,則大部分接聽者不能滿意這個語音質量。雖然平均主觀測試準確有效,但是,這個主觀方法存在的最大問題就是,在現實中,讓一組人接聽語音和評價語音的質量實現起來是非常困難和昂貴的,因此人們在不斷的探索能進行客觀測量的方法。
現在許多客觀的測量方法已經出現并被應用,諸如,PSQM /PSQM+感知通話質量測量[2],PESQ感知評估通話質量測量[3],PAMS(英國電信)感知分析測量等。PSQM和PAMS測量方法都需要發送一個語音參考信號通過電話網絡,在網絡的另一端采用數字信號處理的方式比較樣本信號和接收到的信號,進而估算出網絡的語音質量。PESQ結合了PSQM和PAMS的優勢,針對VoIP和混合的端到端應用作了改進,并針對MOS和MOS-LQ計算方法做了修改。最開始這些方法被用于測量編碼算法,后來也逐漸應用到VoIP網絡系統的測量中,著名的測量儀器生產廠商Agilent的語音質量測量儀器VQT即是代表。此外,有必要指出,平均主觀值MOS是廣泛認同的語音質量標準,因此,無論采用何種方法所有測量方法都必須對應它們的結果對應到最終的平均主觀值MOS,以上各種方法均可以最終以MOS值表示。
4 E-model測量方法的提出
以上介紹的測量方法在實驗室能夠很好地應用于分析個別設備的問題,例如,利用PSQM和PESQ分析話機的質量。但是這些測量方法不適用于在數據網絡上分析語音質量,是基于傳統的電話網絡。它們的缺點主要是,測量不是基于數據網絡的,不能反映諸如延時、抖動和丟包等數據網絡特有的問題,沒有考慮網絡故障對用戶感覺造成的影響,單純的從收發信號差異的角度分析網絡語音問題。為了克服這些缺點,國際電聯的G.107標準提出了E-model,它關注數據全面的網絡損傷因素,很好地適應在數據網絡中語音質量的評估。
E-model的前提是假設語音質量損傷因素總是物理附加的,簡單說來就是,如果諸如噪聲、回音、延時、編碼器性能、抖動等網絡損傷因素能夠被靈活的加入,那么網絡的一個全面客觀的質量等級或稱為“呼叫者體驗”的因素就能夠被估計。
4.1 E-model的基本算法公式及其與MOS值的對應
E-model用來作為算法最終結果的是R值,被稱為全面的網絡傳輸等級要素,取值范圍從0到100。R值的計算從沒有網絡和設備的損傷影響開始,此時語音質量是最好的,R=Ro。Ro是無網絡延時和設備損傷因素的基本信號與收發噪聲以及電流、背景噪聲之比,即基本信噪比。但是因為網絡和設備損傷因素的存在,減少了通過網絡的語音質量,R值的基本計算公式如下:
R=Ro- Is-Id-Ie+A
其中,Is:與語音信號傳輸同步的損傷
Id:語音信號傳輸延時后的損傷
Ie:由設備引入的損傷,例如編碼器損傷
A:優勢因素,致力于考慮呼叫者的期望因素,在大部分情況下,一般設置為0。
由公式可知,全面的語音質量(R值)的計算是通過首先估計一個連接的信噪比(Ro),然后從中減去網絡損傷(Is,Id,Ie),最后再用呼叫者對語音質量的期望(A)進行補償后得到。實際應用中,基本公式中的輸入Ro、Is、Id和Ie,每一個都需要考慮各種各樣的實際網絡損傷因素,通過非常復雜的數學計算而得到。
前面已經講過,任何的測量方法,最終都將對應為MOS值標準,E-model也一樣。下面的曲線圖清楚的表示出了R值和平均主觀值MOS之間的映射關系。X軸表示E模型的R值,Y軸表示平均主觀值MOS。
加入用戶的感知特性(以用戶滿意程度表示),進行語音質量等級劃分,對應R值和MOS值的范圍如下表所示。由于網絡數據與實際語音之間存在轉化過程,這樣固有的損耗使得R值最大只能到93.2,也就是平均主觀值MOS只有4.4。G.107的R值默認最大為94。
4.2 語音編碼方式、延時、抖動和丟包對R值的影響
網絡損傷的主要因素包括語音編碼、回聲、平均包延時,抖動和包丟失率。回聲產生于IP網絡與傳統PSTN相連處,在單一VoIP網絡內部暫不討論。在一個僅由編碼、延時、抖動和丟包造成系統失真的情況下,R的計算公式可以簡化如下:
R = Ro-Icodec-Idelay-Ipdv-Ipacketloss
下面將討論這四個主要損傷因素對R值的影響。
在語音處理中,編碼是以硬件或軟件的方式去采樣語音和決定數據包的速率。ITU標準定義了差不多十幾種編碼方式,每一種都有不同的特點。低速的編碼方式占用更少的帶寬,但是因為使用有損的壓縮算法,低速編碼更加削弱了語音質量。在實際情況中,選擇低速的編碼方式能夠在相同的連接上建立更多的呼叫,但是引入了更大的延時,使語音質量對丟包也更加敏感。因此選擇越低速率的編碼方式,將明顯地減少E模型的R值,當然這也不是完全絕對的。下表顯示了一些常用的編碼方式對應的Ie值和固有R值[4]。
延時是指話音從發起者到接收者所經過的時間[5],一般而言,端到端的延時由以下四部分組成:
(1)傳播延時:指話音從一端到另一端通過網絡的時間,由信號通過傳播媒介的速度和傳播的距離決定
(2)傳送延時:指通過網絡路徑上的所有網絡設備的時間
(3)包轉化延時:指的是編碼器進行數模轉化的時間
(4)抖動緩沖延時:指的是在接收端用來保持一個或多個接收的數據包的時間,用來克服數據包到達時間的變化,也就是克服抖動產生的延時
延時會引起語音會話過程的空白,帶來語音的變形和會話的中斷,也就是說,延時的增大導致了R值的減小。延時的時長在100~200ms之間開始被收聽者所察覺,使得會話不自然。建議的延時上限為150ms,若延時達到200ms則開始有嚴重的會話中斷。
抖動,也叫做延時的變化,是指在一個VoIP呼叫過程中所有發送的數據包到達的時間差異。當一個數據包發送時,發送端在RTP報文頭上增加一個時間戳;當在另一端被接收時,接收端同樣增加另一個時間戳;計算這兩個時間戳可以得到這個數據包的通路時間。如果在一個呼叫中包含不同的通路時間,則存在抖動。在視頻應用程序中,抖動表現為圖像閃動,而在電話呼叫中,它表現的效果與丟包產生的效果相似,某些字詞聽不清楚或錯誤。