VoIP語音質量測量新方法E-model

2019-11-03 09:01:05

字體：大中小

來源：轉載

供稿：網友

段潔

電子科技大學通信與信息工程學院

成都 610054

　　摘要本文介紹了新的語音質量測量方法E-model(ITU-T G.107)[1]，探討了Voip在現有網絡實施時的語音質量問題。基于VoIP語音特性對網絡性能的要求，對比傳統的以及現在常用的語音質量測量的多種方法，E-model克服了傳統語音質量評測方法用于數據網絡測量中的不足。在E-model的基本算法公式的基礎上，文章對影響E-model評測值Ｒ的因素進行了分析，并給出了Ｒ值與主觀評測MOS值的映射關系，最后討論了E-model用于實時VoIP網絡測量時的實際測量解決方案。

　　關鍵詞語音質量 IP網絡測量損傷因素

　　1 引言

　　近年來，隨著IP網絡技術的廣泛應用，關于IP網絡所能提供的業務的服務質量問題受到研究者們越來越多的關注，如何來對服務質量進行科學可靠的測量與評價是網絡測量與網絡規劃設計中相當關鍵的問題。VoIP作為下一代基于分組傳輸的匯聚業務網絡的先驅，其語音質量的測量將為未來網絡的服務質量測量提供參考與經驗。

　　2 VoIP語音特性對網絡性能的要求

　　語音在IP網絡上的傳送，不同于傳統PSTN語音傳輸，它是采用語音編碼方式，將模擬話音數字化并打包后采用盡力投送的IP包傳送機制，通過IP網絡傳送到接收端，接收端收集數據包后語音解碼得到模擬話音。此外VoIP也與傳統的網絡應用有許多的不同，例如，像FTP文件傳輸方式盡可能地占用網絡帶寬去快速地傳送文件；而ERP應用程序則發送較少的數據，但是卻在發送者和接收者之間頻繁地交互數據流。相反，VoIP只占用很少的網絡帶寬，但是它不能容忍網絡的延時和變化。即使VoIP業務和傳統數據業務在同一網絡中實現，語音流和數據流也不能被同一方式處理，因為：

　　（1）它們有不同的數據包大小

　　（2）它們按照不同速率發送數據包

　　（3）它們以不同的方式緩存和傳送數據包到目的地

　　（4）它們必須滿足不同的用戶期望

　　目前，大部分網絡并沒有準備好為端到端的VoIP實施提供像PSTN一樣的語音質量和可靠性。現存的VoIP網絡主要實現了IP中繼，提供兩個遠距離的PSTN的廉價長途連接。以下的兩個主要VoIP的語音特性反映對網絡性能的具體需求：

　　第一，VoIP利用RTP實時傳輸協議傳送數據。RTP是一個基于無連接UDP的應用協議，UDP是無連接的，它不會對數據包的傳送提供應答和跟蹤，這樣RTP也不會重新傳送網絡的丟包，這就要求網絡傳輸中應盡可能減少數據包的丟失；此外，按照TCP的應用協議，RTP也沒有直接的碰撞控制，以致于因為發送者發送太多太快的數據包，接收者將被淹沒。為了克服這個問題，RTP應用程序總是以固定速率發送數據包，這就要求網絡能夠盡量以固定的速率傳輸數據包。

　　第二，交互式會話不能容忍過大的延時。一個典型的電話會話依賴于發起者和接聽者之間的大量的交互，交互得越多，在會談中所能承受的延時則越小。這就要求數據包通過網絡的延時盡可能的小。

　　由此可見語音在IP網絡上的傳輸需要考慮許多不同于傳統電話網絡和傳統數據網絡的因素，所有這些特性因素都將制約到VoIP的語音質量。

　　3 VoIP的語音質量評價標準

　　怎樣評判VoIP的語音質量是好或是壞？當然希望VoIP語音質量與PSTN的一樣好，這也稱為Toll 級別，它是非常好的，但是事實并不一定是這樣的。在實施VoIP以前或以后，必須知道網絡能夠有怎樣的語音質量，因此我們需要一些語音質量的測量標準。從發明電話開始，語音質量的測量方式是主觀的，人們摘起一個電話，然后由人耳來感知語音的好壞，這個方法是被廣泛認同的。在完善之后，這個主觀的語音質量測量方法就是現在的平均主觀值MOS方法，定義在ITU-T P.800中。基于該主觀評測，人類接聽和感知語音質量的行為被調研和量化，接聽何種級別質量的語音，得到多少平均主觀值MOS，人類將起主要的反映作用。這個語音質量和平均主觀值的對應關系為網絡的配置、基準和監視提供了標準依據。

　　一個平均主觀值MOS是4或更高，被認為是比較好的語音質量，而若平均主觀值MOS低于3.6，則大部分接聽者不能滿意這個語音質量。雖然平均主觀測試準確有效，但是，這個主觀方法存在的最大問題就是，在現實中，讓一組人接聽語音和評價語音的質量實現起來是非常困難和昂貴的，因此人們在不斷的探索能進行客觀測量的方法。

　　現在許多客觀的測量方法已經出現并被應用，諸如，PSQM /PSQM+感知通話質量測量[2]，PESQ感知評估通話質量測量[3]，PAMS（英國電信）感知分析測量等。PSQM和PAMS測量方法都需要發送一個語音參考信號通過電話網絡，在網絡的另一端采用數字信號處理的方式比較樣本信號和接收到的信號，進而估算出網絡的語音質量。PESQ結合了PSQM和PAMS的優勢，針對VoIP和混合的端到端應用作了改進，并針對MOS和MOS-LQ計算方法做了修改。最開始這些方法被用于測量編碼算法，后來也逐漸應用到VoIP網絡系統的測量中，著名的測量儀器生產廠商Agilent的語音質量測量儀器VQT即是代表。此外，有必要指出，平均主觀值MOS是廣泛認同的語音質量標準，因此，無論采用何種方法所有測量方法都必須對應它們的結果對應到最終的平均主觀值MOS，以上各種方法均可以最終以MOS值表示。

　　4 E-model測量方法的提出

　　以上介紹的測量方法在實驗室能夠很好地應用于分析個別設備的問題，例如，利用PSQM和PESQ分析話機的質量。但是這些測量方法不適用于在數據網絡上分析語音質量，是基于傳統的電話網絡。它們的缺點主要是，測量不是基于數據網絡的，不能反映諸如延時、抖動和丟包等數據網絡特有的問題，沒有考慮網絡故障對用戶感覺造成的影響，單純的從收發信號差異的角度分析網絡語音問題。為了克服這些缺點，國際電聯的G.107標準提出了E-model，它關注數據全面的網絡損傷因素，很好地適應在數據網絡中語音質量的評估。

　　E-model的前提是假設語音質量損傷因素總是物理附加的，簡單說來就是，如果諸如噪聲、回音、延時、編碼器性能、抖動等網絡損傷因素能夠被靈活的加入，那么網絡的一個全面客觀的質量等級或稱為“呼叫者體驗”的因素就能夠被估計。

　　4.1 E-model的基本算法公式及其與MOS值的對應

　　E-model用來作為算法最終結果的是Ｒ值，被稱為全面的網絡傳輸等級要素，取值范圍從0到100。Ｒ值的計算從沒有網絡和設備的損傷影響開始，此時語音質量是最好的，Ｒ=Ｒｏ。Ｒｏ是無網絡延時和設備損傷因素的基本信號與收發噪聲以及電流、背景噪聲之比，即基本信噪比。但是因為網絡和設備損傷因素的存在，減少了通過網絡的語音質量，Ｒ值的基本計算公式如下：

　　Ｒ=Ｒｏ- Ｉｓ-Ｉｄ-Ｉｅ+Ａ

　　其中，Ｉｓ：與語音信號傳輸同步的損傷

　　Ｉｄ：語音信號傳輸延時后的損傷

　　Ｉｅ：由設備引入的損傷，例如編碼器損傷

　　Ａ：優勢因素，致力于考慮呼叫者的期望因素，在大部分情況下，一般設置為0。

　　由公式可知，全面的語音質量（Ｒ值）的計算是通過首先估計一個連接的信噪比（Ｒｏ），然后從中減去網絡損傷（Ｉｓ，Ｉｄ，Ｉｅ），最后再用呼叫者對語音質量的期望（Ａ）進行補償后得到。實際應用中，基本公式中的輸入Ｒｏ、Ｉｓ、Ｉｄ和Ｉｅ，每一個都需要考慮各種各樣的實際網絡損傷因素，通過非常復雜的數學計算而得到。

　　前面已經講過，任何的測量方法，最終都將對應為MOS值標準，E-model也一樣。下面的曲線圖清楚的表示出了Ｒ值和平均主觀值MOS之間的映射關系。X軸表示E模型的Ｒ值，Y軸表示平均主觀值MOS。

　　加入用戶的感知特性（以用戶滿意程度表示），進行語音質量等級劃分，對應Ｒ值和MOS值的范圍如下表所示。由于網絡數據與實際語音之間存在轉化過程，這樣固有的損耗使得Ｒ值最大只能到93.2，也就是平均主觀值MOS只有4.4。G.107的Ｒ值默認最大為94。

　　4.2 語音編碼方式、延時、抖動和丟包對R值的影響

　　網絡損傷的主要因素包括語音編碼、回聲、平均包延時，抖動和包丟失率。回聲產生于IP網絡與傳統PSTN相連處，在單一VoIP網絡內部暫不討論。在一個僅由編碼、延時、抖動和丟包造成系統失真的情況下，Ｒ的計算公式可以簡化如下：

　　Ｒ = Ｒｏ-Ｉｃｏｄｅｃ-Ｉｄｅｌａｙ-Ｉｐｄｖ-Ｉｐａｃｋｅｔｌｏｓｓ

　　下面將討論這四個主要損傷因素對Ｒ值的影響。

　　在語音處理中，編碼是以硬件或軟件的方式去采樣語音和決定數據包的速率。ITU標準定義了差不多十幾種編碼方式，每一種都有不同的特點。低速的編碼方式占用更少的帶寬，但是因為使用有損的壓縮算法，低速編碼更加削弱了語音質量。在實際情況中，選擇低速的編碼方式能夠在相同的連接上建立更多的呼叫，但是引入了更大的延時，使語音質量對丟包也更加敏感。因此選擇越低速率的編碼方式，將明顯地減少E模型的R值，當然這也不是完全絕對的。下表顯示了一些常用的編碼方式對應的Ｉｅ值和固有Ｒ值[4]。

　　延時是指話音從發起者到接收者所經過的時間[5]，一般而言，端到端的延時由以下四部分組成：

　　（1）傳播延時：指話音從一端到另一端通過網絡的時間，由信號通過傳播媒介的速度和傳播的距離決定

　　（2）傳送延時：指通過網絡路徑上的所有網絡設備的時間

　　（3）包轉化延時：指的是編碼器進行數模轉化的時間

　　（4）抖動緩沖延時：指的是在接收端用來保持一個或多個接收的數據包的時間，用來克服數據包到達時間的變化，也就是克服抖動產生的延時

　　延時會引起語音會話過程的空白，帶來語音的變形和會話的中斷，也就是說，延時的增大導致了Ｒ值的減小。延時的時長在100~200ms之間開始被收聽者所察覺，使得會話不自然。建議的延時上限為150ms，若延時達到200ms則開始有嚴重的會話中斷。

　　抖動，也叫做延時的變化，是指在一個VoIP呼叫過程中所有發送的數據包到達的時間差異。當一個數據包發送時，發送端在RTP報文頭上增加一個時間戳；當在另一端被接收時，接收端同樣增加另一個時間戳；計算這兩個時間戳可以得到這個數據包的通路時間。如果在一個呼叫中包含不同的通路時間，則存在抖動。在視頻應用程序中，抖動表現為圖像閃動，而在電話呼叫中，它表現的效果與丟包產生的效果相似，某些字詞聽不清楚或錯誤。抖動的大小取決于數據包的通路時間的差異程度，差異程度越大，則抖動也越大。如果抖動值大于50ms，則平均主觀值MOS值劇烈地降低，認為是極差的語音質量。通過增加抖動緩沖的數量，可以有效地降低抖動的影響，但是增加了一毫秒的抖動緩沖，則相應增加了一毫秒的網絡延時。

　　丟包是一個影響語音質量的關鍵因素。數據包發送端和接收端之間的數據包數目的差值即為網絡傳輸丟失包數目。VoIP使用RTP實時傳輸協議傳輸語音數據包，雖然可以利用RTP報文頭的序列號檢查數據包的丟失和亂序，但是它并沒有重傳機制。任何丟包和亂序都將影響語音的質量。網絡主要有兩種類型的丟包情況，一種是或多或少的隨機丟包，當網絡保持沖突碰撞時，就會偶爾有一個或兩個數據包發生丟失；另一種是爆裂丟包，是指連續一個以上的數據包丟失，會顯著地影響語音質量，明顯減小R值。當少量的丟包是隨機地分布時，人耳并不容易感覺到較差的語音質量。

　　E-model測量方法正是將這些網絡的損傷因素充分予以考慮，以此作為對網絡語音質量的全面傳輸評估，真正意義上的研究了數據包化的語音呼叫的質量問題。

　　5 運用E-model對實時的VoIP網絡進行語音質量測量

　　一種E-model在實時網絡測量中的應用[6]，就是測量幾個有限的E 模型參數，同時估計其它非測量參數，從而運算出反映網絡全面傳輸質量的Ｒ值。一種客觀的語音質量測量輸出了MOS值，將該MOS值轉換為Ｉｅ參數，與此同時根據網絡信息查找E模型參數參考表得到非測量參數的值，最后將所有的參數進行運算，得到最終的反映全面質量的Ｒ值。

　　除此之外，有的測量儀器廠商設計的基于E-model的評估工具，能夠在數據網絡的軟件代理之間產生RTP數據流去模擬VoIP語音呼叫，每次這個模擬VoIP語音呼叫運行時，網絡延時，抖動和丟包將作為測量結果而被記錄，這個測量通過E-model計算公式得到一維的結果R值，然后再對應到平均主觀值MOS。此時，并沒有真實的語音信號通過數據網絡，與以前的諸如VQT一類的測量儀器使用真實語音信號通過數據網絡的測量方法是完全不同的。

　　6 結論

　　評估語音質量的國際電信聯盟的E-model標準，可以準確地建立包丟失分布和最終用戶感覺模型，將包丟失分布與編碼器和時延等建立關系，以便給出一個單一的得分。該方法被視為在數據網絡中進行語音質量評估具有相當的準確度。但是正如ITU-T G.107規范開頭所述“這樣的評估僅用于傳輸設計的目的，并非為了實際用戶評價預測（因為還沒有ITU-T建議的統一的模型）。”E-model相當大數量的可能輸入參數的組合情況還未經過足夠的界內驗證和充分的實驗室測量。許多對于傳輸設計具有高重要度的組合情況，E-model已經可以被確信的應用，但是對于其它的一些研究未涉及或不成熟的參數組合情況，E-model的估測仍處在置疑和研究的階段。

　　參考文獻

　　[1] ITU-T Recommendation G.107, The E-Model, a computational model for use in transmission planning, March 2003

　　[2] ITU-T Recommendation P.861, Objective quality measurement of telephone-band (300-3400Hz) speech codecs,February 1998

　　[3] ITU-T Recommendation P.862, Perceptual evaluation of speech quality (PESQ), an objective method for end-to-endspeech quality assessment of narrowband telephone networks and speech codecs, February 2001

　　[4] Jan Janssen, Danny De Vleeschauwer and Guido H. Petit, Delay and Distortion Bounds for Packetized Voice Calls of Traditional PSTN Quality, Alcatel, Network Strategy Group Francis Wellesplein 1, B-2018 Antwerp, Belgium, APRil 2000

　　[5] ITU-T Recommendation G.114, One-Way transmission time, May 2003

　　[6] Psytechnics Limited, The E-Model, R Factor and MOS, 23 Museum Street Ipswich, Suffolk United Kingdom, December 2003

　　段潔，云南昆明，碩士，就讀院校：電子科技大學通信與信息工程學院，研究方向：多媒體通信與網絡綜合服務技術；導師：李在銘

　　
----《中國數據通信》