话音质量的感受是比较主观的,一个网络能够提供给用户什么样的话音质量?如何来评估话音质量的优劣?如何将这种感受客观量化?本文通过对模拟感知原理、PESQ算法与POLQA算法的简单描述,介绍 MOS测试原理及其在移动网VOLTE话音质量评估与优化方面的应用。
关键词:
话音质量 MOS PESQ算法 POLQA算法 VOLTE
Voice quality is relatively subjective. What kind of voice quality can a network provide to users? How to evaluate the quality of voice? How to quantify this feeling objectively? In this paper, the principle of MOS test and its application in the evaluation and optimization of the voice quality of mobile network are introduced through the simple description of the principle of analog perception, the PESQ algorithm and the POLQA algorithm.
KEY WORDS:
Voice quality, MOS, PESQ algorithm, POLQA algorithm,VOLTE
随着移动通信网络的逐步发展和完善,KPI指标和网络质量都已经有比较明确量化的标准了,维护和优化的重点正在转向关注用户的感受和体验方面。
语音业务比重虽然在不断降低,但仍是手机的主要功能;并且用户对于语音业务的敏感度要高于数据上网业务。话音质量的优劣直接影响到用户的感受,而这种感受是比较主观的,那么如何来衡量和评估一个网络中的语音用户通话质量和感受呢?又怎么将这种感受和体验按照标准来量化呢?
影响话音质量的因素是多方面的,语音传递过程中存在着多种语音编码、数模和模数转换、回声消除、噪声抑制、电平控制、信号放大等等;在分组交换网络中还有各种延时,包丢失等等。而这些因素直接导致话音质量的变化,用户也就有了通话质量变化的感觉。那么如何将主观用户的感知来量化体现呢?比较传统的评估方法是通过CQT、DT来采集测试数据,通过采集RXQUAL、FER、BER、SQI 、CQI等网络指标来评诂网络质量。如下图为传统的评估过程:
图1传统的测试评估简图
但是这些指标与用户主观话音质量感受之间还是有非常大的差异的,RXQUAL、FER、BER、SQI、CQI等网络指标表现好并不能说明话音质量就是好,因为话音质量的感受是一个相对主观的评估,用户能够感受到话音质量好才是真的好,而用户感受话音质量的优劣与这些指标是不完全关联的。这也能说明为什么一个网络,其测试指标很好而用户一直投诉通话质量差的原因了,也就是说仅用这些指标来评估用户主观话音质量感受是不够的,需要引入新的指标来衡量这种主观的感受。用户对话音质量的感知是有差异的,这种差异很难进行量化,因此ITU P.800 规范了话音质量的5级影响程度值,采取将测试信号与标准信号进行对比,按照感知影响程度的不同进行分类规范,如下表:
表1感知影响程度分级表
在一次采样测试中会存在测试信号与多个标准语音片段的对比,每次语音片段测试对比都对应一个受影响级别的等级值,当一次采样测试完成后统计所有的片段测试受影响等级值,就会得到一个平均看法值(Mean Opinion Score),也就是常说的MOS值。ITU P.800根据听者的感觉规范了MOS (mean opinion score)分值,参照感知模型, 通过客观科学的算法模拟和映射出主观语音分值MOS,按照MOS值的分布来量化主观用户感知。由于话音质量感受的主观性比较大,在MOS测试中,用客观的测试仪器、判决方法等来代替主观的测试和评估,这种替代也就是感知模拟的过程。为了评估话音质量的情况,依据一定的算法准则模拟用户感知,比较参考信号和测试信号的差异,并将这种差异感知按受影响程度等级分类统计,得出整体质量的评估就是一般的MOS测试过程。
感知模拟一般是通过比较测试信号和参考信号来模拟用户感知,简化的参考模型如下:
图2简化的感知模拟
输入的参考信号和测试信号经过感知模拟后比较差异,这种差异通过认知模拟输出一个质量数值(受影响值),这一系列的质量数值可类比于平均看法值,即MOS 值。话音质量评估需要尽可能实现从主观到客观的转变,包括使用测试仪器的客观、模拟算法的科学性等方面,相比PACE,PAMS,PSQM,VQI等众多算法, 话音质量知觉评估PESQ(Perceptual Evaluation of Speech Quality) 是最科学且与MOS相关性最好的算法,也是ITU 重点推荐的算法,其实现大致如下:
图3PESQ 算法结构简图
对比简化的感知模拟算法结构,可以看到PESQ 感知模拟细化了感知模拟的过程,采用电平调整、时间调整和对齐、噪声处理、音觉变化等方式来模拟感知的变化过程:参考信号输入,其中一路经过系统后成为测试信号(话音质量有所降低),PESQ就是模拟用户的感知来比较参考信号和测试信号(经过系统后的测试信号)的差异,最后输出一个PESQ 分值,PESQ分值通过P.862.1映射成MOS,这是目前最准确和最可靠的语音评分标准。通过这样的模拟感知,将话音质量的主观感受用MOS值来来量化体现,实现了将主观评估转变成客观数据评价的过程,使得网络中的主观话音质量感受都有了客观评估的标准,也能比较准确反映网络中话音质量主观感受的变化。
从2G/3G传统电路域的语音发展到IP语音,MOS测试有什么变化?需要从PESQ算法发展到POLQA算法(Percepual Objective Listenning Quality Analysis),就是从ITU P.862发展到ITU P.863。
图4 语音质量测试算法发展图
ITU P.863是下一代语音质量测试技术,适用于固话、手机和IP网络。通过比较已知的参考信号和经过待测系统后的退化信号,得到MOS分。应用POLQA算法对手机的通话语音质量进行客观评估,分析影响手机通话性能的各种因素。P.863的目标是预测用户感知,从窄带到超宽带的所有通信系统的聆听语音质量。正因为P.863的应用带宽得到了扩展,POLQA算法可用于VoLTE的语音质量评估。
POLQA算法原理和PESQ算法类似,通过比较参考信号和待评估的劣化信号,输出感知质量的预估值,劣化信号是参考信号经过通信系统后的信号。具体如图4所示。
图5 POLQA算法基本原理
对信号的处理步骤包括:帧分割、时间对齐、延迟计算,然后通过感知模型把参考信号和劣化信号转换成内部表征。把这些表征指标综合起来给出客观聆听质量MOS分。帧分割是指把参考信号和劣化信号分割成一小段的等长的时间片,即帧信号。由于经过通信系统后,劣化信号存在延时、电平变化、数据包错位或丢失等情况,因此非常重要的一步是要把参考信号帧和劣化信号帧一对一的匹配,这样才能对每一对帧进行比较分析。POLQA算法是在参考信号中寻找和劣化信号帧的匹配帧,分别计算参考信号帧和匹配的劣化信号帧的延时。POLQA算法使用了6个表征指标:频率响应指标(FREQ)、噪声指标(NOISE)、混响指标(REVERB)、以及3个描述内部差异的指标,即时间、音调、响度域。在POLQA算法中,MOS-LQO分在窄带模式下最高为4.5分,超宽带模式下为4.75分。
MOS测试实际上就是通过测试信号与标准信号对比,模拟用户的感知来评估话音质量的过程,通过输入标准信号、测试信号,按照PESQ算法来评估话音质量,输出评估的结果,从而实现用客观数据来反应主观感受的变化。其测试过程实现的简单描述如下图:
图6MOS测试设备连接示意图
上图为比较典型的MOS测试设备连接示意图,测试手机2部、四口卡、USB连接线、笔记本、数据线、测试软件、PCMCIA 声卡和音频线。按上图连接好设备,设置好测试软件后开始测试,大致的过程简述如下:软件自动播放标准的语音参考信息,通过PCMCIA 声卡发送到测试手机1为参考信号;测试手机1呼叫连接测试手机2,标准语音信号也就传送到了测试手机2;到达测试手机2的就是测试信号,然后测试信号通过音频线再回送到PCMCIA 声卡并录音,经过声卡的模数数模转换、时间调整、线形对齐以后,软件对标准语音信号与测试信号按照PESQ 算法模拟用户感知,比较差异,并且生成PESQ Score,PESQ Score再映射成MOS 值,这个结果就是所关心的MOS测试结果。
用户的感受直接影响到网络运营商的品牌和市场的可持续性发展,网络运营商也关心自己网络质量指标这么好为什么还是有那么多用户投诉话音质量差呢?自己的网络到底能够为用户提供什么样的话音质量呢?如何评估自己网络所能提供的话音质量呢?
凭借优异的模拟感知PESQ 算法,MOS测试在有效的客观评估用户话音质量方面得到了广泛的应用。模拟感知PESQ 测试得到PESQ Score 取值范围是[-0.5 ~4.5],通过P.862.1映射成MOS。
MOS 取值范围 [1, 5] ,包含小数点,一般等级划分为5级: 1= 很差, 2= 差, 3= 一般, 4= 良好, 5= 优秀;MOS是广泛认同的语音质量标准,当MOS大于3时,用户使用VoLTE业务通话不会影响交流,而在MOS小于3时,基本无法听清,严重影响用户感知。
表2MOS分值与用户感知对应表
级别 | MOS分值 | 用户满意度 |
优 | 4.0-5.0 | 很好,听得清楚,无失真杆,无延迟感 |
良 | 3.5-4.0 | 稍差,听得清楚,延迟小,有点杂音 |
中 | 3.0-3.5 | 可以接受,有一定延迟,可以交流 |
差 | 1.5-3.0 | 勉强,听不太清,有较大杂音或断续,失真严重 |
劣 | 0-1.5 | 极差,静音或完全听不清,杂音很大 |
一般网络优化中采用MOS值的分布比例来评估网络话音质量,重点考核MOS低分值区域的分布率,即MOS<3的区间所占比例,通常网优采用降低硬切换比例,改善无线网络质量,减少切换、减少掉话等手段来改善网络覆盖情况提高MOS值。而且测试时MOS值立即可见,便于测试者知道话音质量的变化情况,及时采取应对措施。比如在DT测试时除了常规指标测试以外,还可以评估各测试区域的话音质量概况,模拟测试区域语音用户的感受;投诉处理时也可以避免CQT测试的主观判断,利于对区域的故障及时定位处理;还可以作为工程验收的客观数据保存等等。
7.1 中国移动集团VOLTE语音MOS测试要求
中国移动对MOS分的定义为路测MOS分,基于宽带AMR(AMR WB)的POLQA算法打分。MOS评分原则中国移动集团只有语音MOS的测试标准,视频业务目前业界无通用MOS测评标准,所以现阶段VoLTE的MOS值测试仅针对语音业务。
针对目前移动场景,VoLTE与VoLTE通话协商的编码为AMR-WB宽带编解码,提供高清语音体验;VoLTE与2G/3G CS业务互通协商的编码为AMR-NB窄带编码(与CS域的编解码相同),因此MOS测试采用VoLTE拨打VoLTE的方式,测试宽带VoLTE编码的语音质量。
中国移动集团对MOS分的定义为路测MOS分,采用P.863算法进行评估。集团对MOS测试工具要求:珠海世纪鼎利Pioneer、北京惠捷朗(CDS),现阶段测试终端是HTC M8T。目前的MOS评分周期是9秒输出一个MOS分,主叫和被叫周期交替发送固定语料。每隔9秒鼎利设备的主叫和被叫会输出一个MOS分,发送端发送语料的时候,接收端静默接收,不存在主被叫同时发送语料的情况,无论是主叫发语料还是被叫发语料,对端接收后都会在MOS盒和原始语料进行对比,所以主叫和被叫的MOS是一致的。每个MOS语料发送周期内(9秒),连续的语音分为两段,每段时间2秒左右,总的发音时长4秒左右。其余时间都是发送静默帧(SID)。160ms发包周期的都是SID帧,20MS发包周期的都是有语音的RTP包。
MOS考核要求MOS平均分,即POLQA算法平均得分,目标值:3.5,挑战目标:4.0;MOS>3.0占比,即MOS得分>3.0的采样点占比,目标值:85%,挑战目标:90%;MOS>3.5占比,即MOS得分>3.5的采样点占比,目标值:80%,挑战目标:85%。
影响Volte MOS值的因素主要有语音编码、端到端时延、抖动、丢包率等原因。语音编码eSRVCC切换到GSM,采用EFR/NB-AMR,导致MOS分低,SRVCC到2G后,语音质量会变差;LTE语音评估算法是POLQA算法进行评估,主要是用了评估WB的,而2G是属于NB的,用这种算法评估2G MOS值是不合适的,所以MOS会出现下降。
7.2 VOLTE语音流程
图7VOLTE用户呼叫VOLTE用户流程图
图8VOLTE用户呼叫CS域用户流程图
以VOLTE用户呼叫VOLTE用户为例, VoLTE上行语音包处理流程涉及的网元包括终端、eNodeB、S/P-GW、SBC以及传输承载网及其网元设备。在VoLTE中大部分网元只是透传语音数据包并不进行语音编解码处理。
1)UE 终端
UE终端中,处理语音的主要包含的模块主要包括(以海思芯片终端为例):CODEC/HIFI,其中CODEC负责语音数据的采集和播放,主要功能有模/数或数/模转换(A/D)、变采样处理(SRC);HiFi负责语音音效处理和编解码,音效处理主要包括3A(回声抑制、噪声抑制和幅度调整)和BWE(扩频算法,只在窄带通话下行使用)。目前编解码支持AMR-NB和AMR-WB两种。VoLTE的AMR-NB/AMR-WB语音包经过RTP/UDP/IP层封装后,进入LTE PDCP层,由LTE空口协议栈再进行数据封装和转发(这也是OMC中PDCP包数远大于中创平台RTP包数的原因)。
2)EnodeB
语音包以RTP协议封装透传至核心网EPC的S/P-GW;
3)S/P-GW
语音包以RTP协议封装透传至会话边界控制器SBC;
4) SBC
SBC支持IMS网络与IMS网络、NGN网络、H.323网络以及其他IP网络间互通;当会话双方经SBC进行媒体报文转发时,若两侧媒体格式不一致,由SBC实现会话两侧的媒体格式转换,使会话双方在使用的媒体格式不一致时仍然能够实现媒体互通,满足基本会话要求,实现音频编解码转换。
7.3VOLTE的MOS提升优化思路
7.3.1 语音编码介绍
语音编码就是对模拟的语音信号进行编码,将模拟信号转化成数字信号,从而降低传输码率并进行数字传输,语音编码的基本方法可分为波形编码、参量编码(音源编码)和混合编码,波形编码是将时域的模拟话音的波形信号经过取样、量化、编码而形成的数字话音信号,参量编码是基于人类语言的发音机理,找出表征语音的特征参量,对特征参量进行编码,混合编译码是结合波形编译码和参量编译码之间的优点。
7.3.2语音编码优化方法
VoLTE常见的语音编码主要包括23.85k和12.65k,终端最终能够得到语音编码将直接影响测试过程MOS得分,语音编码越高,MOS分值也就越高。
如果一直占用LTE网络的话不存在语音编码为AMR-NB(12.2k)导致的MOS低问题。
当发生eSRVCC切换后占用GSM语音编码就会变为AMR-NB12.2kbps,GSM MOS值相比较VoLTE MOS值较差,则需重点解决eSRVCC。
为了尽量减少eSRVCC切换次数,要确保4G网络存在连续覆盖:
· 核查4G有无漏配邻区,邻区配置是否不一致,切换参数是否正常。
· 针对弱覆盖进行RF优化、功率调整、站点整改或新建站。
· 核查eSRVCC切换门限是否合理。
7.3.3RTP丢包优化方法
部署了SGI服务器探针后,可从中创信令平台提取VOLTE-VOLTE的RTP以及RTCP的相关数据,有效评估计算单次VOLTE-VOLTE通话MOS值等KQI指标,对语音质量进行评判分析。
注:每个节点处统计的RTP丢包情况成为“RTP丢包数”,“RTCP丢包数”为终端统计并发出的端到端丢包统计情况。
图9SGI探针位置示意图
为综合表征4G无线质量和VoLTE语音感知,定义了感知丢包=空口丢包+基站弃包,来表征小区级无线质差。空口丢包主要原因有:下行质差、频繁切换、上行干扰、RRC重建、小区重载、上行接入受限。其中现网常见原因主要有下行质差、频繁切换、上行干扰、RRC重建、小区负荷过大等,需要针对具体问题逐一优化,特别是MOS值差的点的优化。
对于一个成熟稳定的通信网络而言,评估用户的感受将会受到越来越大的重视,维护和网络优化重点也会转向如何更有效的评估用户的感受方面。MOS测试也会在网优和维护中得到更广泛的应用。
1、ITU-T Recommendation P.800, Methods for subjective determination of transmission quality,1996
2、ITU-T Recommendation P.862, PESQ an objective method for end-to-end speech qualityassessment of narrowband telephone networks and speech codecs, February 2001
3、ITU-T Recommendation P.862.1, Mapping function for transforming P.862 raw result scores toMOS-LQO
4、VoLTE MOS提升指导书,中国移动集团公司
5、《听觉质量客观感知评估算法及其应用》吴东海 移动通信, 2015,39(8): 84-86