毕业论文

打赏
当前位置: 毕业论文 > 自动化 >

MATLAB语音情感智能识别的建模与仿真(5)

时间:2016-12-21 11:12来源:毕业论文
上述三个公式分别是语音信号绝对值累加和、平方累加和以及平方的对数累加和。在计算时,可以选择其中任意一种。本文选择第二个计算式,那么,在


上述三个公式分别是语音信号绝对值累加和、平方累加和以及平方的对数累加和。在计算时,可以选择其中任意一种。本文选择第二个计算式,那么,在 时刻,短时能量的计算式如下:
               (7)
计算式中的 为帧长。
在MATLAB中,短时能量的命令语句为:amp=sum(abs(x),2)[7];
短时能量的曲线如下图8所示。
 
图8 帧长为200的语音短时能量
将录入的语音信号进行分帧,然后计算每一帧的短时能量,使其与设定的门限值相对比,就可以简单地确定语音信号的起始位置,也就是进行简单的端点检测。但是,单靠短时能量这一个指标是不可靠的。在发清音时,靠的不是人声带的震动,而是空气在口腔的摩擦和冲击。这样对其进行短时能量计算时,所算得的值较小,甚至低于设定的门限值,这样就会被认为是静音部分而被过滤掉,导致语音信号的丢失。所以引入了过零率这个重要参数。
过零率,指的是每一帧信号通过零的次数,它是对语音信号频率的一种简单的度量。若输入连续信号的正弦波,则过零率等于信号频率的两倍。对本身频率为 ,采样的频率是 的非连续信号,平均每个样本信号的过零率为 。
短时平均过零率有如下定义式[8]:
    (8)
一般情况下,取  ,式中, 。
这样定义的过零率有缺点,即很容易受到低频信号的干扰。为了解决这个问题,可以对上述定义稍作修改,即不是与零相比较,而是设定一个新门限,那么,过零率,也即是一帧信号时间内,语音信号通过正负门限的次数。门限过零率如下图9所示。
 
图9 门限过零率
设定窗长220,帧重叠率为50%,给定一段语音,一段语音的短时平均过零次数变化曲线如图10。
图10    一段语音的短时平均过零率
图10 一段语音的短时平均过零率
2.2.4 双门限检测法
双门限检测,是一种基于短时能量(Energy)和短时过零率(ZCR)的端点检测方法,即先进行短时能量的判定,再进行过零率的判定。如图11短时能量、图12短时过零率所示,首先选取一个较高的门限值amp1,则可认为,语音的起始位置肯定位于图中AB段之外,因为大部分有效情感语音都位于此段。较低门限值amp2是根据背景噪声的平均能量确定的。在A点左方和B点右方分别找到短时能量包络与较低门限值amp2第一次相交的点C和点D。那么,图中所示的CD段即为用短时能量法判断所得的有效语音段,C和D点分别是有效语音开始和结束的起止点。这就完成了第一次的判定。
图11 短时能量
图12 短时过零率
然后用短时过零率的方法进行判定。从C点向左,D点向右分别寻找短时过零率第一次低于门限值zcr的点E和F,经过这样的双门限检测,最终得到的EF段即为所要找的有效情感语音段[9]。
经对比分析,双门限法很好地结合了短时能量和过零率的优点,提高了端点检测精确度,有效地降低了误检率。
2.3 语音情感特征的提取
语音情感特征的提取是整个语音情感识别的关键步骤,它将直接影响识别的准确度,所以要选用较好的语音特征提取方法。目前的特征参数有共振峰、过零率与峰值幅度(ZCPA)、线性预测倒谱系数(LPCC)、美尔频率倒谱系数(MFCC)、LPC系数及其派生参数等。
2.3.1 时长相关特征分析
      图13 短时平均过零率                          图14 无声部分与有声部分比率 MATLAB语音情感智能识别的建模与仿真(5):http://www.751com.cn/zidonghua/lunwen_1386.html
------分隔线----------------------------
推荐内容