MATLAB语音情感智能识别的建模与仿真(6)

如上图13短时平均过零率、图14无声部分与有声部分比率图所示，人在不同情绪状态下，语速的快慢程度是不同的。如在悲伤的情绪下，语速最慢，在高兴、愤怒状态下有声部分与无声部分的比率最低。所以重点分析的是短时平均过零率和有声部分与无声部分比率这两个参数。虽然在不同性别、年龄下，这些特征存在个体差异，但是总体变化趋势是相同的。
2.3.2 振幅相关特征分析
振幅相关特征有短时平均振幅、短时平均能量、最大振幅、短时振幅平均变化率和短时能量平均变化率等等。由于短时平均振幅与短时平均能量在变化趋势上趋于一致，所以本文只给出短时平均振幅和短时振幅平均变化率[10]。
短时平均能量用表示，平均能量变化率用语音帧的数量用表示，则短时平均能量和平均能量变化率的计算式分别为：
                                                         （9）
                                                     （10）
图15 短时平均振幅                            图16 最大振幅
2.3.3 基频相关特征分析
基音频率也是反映情感信息的重要参数之一。本文主要选取两个情感语音特征，分别是基频均值和基频均方差。基频均值如图17所示，基频标准方差如图18所示。从图17中可以看出，惊讶和愤怒状态下基频均值最高，且在所有的情感状态下，男性的基频均值均比女性要低，但他们的变化趋势基本一致。从图18可以看出，愤怒情感状态下的基频标准方差最大，且男女的基本变化趋势一致。
图17 基频均值                               图18 基频标准方差
2.3.4 共振峰相关特征分析
共振峰是反映声道特性的一个重要参数。当人处于不同的情感状态下，神经所处的紧张程度不同，所以声道在发同一个声音的时候发生形变，从而改变了声道的固有频率，这一点在语音信号中必然表现出不同的共振峰峰值。因此，本文将第一、第二、第三共振峰作为情感语音识别中的重要参数[11]。如下图19第一共振峰、图20第二共振峰和图21第三共振峰所示。

图19 第一共振峰频率                      图20 第二共振峰频率
图21 第三共振峰频率
2.3.5 MFCC相关特征分析
MFCC计算简单，是对人耳非线性频率分辨率的模仿，是目前使用较为广泛的语音情感特征参数。但MFCC也有其局限性，即，它是基于傅里叶变换（FT）的，而FT适合处理平稳信号，但我们录入的情感语音信号却是幅度随时间变化很大的非平稳信号。那么，基于FT的MFCC就不能完全准确反映出语音信号特征。Mel频率与实际频率的关系如下：
                                                （11） MATLAB语音情感智能识别的建模与仿真(6):http://www.751com.cn/zidonghua/lunwen_1386.html