语音信号采集程序设计+文献综述(4)

14H~15H   2   整数   格式种类（值为1时，表示数据为线性PCM编码）
16H~17H   2   整数   通道数，单声道为1，双声音为2
18H~1BH   4   长整数   采样频率
1CH~1FH   4   长整数   波形数据传输速率（每秒平均字节数）
20H~21H   2   整数   数据的调整数（按字节计算）
22H~23H   2   整数   样本数据位数
表1 WAV文件的文件头
偏移地址   字节数   类型   内容
24H~27H   4   字符   数据标志符（data）
28H~2BH   4   长整型   采样数据总数
2CH...   ...
采样数据
表2 WAV音频文件的数据块
2.3 WAV音频文件特点
WAV音频格式的优点包括：简单的编/解码（几乎直接存储来自模/数转换器（ADC）的信号）、普遍的认同/支持以及无损耗存储。WAV格式的主要缺点是需要音频存储空间。对于小的存储限制或小带宽应用而言，这可能是一个重要的问题。WAV格式的另外一个潜在缺陷是在32位WAV文件中的2G限制，这种限制已在为SoundForge开发的W64格式中得到了改善。

3 语音信号的采集及分析技术
3.1 语音信号的采集
3.1.1 防混叠预滤波
在将语音信号进行数字化前，必须先进行防混叠预滤波，预滤波的目的有两个
（1）一是输入信号各领域分量中频率超过fx/2的所有分量（fx为采样频率），以防止混叠喊绕。
（2）一是50hz的电源工频干扰。
3.1.2 原始模拟语音信号的采样和量化
为了将原始模拟语音信号变为数字信号，必须经过采样和量化两个步骤，从而得到时间和幅度上均为离散的数字语音信号。采样也称抽样，是信号在时间上的离散化，即按照一定时间间隔△t在模拟信号x(t)上逐点采样其瞬时值。采样时必须要注意满足奈奎斯特定力，即采样频率fx必须以高于受测信号的最高频率两倍以上的速度进行取样，才能正确地重建波。它是通过采样脉冲和模拟信号相乘来实现的。
3.1.3 语音信号的A/D变换及保存
语音信号经过预滤波和采样后，由A/D变换器变换为二进制数字码。这种防混叠滤波通常与数模转换器做在一个集成块内，因此目前来说，语音信号的数字化的质量还是有保证的。市面上购买到的普通声卡在这方面做的都很好，语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波，A/D变换、量化处理的数字信号。
在基于PC机的语音信号采集过中，声卡可以完成波形的A/D转换，获得WAVE文件，为后续的处理储备原材料。
采集到语音信号之后，需要对语音信号进行分析，如画出采样后语音信号的时域波形图；分析信号的变化；回放语音信号等。
3.2 语音信号分析技术
语音信号分析是语音信号处理的前提和基础，只有分析出可表示语音信号本质特征的参数，才有可能利用这些参数进行高效的语音通信、语音合成和语音识别处理。而且，语音合成的音质好坏，语音识别率的高低，也都取决于对语音信号分桥的准确性和精确性。因此，语音信号分析在语音信号采集和处理应用中具有举足轻重的地位。
贯穿于语音分析全过程的是“短时分析技术”。因为语音信号从整体看其特性及表征其本质特征的参数是随时间而变化的，所以它是一个非稳态过程，不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是，由于不同的语音是有人的口腔肌肉运动造成声道某种形状而产生的响应，而这种口腔肌肉运动相对于语音频率来说是非常缓慢的，所以从另一个方面看，虽然语音倍号具有时变特性，但是在一个短时间范围内（一般认为在10-30ms的短时间内），其特性基本保持不变即相对稳定，因而可以将其看做是一个准稳态过程，即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上，即进行“短时分析”，将语音信号分为一段一段来分析其特征参数，其中每一段称为一“帧”，帧长一般区为10-30ms。这样，对于整体的语音信号来讲，分析出的是由每一帧特征参数组成的特征参数时间序列。语音信号采集程序设计+文献综述(4):http://www.751com.cn/jisuanji/lunwen_7559.html