STC10L08XE基于语音识别的智能控制系统开发(3)

    语音质量通常由说话人发音的清楚程度及发音时的背景噪声决定，语音质量不高时往往要求识别系统具有较高的鲁棒性。
    评价语音识别系统，要在上述标准相同的情况下，比较识别正确率。识别正确率越高，系统的性能越好。
    另外，完成识别所需要的计算量和存储量，即识别算法的复杂性也是评价系统的一种指标。
    语音识别技术是一门多学科交叉技术。要建造一个性能优良的语音识别系统，往往需要声学（Acoustics）、语音学（Phonetics）、语言学（Linguistics）、生理学（Physiology）、心理学（Psychology）、计算机科学、信息论、信号处理、模式识别、人工智能等多门学科的理论知识。
2．2 语音识别的基本方法
    语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元[13]。它的基本结构如图2.1所示：

图2.1 语音识别系统的基本结构图
未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。
目前具有代表性的语音识别方法主要有动态时间规整技术（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）、人工神经网络（ANN）、支持向量机(SVM)等方法。动态时间规整算法（DTW）基于动态规划的思想，解决了发音长短不一的模板匹配问题，是出现较早、较常用的一种算法；隐马尔可夫模型（HMM）是一种统计模型，它基于参数模型的统计，是较理想的语音识别模型；矢量量化（VQ）是一种信号压缩方法，适用于小词汇量、孤立词的语音识别；人工神经网络（ANN）本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性；支持向量机（SVM）是应用统计学理论的一种新的学习机模型，可以有效克服传统经验风险最小化方法的缺点。
2．3 语音识别的发展及现状
2.3.1 国际语音识别技术的发展及现状
   2.3.2 国内语音识别技术的发展及现状
   2．4 存在的问题和发展方向
    既然实现人机交流对人类社会具有重大意义，利用计算机进行语音信号的识别已成为当前智能信息处理的重要内容。虽然语音识别系统已进入商品化阶段，但在有背景噪音、有口音、有口语化现象等条件下系统性能迅速降低，远不能满足人们日益增长的使用要求。
    说话人、说话速度、性别、方言、上下文及说话环境、背景的不同，同一语音信号会发生很大变化，语音中更有许多发音相同或接近的词汇，这些都增加了识别的难度。因此，要实现性能优良、实用化的语音识别系统还需要解决许多问题，如对环境和说话人的自适应性、抗噪音干扰性、声音模型和语言模型的完善化、训练工作量和识别速度等。特别是对下列问题需做深入研究：
   （1）自然语音数据库的设计，包括人—人之间语音对话的研究和自然口语说话方式的研究。 STC10L08XE基于语音识别的智能控制系统开发(3):http://www.751com.cn/tongxin/lunwen_9683.html