主页技术关于语音识别技术过程

技术过程

在语音识别范围内,信息分为高级别信息和低级别信息,高级别信息为方言、口音、说话方式以及说话者的主观状态等,低级别信息则为说话者的音高、周期时间、节奏、音质、声音的震级、振幅、频率、波段和频带宽度,这些特征用于语音识别系统对人的识别,而高级别信息则可用于人对人的识别。语音识别采集的是说话者的节奏、音高和频率等特征,采集语音的设备是麦克风或普通电话机,输入设备(麦克风或电话机)质量越高,识别精确度就越高。由于不同个体而产生的特征差异被称为个体之间差异,个体之间差异表现不同说话者的不同特征。如果一个说话者接连重复同一个词或同一句话,或者多次尝试说出同一个词或同一句话,却声调不同或语气不同,这时产生的就是个体内部差异,个体内部差异表现为不同的语速、说话者的不同情绪状态以及背景噪音。个体内部差异是生物统计语音识别系统的业绩的主要薄弱环节。所以我们选择的参数应该具有较小的个体内部差异和较大的个体之间差异,在很多情况下,如果要求使用者重复参考数据组中的文字或词语,可以减少个体内部差异,这是不独立于文字的语音认证方法。语音识别有很多方法,可以分为不独立于文字的(固定的文字或词组)和独立于文字的两种方法,不独立于文字的识别法以事先存储的系统已经熟悉的文字片断为基础,独立于文字的识别法所使用的文字片断则不受任何限制,可以与系统中存储的文字片断不同。一般说来,独立于文字的方法比不独立于文字的方法需要更多的训练数据,不独立于文字的方法比独立于文字的方法更精确,并且需要使用者的合作。

从文献资料中可以找到下列语音识别方法:

·动态时间规整(DTW)

·矢量量化法(VQ)

·神经网络法(NN)

·隐马尔可夫模型(HMM)

·高斯混合模式(GMM),结合最大可能性估算(独立于文字)

·可能性标准化

·多元自动回归模型(MAR)

隐马尔可夫模型(HMM)以俄国数学家A.A.马尔可夫的名字命名,自1975年以来在独立于文字的语音识别中得到普遍运用,此法对声谱特征的差异作出统计,从大量训练表述中建立一个模型,该模型产生的特征向量的序列可能与训练参考数据分析得出的结果一样。

动态时间规整以参考样品和测试样品之间的特征比较为基础,两者的语音信息是同一个单独说出的词语,两个有待比较的样品的长度可能不一样。算法在预先确定的路径范围内寻找参考和测试样品之间最理想的时间上的比较路径,在这个过程中分析确定两者之间从头至尾累计的频率参数差别的总数。

在矢量量化法(VQ)中,语音信号被解释为大量特征向量,它们表现出说话者的主要特征,这些特征向量编码后用一种训练法加以优化。近年来,在独立于文字的识别法中,高斯混合模式(GMM)的使用大为普及,此法用多元密度描述一个属类可能性模型,允许对所有由说话者决定的声学形式作出阐释。长期以来,独立于文字的语音识别法形成了一个活跃的研究领域,因为它们的识别精确度较低,导致它们的普及受到了严格限制。