主页技术关于语音识别

关于语音识别

在语音识别范围内,信息分为高级别信息和低级别信息,高级别信息为方言、口音、说话方式以及说话者的主观状态等,低级别信息则为说话者的音高、周期时间、节奏、音质、声音的震级、振幅、频率、波段和频带宽度,这些特征用于语音识别系统对人的识别,而高级别信息则可用于人对人的识别。

语音识别采集的是说话者的节奏、音高和频率等特征,采集语音的设备是麦克风或普通电话机,输入设备(麦克风或电话机)质量越高,识别精确度就越高。

由于不同个体而产生的特征差异被称为个体之间差异,个体之间差异表现不同说话者的不同特征。

如果一个说话者接连重复同一个词或同一句话,或者多次尝试说出同一个词或同一句话,却声调不同或语气不同,这时产生的就是个体内部差异,个体内部差异表现为不同的语速、说话者的不同情绪状态以及背景噪音。个体内部差异是生物统计语音识别系统的业绩的主要薄弱环节。

所以我们选择的参数应该具有较小的个体内部差异和较大的个体之间差异,在很多情况下,如果要求使用者重复参考数据组中的文字或词语,可以减少个体内部差异,这是不独立于文字的语音认证方法。

语音识别有很多方法,可以分为不独立于文字的(固定的文字或词组)和独立于文字的两种方法,不独立于文字的识别法以事先存储的系统已经熟悉的文字片断为基础,独立于文字的识别法所使用的文字片断则不受任何限制,可以与系统中存储的文字片断不同。一般说来,独立于文字的方法比不独立于文字的方法需要更多的训练数据,不独立于文字的方法比独立于文字的方法更精确,并且需要使用者的合作。