主页技术关于语音识别发展状况

发展状况

从语言和声音中可以获得关于说话者身份的信息,由于鼻腔管道、口腔管道、咽喉和声带构造的差异,说话的时候嘴、颌骨和舌头的运动能形成个体独有的语音特征。语音信号传递的信息包括所说语种、说话人性别及其身体和情绪状态,另外还可以据此推测说话人来自什么地方,以及他的社会出身。人们常常可以提取自己所认识的人的说话特征。

语音识别与语言识别不是一回事。语言识别是将说话人所说语言或文字转化成书写文字,所处理的是语音信息的内容。语言识别常被误当成语音识别,其实它不属于生物统计方法。我们在这里论述的不是语言识别,而是语音识别。

采集人声的时候要求有待识别的人说些什么,说话者必然将他的说话行为方式表现出来,所以语音识别属于行为识别法/动态识别法。语音信号是说话者与其环境共同作用的结果,采集很简单,一个普通麦克风就能胜任。与指纹识别等依靠身体特征进行识别的生物统计法不同,语音识别不是静态的,不处理身体特征,它使用的是与行为活动相关的信息,不包括固定的、静止的身体特征。美国贝尔实验室的Lawrence Kersta 于六十年代初首创自动语音识别法,他用一种复杂的机电仪器生成语音声谱图,然后用识别算法对之进行比较,该识别算法是以视觉比对为基础设计出来的。七十年代以后,结合各种视觉和听觉的方法,人们大力研究了(计算机支持的)自动语音识别。