语音识别
机器要实现与人对话,就需要实现“听懂-理解-回答”三步,对应的便是“耳”、“脑”、“口”的职责。机器要听懂人类说话,就离不开语音识别技术(Automatic Speech Recognition)。
技术原理
-
输入:语音识别输入的是声音,声音是一种波,是计算机无法直接处理的模拟信号。
-
编码:将模拟信号转变成数字信号, 并提取其中的特征进行处理。
- 声音分帧,通过移动窗函数把声音切开成一小段一小段,每一小段为一帧。帧与帧之间一般是有交叠的。
- 特征向量,通过使用某种规则(如依照人耳听声特点提出的MFCC规则),将每一帧波形变成一个多维向量。
-
解码
- 把帧识别成状态。
- 把状态组合成音素。
- 把音素组合成单词。
-
输出