Skip to main content

语音识别

机器要实现与人对话，就需要实现“听懂-理解-回答”三步，对应的便是“耳”、“脑”、“口”的职责。机器要听懂人类说话，就离不开语音识别技术（Automatic Speech Recognition）。

技术原理

输入：语音识别输入的是声音，声音是一种波，是计算机无法直接处理的模拟信号。
编码：将模拟信号转变成数字信号，并提取其中的特征进行处理。
1. 声音分帧，通过移动窗函数把声音切开成一小段一小段，每一小段为一帧。帧与帧之间一般是有交叠的。
2. 特征向量，通过使用某种规则（如依照人耳听声特点提出的MFCC规则），将每一帧波形变成一个多维向量。
解码
1. 把帧识别成状态。
2. 把状态组合成音素。
3. 把音素组合成单词。
输出

参考资料

CUI三部曲之语音识别——机器如何听懂你的话？

语音识别的技术原理是什么？ - 张俊博的回答 - 知乎

技术原理
参考资料