Skip to main content

语音识别

机器要实现与人对话,就需要实现“听懂-理解-回答”三步,对应的便是“耳”、“脑”、“口”的职责。机器要听懂人类说话,就离不开语音识别技术(Automatic Speech Recognition)。

技术原理


  1. 输入:语音识别输入的是声音,声音是一种波,是计算机无法直接处理的模拟信号。

  2. 编码:将模拟信号转变成数字信号,并提取其中的特征进行处理。

    1. 声音分帧,通过移动窗函数把声音切开成一小段一小段,每一小段为一帧。帧与帧之间一般是有交叠的。
    2. 特征向量,通过使用某种规则(如依照人耳听声特点提出的MFCC规则),将每一帧波形变成一个多维向量。
  3. 解码

    1. 把帧识别成状态。
    2. 把状态组合成音素。
    3. 把音素组合成单词。
  4. 输出

参考资料


CUI三部曲之语音识别——机器如何听懂你的话?

语音识别的技术原理是什么? - 张俊博的回答 - 知乎