语音识别专题

语音识别的一个难点在于语音和文字的对齐。

MFCC

CTC(Connection Temporal Classification)

Speech Recognition with Deep RNNs
Deep Speech: Scaling up end-to-end speech recognition

百度的 Deep Speech，无需对噪音和混响人工建模，在 Switchboard Hub5'00 基准数据上的错误率为 16%
Deep Speech 2: End-to-End Speech Recognition in English and Mandarin by Dario Amodei, et al., 2015

Deep Speech ２代，百度出品。列出的作者有３４人之多！宣称在几个基准测试上比亚马逊的土耳其工人的准确率还要高。只需很少的修改就能用到其他语种，并且可以部署到生产环境（用到所谓的批量分发(batch dispatch)）。主要的三个方面：更好的模型结构（结合　CTC 损失函数），更好的数据（11940 小时的英语和　9400 小时的汉语），以及更快的计算（放弃使用参数服务器和异步更新，而采用同步的 SGD，利用高性能计算中的优化策略对 GPU 计算做优化）。
Towards End-to-end Speech Recognition with RNNs

ICML 2014 论文，结合了双向 LSTM 和 CTC(connectionist temporal classification)目标函数

评价指标：准召率，实时性，能耗

Gentle 语音和文字的强制对齐

results matching ""