Appen团队很高兴本周能在布莱顿举行的iCASSP(声学、语音和信号处理国际会议)上展出。iCASSP是世界上最大、最全面的信号处理及其应用技术会议。Appen最近为IBM的一个项目提供了研究数据,该项目比较了提高广播新闻语音识别学习模型(BN)准确性的技术。如果您不能参加IBM在iCASSP上的海报会议,请继续阅读,学习如何让机器更好地理解人类的语言。
在他们题为基于人与机器的英语广播新闻语音识别,团队建议识别缩小自动语音识别(ASR)和人类性能之间的差距的技术。
数据来自哪里?
IBM在语音识别空间中的初始工作是作为美国国防高级研究项目局(DARPA)有效的经济实惠可重复使用的演讲到文本(耳朵)计划的一部分,这导致语音识别技术的重大进展。耳朵计划产生约140小时的监督BN培训数据还有大约9000小时的未经严格监督的训练数据来自电视节目的封闭字幕。相比之下,ear提供了大约2000小时的高度监督、人工转录的训练数据会话电话演讲(CTS)。
丢失翻译?
由于CTS有如此多的训练数据可用,IBM和Appen的团队努力将类似的语音识别策略应用于BN,以了解这些技术在不同应用程序之间的转换情况。为了理解团队面临的挑战,有必要指出这两种演讲风格之间的一些重要区别:
广播新闻(BN)
- 清晰,制作精良的音频质量
- 各种各样的演讲者,有着不同的演讲风格
- 不同的背景噪音条件-想想现场的记者
- 各种各样的新闻主题
会话电话语音(CTS)
- 通常具有声音伪影的音频质量差
- 未介绍
- 与参与者之间的语音重叠相互作用
- 中断、句子重启和参与者之间的后台确认。好的“,”哦“,”是的“
团队如何从CTS到BN的语音识别模型

该团队采用了曾成功用于EARS CTS研究的语音识别系统:根据一系列声学特征训练的多种长短期记忆(LSTM)和ResNet声学模型,以及单词和字符LSTM和卷积wavenet风格的语言模型。在之前的一项研究中,特别是由语言数据协会(LDC)进行的HUB5 2000英语评估中,该策略对CTS的准确率在5.1%到9.9%之间。该团队在BN数据集上测试了这种方法的简化版本,它没有人工注释,而是使用封闭的字幕创建。
该团队而不是添加所有可用的培训数据,而是仔细选择可靠的子集,然后在该子集上培训了LSTM和基于残余网络的声学模型,并在该子集上组合了N-Gram和神经网络语言模型。除了自动语音识别测试之外,该团队还将自动系统基准测试,防止申请生产的高质量人体转录。所有这些模型的主要语言模型培训文本由适用于广播新闻的不同公共可用来源的总共3.5亿字。
进入商业
在第一组实验中,研究团队分别测试了LSTM和ResNet模型,并结合n-gram和FF-NNLM,然后将两种声学模型的评分与旧的CTS评价结果进行比较。与原始CTS测试观察到的结果不同,合并LSTM和ResNet模型的分数后,单词错误率(WER)没有显著降低。带有n-gram LM的LSTM模型性能良好,随着FF-NNLM的加入,其结果进一步改善。
对于第二组实验,用LSTM + Reset + N-GRAM + FF-NNLM模型进行解码后生成单词格子。该团队从这些格子生成了N-Best列表,并使用LSTM1-LM进行复制。LSTM2-LM还用于独立重新克切单词格子。使用LSTM LMS后观察到显着的WER增益。这导致研究人员假设具有BN特定数据的次级微调是允许LSTM2-LM比LSTM1-LM更好。
结果
我们的ASR结果明显提高了最先进的性能,与过去十年的系统相比,已经取得了重大进展。与人类绩效结果相比,绝对的ASR WERS差约为3%。虽然机器和人为错误率是可比的,但ASR系统的替换和删除误差率得多。
通过观察不同的错误类型和比率,该研究得出了一些有趣的结论:
- ASR和人类删除、替换和插入的单词有很大的重叠。
- 人类似乎小心标记犹豫:%犹豫在这些实验中是最具插入的符号。犹豫似乎很重要在对人体转录中的句子传达意义。然而,ASR系统专注于盲目识别,并没有成功地传达相同的含义。
- 机器难以识别短功能词:这那和那的那一种那那和这些被删除的次数最多。另一方面,人类似乎捕捉到了其中的大部分。很可能这些单词并不是完全发音的,所以机器无法识别它们,而人类可以自然地推断这些单词。
结论

实验表明,可以在结构域中传递语音ASR技术以提供高精度的转录。对于声学和语言建模,基于LSTM和Reset的模型被证明是有效的,人类评估实验使我们保持诚实。也就是说,虽然我们的方法保持改善,但仍有近距离人员和机器性能之间的差距,展示了对广播新闻的自动转录研究继续需要。
-
Appen已准备好使您的演讲识别项目取得成功。在ICASSP或我们联系这里了解更多内容。