滴滴AI Labs语音团队在论文《使用无监督预训练提升基于Transformer的语音识别》中,新提出一种基于Transformer的无监督预训练算法,创新性地将自然语言处理中的BERT等算法的思想推广到了语音识别领域。能利用极易获取的未标注的语音数据,大幅提升了语音识别精度。
论文结果显示,通过简单的无监督预训练,中文语音识别任务能得到10%以上的性能提升。具体地,在中文语音识别数据集HKUST上的结果显示,当仅使用HKUST数据库数据做预训练时,字错误率能达到23.3%(目前文献中最好的端到端模型的性能是字错误率为23.5%);当使用更大无监督数据库做预训练时,字错误率能进一步降低到21.0%。
该论文工作不仅向学术界提出一种使用无监督预训练提升语音任务精度的方法,从实验结果中也可以发现识别性能能够随着无监督数据量的增加而提升。这是一个工业界上标注资源有限条件下的探索和尝试,具有非常强的业务落地价值:在工业界产品中可以减少对标注数据的依赖,在特定领域下,标注数据需求可能从上万小时下降到千小时、百小时,这可以有效降低搭建高质量语音识别系统的成本。
以下是对论文的详细解读:
语音识别技术已广泛的应用在各领域的工业产品。搭建一套高质量的语音识别系统通常需要花费巨大的投入来获取足够的标注数据。同时,通过各已有的在线工业系统,可以轻松的获取大量的未标注的语音数据。无论是在学术界还是在工业界,探索如何有效的使用这些未标注数据来提升语音识别系统精度,都是十分有价值的。