全部博文
深度学习
深度学习的应用
发布时间:2021-04-14   点击:   来源:原创   作者:吴济纬

语音识别

        语音识别长期以来,描述每个建模单元的统计概率模型时候,大都是采用的混合高斯模型(GMM)。这种模型由于估计简单,有成熟的区分度训练技术支持,一直在语音识别应用中占有垄断性地位。但是混合高斯模型本质上是一种浅层网络,不能够充分描述特征的状态空间分布。另外,GMM建模特征维数一般是几十维,不能充分描述特征的相关性。

        2011年微软基于深度神经网络的语音识别研究取得成果,改变了语音识别原有的技术框架。采用深度神经网络后,可以充分描述特征之间的相关性,把连续多帧的语音特征并在一起,构成一个高维特征。最终的深度神经网络采用模拟人脑多层结果,逐级地进行信息特征抽取,形成适合模式分类的较理想特征。这种多层结构和人脑处理语音图像信息时,有很大的相似性。深度神经网络的建模技术,能够和传统的语音识别技术相结合,在不引起任何系统额外耗费情况下大幅度地提升了语音识别系统的识别率。其在线的使用方法如下:在实际解码过程中,声学模型采用传统的HMM模型,语音模型采用传统的统计语音模型,解码器仍然采用传统的动态WFST解码器。但是在声学模型的输出分布计算时,用神经网络的输出后验概率除以一个先验概率来代替传统HMM模型中的GMM的输出似然概率。百度实践中发现,采用DNN进行声音建模的语音识别相比于传统的GMM语音识别系统,相对误识别率能降低25%。在2012年11月的时候,出现了第一款基于DNN的语音搜索系统,成为最早采用DNN技术进行语音服务的公司之一。

图像识别

        图像是深度学习最早尝试的应用领域。早在1989年,LeCun(现纽约大学教授)和他的同事们就发表了卷积神经网络(convolution neural networks,CNN)的工作。CNN在大规模图像上效果不好,没有得到计算机视觉领域的足够重视。情况一直持续到2012年10月,Hinton、在著名的ImageNet问题上用CNN取得世界最好结果,使得图像识别大踏步前进。在Hinton的模型里,输入的是图像的像素,没有用到任何的人工特征。

        百度在2012年将深度学习技术成功应用于自然图像OCR识别和人脸识别,并推出相应的搜索产品,2013年,深度学习模型被成功应用于图片识别和理解。深度学习应用于图像识别不但大大提升了准确性,而且避免了人工特征抽取的时间消耗,从而大大提高了在线计算效率。深度学习将取代人工特征和机器学习方法而逐渐成为主流的图像识别方法。

 自然语言处理

        深度学习另外一个应用领域是自然语言处理(NLP)。过去几十年,基于统计的模型已经成为NLP的主流,但是作为统计方法的人工神经网络在NLP领域几乎没有受到重视。世界上最早的深度学习用于NLP的研究工作诞生于NEC Labs American,其研究院从2008年开始采用embedding和多层一维卷积的结构,用于多个典型NLP问题,他们将同一模型用于不同人物,都能取得相当的准确率。

        但是,深度学习在NLP上取得的进展没有在语音图像上那么印象深刻。一个有意思的悖论:相对于声音和图像,语音是非自然信号,是完全由大脑产生和处理的符号,但是模仿人脑结构的人工神经网络似乎在自然语言处理上没有明显优势。我们相信深度学习在NLP方面有更好的搜索空间,需要有足够的耐心。


关闭窗口
打印文档
附件

    Copyright© 2018 常州市新北区吕墅中学 All Rights Reserved
    学校地址:常州市新北区德胜南路26号 苏ICP备10001160号