理论问题
理论问题主要体现在两个方面,一个是统计学习方面的;另一个是计算方面的。深度模型相比较于浅层模型有更好的对非线性函数的表示能力,对于任意一个非线性函数的表示能力。对于一个非线性函数,根据神经网络理论,我们一定能找到一个浅层网络和深度网络来表示出来。但是对于某些函数,深度网络只很少的参数就可以表示出来。但是,可表示性不代表学习性。我们需要了解需要多少训练样本和计算资源才能学习到足够好的深度模型。
建模问题
在推进深度学习的学习和计算理论的同时,是否存在新的分层模型,使其不但具有传统深度模型所具有的表示能力,而且更容易进行理论分析。另外,针对具体应用的问题,如何设计一个最适合的深度模型来解决。无论在图像深度模型还是语言深度模型,似乎都存在深度和卷积等共同的信息处理方式。甚至对于语音声学模型,研究人员也在探索卷积深度网络,是否存在可能建立一个通用的深度模型,作为统一的模型来处理语音、图像和语言。
对于如何使用深度模型来表示语义这样的结构化信息还需要更多的研究。从人类进化的角度来看,语言的能力是远远滞后于视觉和听觉的能力而发展的。除了人类以外,还有很多动物具有很好的识别物体和声音的能力。对于神经网络这样的结构而言,语言相较于视觉和听觉是更为困难的一个任务,解决这个难题是实现人工智能是不可缺少的一步。
应用问题
对于互联网公司而言,如何利用大规模的并行计算平台来实现海量数据训练,是各个公司从事深度学习研发首先要解决的问题。传统的大数据平台如Hadoop,由于数据处理的延迟太高,不适合需要频繁迭代的深度学习。现有成熟的DNN训练大都是采用随机梯度法训练的,这种方法本身就不可能并行。即使采用GPU进行传统的DNN模型训练,其训练时间也是漫长的。随着互联网服务的深入,海量数据训练越来越重要,DNN这种缓慢的训练速度必然不能满足互联网服务应用的需要。谷歌搭建的深度学习平台,由很多计算单元独立的更新同一个参数服务器的模型参数,实现了随机梯度下降算法的并行,加快了模型训练的速度。而百度的多GPU并行计算的计算平台,克服了传统SGD训练不能并行的技术难题,神经网络训练已经可以在海量语料上并行。可以预计到,未来随着海量数据训练的DNN技术发展,语音图像系统识别率还会持续提升。
目前最大的深度模型所包含参数大概在100亿数量级,还不及人脑的万分之一。而由于计算成本的限制,实际运用于产品中的深度模型更是远低于这个水平。深度模型的一个巨大优势在于,在有海量数据的情况下,很容易通过增大模型来达到更高的准确率。因此,发展适合深度模型的更快速的硬件设备也是提高深度模型识别率的重要方向。