引自:《深度学习》(作者:文龙, 李新宇) 深度学习(deep learning,DL)是近年来飞速发展的新领域,是机器学习的一个特定分支。为了提高机器学习系统的准确率,将输入数据信息转换为有效的特征是至关重要的一步。其中的特征的一般性描述称为表示。如果某种算法具备自动学习特征的能力,那么这种学习方式称为表示学习。深度学习是表示学习的经典代表方法。 深度学习是将原始数据通过多步的特征转换得到的一种特征表示,其"深度"指的是对原始数据进行非线性特征转换的次数,如用于特征提取的多层网络结构。深度学习为了学习一种好的表示,通过构建具有一定"深度"的模型,进而自动学习到好的特征表示(从底层特征,到中层特征,再到高层特征),最终提高整个机器学习系统的准确性和效率,如图1所示。 图1 深度学习的数据处理流程 「 1. 深度学习的发展历程 」 具体来说,人工智能、机器学习和深度学习是包含关系的几个领域,如图2所示。人工智能涵盖的内容非常广,机器学习是20世纪末发展起来的一类重要人工智能技术。深度学习则是机器学习的一个分支,比传统机器学习方法具有更强大的能力和灵活性。深度学习所具有的表示学习能力,解决了传统机器学习方法面临的难题,极大地扩展了人工智能的应用领域范围。 图2 深度学习与神经网络和人工智能的关系 深度学习的概念是由著名学者杰弗里·辛顿(Geoffrey Hinton,神经网络之父、深度学习鼻祖,图灵奖得主)等于2006年提出的。但是深度学习的研究起源于20世纪50年代对人工神经网络的研究。纵观整个人工神经网络的发展,其发展是跌宕起伏的,经历了"三起两落"。 起点 :1943年,McCulloch和Pitts发表《A Logical Calculus if Ideas Immanent in Nervous Activity》,神经网络开山之作。该文提出了神经元计算模型,计算机使用该模型模拟人的神经元反应的过程。 第一起 :1958年,Rosenblatt提出感知器(Perceptron),并提出一种接近于人类学习过程的学习算法。 第一落 :1969年,Marvin Minsky出版《感知机》(Perceptrons),总结了感知机的两大问题:即无法处理异或问题和计算能力不足,在往后十多年里神经网络研究一直没有太大进展。 第二起 :1986年,Hinton等发明了适用于多层感知器(multi-layer perceptron,MLP)的反向传播算法(backpropagation,BP),并采用Sigmoid进行非线性映射,有效解决了非线性分类和学习的问题。由此掀起了神经网络发展的第二次热潮。BP算法是神经网络中极为重要的学习算法,至今仍占有重要地位。 第二落 :BP算法被指出存在"梯度消失"和"梯度爆炸"问题。1995—2006年计算机性能仍然无法支持大规模的神经网络训练,导致SVM和线性分类器等简单的方法反而更流行。 第三起 :2006年,Hinton等提出深度学习,并给出了解决"梯度消失/梯度爆炸"问题的方案,即首先通过无监督学习逐层预训练模型,再使用有监督学习对模型进行调优。神经网络迎来第三次高潮。 得益于大数据的兴起、计算能力的提升等推动作用,深度学习通过学习样本数据的内在规律和表示层次,在语音和图像识别等领域取得的效果,远超先前相关技术,取得了巨大的成功,并已经向各个其他领域应用扩展。 「 2. 深度学习的应用 」 目前,深度学习在计算机视觉、语音识别、自然语言处理等领域得到了广泛的应用,且取得了超越了人类水平的效果。不仅如此,在智能制造领域中,深度学习也得到了大量的应用,并向制造领域全生命周期中的各个环节渗透。随着智能制造的发展,工业大数据以前所未有的速度发展,工业场景数据采集的广度和深度都得到了前所未有的提高,给智能制造带来了新的机遇。本节通过几个不同应用领域的案例来说明深度学习的典型应用场景。 1)计算机视觉 计算机视觉是指利用摄像机或者计算机代替人眼对目标进行识别、跟踪和测量,以期从图像、视频等信息中建立人工智能系统。计算机视觉得到了研究者长期、广泛的关注,也是深度学习最早实现突破性进展的领域。在计算机视觉的各个子任务领域,包括图像分类、目标检测、图像语义分割、场景文字识别、图像生成、人体关键点检测、视频分类、度量学习等,深度学习都得到了广泛应用,并极大地推进了相关领域的发展。如在人脸识别领域,支付宝刷脸支付已成为常态,如图3(a)所示。在新冠肺炎疫情期间,基于人脸的门禁系统通过刷脸出入得到了大量的推广应用,如图3(b)所示。 (a) (b) 图3 计算机视觉应用 (a)支付宝刷脸支付;(b)人脸识别门禁系统 2)语音识别 自2009年深度学习被引入语音识别领域,深度学习取得了巨大的进展。2015年,百度研究院开发的深度学习系统在中英文语言识别上的正确率超过了人类。在中文语音测试中,人类组的错误率是4.0%,而深度学习仅为3.7%。谷歌、苹果、微软、百度、腾讯等国内外大型IT公司提供了大量的语音相关产品和服务。例如腾讯公司的微信提供了语音转文字功能,如图4(a)所示。科大讯飞输入法提供了语音输入法,除普通话外,还有超过23种地方方言、3种民族语言等的语音输入法,如图4(b)所示。 (a) (b) 图4 语音识别应用 (a)微信的语音转文字功能;(b)科大讯飞输入法语音输入 3)自然语言处理 自然语言处理(natural language processing,NLP)是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解和生成等的操作和加工,NLP研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的应用包括机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、中文OCR等方面。例如百度云和阿里云均提供大量NLP方面的应用。 4)智能故障预测 智能故障预测是将人工智能技术应用到故障诊断中,根据所采集到的各类型、多模态的数据,建立相应的故障预测模型,以推断系统或部件的故障原因。随着工业大数据的发展,深度学习为智能故障预测提供了新的思路和途径。深度学习以其强大的数据特征自动提取能力,实现了对设备运行历史数据的自动提取与分析,进而可以提高故障检测与诊断的精度与效率。其应用领域也覆盖从零部件(如轴承、变速箱、往复式压缩机等)到各类复杂装备等(如风力发电机、航空航天设备等)。图5为德国Paderborn大学KAT数据中心的故障数据采集装置,用于获取不同轴承故障类型的实验数据。 图5 德国Paderborn大学KAT数据中心的故障数据采集装置 5)工业图像检测 工业图像检测,是指利用机器视觉对工业中产生的图像进行处理与分析,以替代人工检测。工业图像检测不仅提高了生产的自动化程度,让不适合人工作业的危险工作环境变成了可能,同时也让大批量、持续生产变成了现实,大大地提高了检测效率与效果,进而提高生产效率。工业图像检测的应用场景十分广泛,如表面缺陷检测、物体分拣、视觉测量等。图6为天池铝型材表面缺陷数据集和北京大学发布的印刷电路板(PCB)瑕疵数据集。 (a) (b) 图6工业图像检测应用 (a)天池铝型材表面缺陷数据集;(b)印刷电路板瑕疵数据集 当然,深度学习的应用领域还远远不止以上这些,限于篇幅,不再列举。