深度学习让机器学会思考和做决定 计算机人工智能化
2014年02月16日 来源: 科技日报
使用海量数据来识别照片和语音并实时翻译讲话,深度学习计算机朝着真正的人工迈进了一大步。英国《自然》杂志网站近日就此进行了报道。
深度学习东山再起
2012年,位于美国加州山景城的神秘莫测的Google X实验室的研究人员用1000台计算机(共有1.6万个处理器)构建出了全球最大的电子模拟神经网络——拥有10亿个连接的人工神经网络“谷歌大脑”,并通过向其展示自YouTube视频中提取出的约1000万张静止的图像,考察其能学到什么。结果显示,在无外界指令的自发条件下,该人工神经网络自主学会了识别人脸、人体甚至猫等类别的事物。
也许这看起来只是琐碎的成就,除了表明猫的主人们热衷于上传宠物视频,导致互联网上猫的视频随处可见之外,说明不了更多问题,因此,这一发现也让记者们讪笑不已。但实际上,该成果是深度学习东山再起的一个里程碑。
这一进步也意味着,谷歌在人工智能领域(AI)又达到了一个新的高度,在业界引发广泛关注。对电脑用户而言,人工智能研究一直前景广阔,但迄今成果寥寥,不过情况慢慢发生了变化。在过去几年内,包括谷歌、苹果和IBM等在内的互联网巨擘们一直在积极争夺在深度学习方面拥有专业技术的初创公司和研究人员。
对每个消费者来说,深度学习计算机的显著进步所带来的好处包括:软件能更好地对照片进行筛查、理解语音指令并将对文本进行翻译。而对科学家和医学界人士而言,深度学习计算机能用来筛查药物,标示出大脑内真实的神经网络并预测蛋白质的功能。
“人工智能研究领域遇到的挫败可谓不可胜数,但也取得了稍许进步,或许,未来的研究会一马平川。”深度学习专家、美国纽约大学数据科学中心的主任杨乐康(音译)表示。
“接下来的几年内,很多人会投入深度学习的洪流当中。”美国加州大学伯克利分校的计算机图像识别专家吉腾德拉·马利克也认同这一观点。
不过,从长远来看,深度学习不一定会大获全胜,研究人员目前正在研究的其他技术也显示出了巨大的潜能。马利克说:“随着时间的推移,人们会知道,什么技术在何种领域表现最好。”
深度学习:让机器学会思考和做决定
在解释深度学习之前,我们需要了解什么是机器学习。机器学习是人工智能的一个分支,而在很多时候,几乎成为人工智能的代名词。简单来说,机器学习就是通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。机器学习的发展大致经历了两次浪潮:浅层学习和深度学习。
深度学习这一技术已有30年的历史了。深度学习旨在模仿人脑的神经网络,其作用就如人类大脑里掌管知觉、运动指令、意识、语言的“新皮层”,它能自己学习辨识声音、图像和其他数据,从而帮助计算机破解一些人类几乎完全依靠直觉来解决的琐碎问题,从识别人脸到理解语言等。
深度学习本身也源于一个更古老的计算理念:神经网络。这些神经网络系统模拟的是人脑内神经细胞之间的紧密关联。这些神经细胞可以彼此沟通,互相施加影响,当把这样一个神经网络暴露在数据面前,不同神经细胞之间的关系会发生改变。这样,网络就会发展出对某个类别的输入数据作出特定反应的能力。通过这种方式,网络就拥有了学习能力,“学”到了一些东西。
“谷歌大脑”大约有100万个模拟神经细胞,模拟了10亿个连接,比此前的任何深度神经网络都要大10多倍。“谷歌大脑”项目的创办人安德鲁·恩格现在是美国斯坦福大学人工智能实验室的主任,致力于使深度学习系统再扩大10倍。
发展历程缓慢艰辛
在上世纪50年代,计算机还是新兴事物,那时,第一代人工智能研究人员就满怀期望地预测,完全成熟的人工智能很快就会到来。但随着人们慢慢认识到客观世界的极端复杂性,尤其是当人们开始接触到诸如人脸为什么是人脸而非一张面具或猴脸这样的知觉或感性问题时,这种过于乐观的想法才逐渐偃旗息鼓。
标准的机器学习以及图像识别技术依靠数以千计带标签的图片,对电脑进行初始“训练”,使电脑从一开始就对猫脸长什么样有一个概念。但图片加标签需要耗费大量人力,成千上万名研究人员耗费了数十年时间来为与计算机需要识别物体的不同特征有关的规则进行手工编码。“找出这些特征非常困难,耗费时间而且需要专业知识。”恩格说,“你不得不问自己,是否还有更好的办法,可以让人解脱出来。”
在上世纪80年代,这种更好的方式似乎是神经网络内的深度学习。这样的系统可以从头开始学习规则,而且具有令人愉悦的对称性——使用受到大脑启发的机制来完成类似大脑的功能。在这一系统中,模拟的神经细胞被组织成不同的层,当向这样的系统展示一副人脸的图片时,第一层只是注意所有黑像素和亮像素;接下来的一层可能可以意识到这些像素会形成边角;再下一层或许可以识别出横线和竖线;最后一层或许可以认出眼睛,能够意识到两只眼睛实际上出现在同一张脸上。
马利克说,与更简单的系统相比,第一个深度学习软件的表现可谓差强人意,而且使用起来还需要技巧。他说:“一直以来,神经网络都需要精细管理,而且其中充满了各种窍门和技巧。”在学习过程中,这样的系统需要被“喂食”大量的实例,就像婴儿贪婪地从周围世界中汲取大量信息一样。在上世纪80年代到90年代,还没有如现在一样多的数字信息可用,而且,计算机的运行速度也很慢,因此,深度学习软件本身非常罕见,其应用更是屈指可数。其中的一套软件由杨乐康研发,目前被银行用来阅读手写的支票。
然而,到2000年左右,情况发生了巨大的变化,似乎是“一夜之间春风来,千树万树梨花开”。2000年以来互联网的高速发展,对大数据的智能化分析和预测提出了巨大需求。包括杨乐康和加拿大多伦多大学机器学习领域的泰斗杰弗里·希顿在内的科学家确信,计算能力的增加和数字数据的大规模爆发意味着,深度学习复兴的时刻到了。希顿的一名研究生乔治·德哈尔表示:“我们想向全世界证明,这些深度学习神经网络真的有用。”
2006年,希顿和学生在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要信息:一、很多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;二、深度神经网络在训练上的难度,可以通过“逐层初始化”来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。
最初,希顿、德哈尔和其他人利用深度学习解决了一个非常困难但从经济角度而言非常重要的语音识别任务。2009年,研究人员报告称,他们利用一组经典的数据对一套深度学习软件进行训练——3个小时的录音和语音翻译,这套深度学习软件能够精确地理解语音的内容,并将其转化为文字,精确度创下了纪录。德哈尔表示,这一进步引起了智能手机市场巨头们的极大关注,他在微软实习期间,将这套技术带到了微软。德哈尔说:“几年后,这些巨头们都开始研究深度学习。”例如,苹果手机上的声控数字助手(Siri)就是建立在深度学习的基础上。
今天,谷歌、微软等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是因为它们都看到了在大数据时代,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件作出更精准的预测。
在语音和图像识别领域取得巨大飞跃
当谷歌公司在其安卓智能手机操作系统上采用基于深度学习的语音识别技术后,其单词拼写的错误率下降了25%,这是语音识别领域10多年来最大的突破性进展。“我们耗费10年时间才能做到这一点。”希顿表示,这也反映了要想在这一领域取得突破是多么困难。
与此同时,恩格也说服谷歌,让他使用该公司与“谷歌大脑”有关的数据和计算机。“谷歌大脑”能从互联网视频中识别出猫的图像,这极准确而恰当地展示了无人监督学习的潜力。无人监督学习是最困难的学习任务,因为输入的信息没有附着任何解释性信息,比如姓名、标签或类别等。但恩格很快遇到了麻烦,因为很少有谷歌以外的研究人员拥有如此丰富而有力工具来开展与深度学习有关的研究。“我和很多人谈过话,很多学生沮丧地跑过来告诉我说,我又没有1000台计算机来用,我如何进行这类研究呢?”
因此,恩格回到斯坦福大学,开始利用图形处理单元(GPU,这种运行速度超快的芯片主要为游戏而研发)来研制更大、成本更低的深度学习网络,也有很多人在这么做。恩格说:“使用大约价值10万美元的硬件,我们能利用64个GPU,建造出一个拥有110亿个连接的网络。”
但这样的系统要想赢得机器视觉科学家的青睐,可能还需要“百尺竿头,更进一步”。这些机器视觉科学家希望能在标准化测试方面看到其优异的表现。马利克记得,希顿曾经问过他:“你是一个怀疑论者,什么使你如此确信深度学习系统的潜力呢?”马利克回答说:“深度学习系统在国际闻名的数据池(ImageNet)竞赛中取胜或许让我看到了其巨大的潜能。”
在该比赛中,研究团队需要训练计算机程序识别与100万张图像有关的一套数据,这些图像已被人工贴上了各类标签。经过训练后,通过让这些程序从以前未曾见过的图像中找出同样的标签来测试这些程序的性能。每一幅测试图像,程序都会给出5个答案,如果正确的答案并非其中之一,那么,这一测试就被认为是错误的。以前,获胜者们一般的出错率为25%。2012年,希顿的实验室使用深度学习获得了冠军,错误率仅为15%。
杨乐康并非这个团队的一员,不过,他说:“深度学习影响了很多方面。”这次获胜让希顿在谷歌获得了一份兼职工作,该公司2013年也使用该程序来对其谷歌+图像搜索软件进行了升级。
马利克说:“在科学领域,你经常会受到经验证据的摆弄,而这是扎扎实实的证据。”后来,他携这项技术参与另一项视觉识别竞赛,并破了纪录。很多人开始效尤这一做法:2013年,所有参加ImageNet竞赛的团队都开始使用深度学习技术。
随着深度学习技术在图像和语音识别领域不断取得突破,科学家们对用其来处理自然语言的兴趣也与日俱增,包括用其来理解人类的演说以进行转述或回答相关问题,将一种语言翻译成另一种语言等。现在,科学家们使用手写的规则和对已知的文本进行统计分析来做上述事情。深度学习在自然语言方面的最好表现在“谷歌翻译”这样的软件上得到了彰显,尽管谷歌翻译能提供可理解的结果,但是,与人类的翻译比起来,还要差很多。
总的来说,深度学习在自然语言处理方面取得的进展没有在语音图像上那么令人印象深刻。一个很有意思的悖论是:相比于声音和图像,语言是唯一的非自然信号,是完全由人类大脑产生和处理的符号系统,但模仿人脑结构的人工神经网络却似乎在处理自然语言上没有显现明显优势。
语言学习翻译服务网站Duolingo的创办者、卡内基梅隆大学教授路易斯·冯·安表示:“在这一方面,深度学习还有很大的探索空间,从2006年图像深度学习成为学术界热门课题到2012年10月希顿在ImageNet上取得重大突破,经历了6年时间。我们需要有足够的耐心。我们也相信,深度学习在自然语言处理方面的表现会越来越好。”
在其他领域拥有巨大运用潜力
与此同时,科学家们也不断证明,深度学习在完成很多科研任务方面非常管用。希顿说:“深度网络真的很擅长在数据组中发现模式。”
2012年10月份,希顿领导的研究团队赢得了美国化学与制药公司默克公司举办的一场竞赛,竞赛的主旨是鉴别出可导致新药的分子,该团队正是采用深度学习的方法,将目标对准那些最有可能与靶标绑定的分子,从而取得成功赢得了2.2万美元的奖金。希顿说:“我们将默克公司的基准提高了15%。”美国《纽约时报》也对这一重要成果进行了详细报道。
包括美国麻省理工学院的塞巴斯蒂安·程在内的生物学家和计算研究人员目前正利用深度学习技术来帮助他们分析大脑切片的三维图像。这样的图像包含有很多揉成一团的线条,这些线条代表了神经细胞之间的连接,需要将这些线条鉴别出来,以便于对其进行标示和计数。以前,他们的做法是,招募本科生来追踪和勾勒这些线条,但让这一过程自动化是处理数十亿计连接的唯一方式。深度学习似乎是自动化的最好方式。塞巴斯蒂安·程目前正使用深度学习程序来标示视网膜内的神经细胞,接着会将得到的结果提交给志愿者进行校对。
美国华盛顿大学的计算机专家威廉姆·斯塔福-诺贝尔则使用深度学习来教导程序检查一串氨基酸并对得到的蛋白质结构进行预测。例如,不同的氨基酸序列会形成螺旋还是环;某个溶剂是否能很容易地渗入结构内的缝隙中等等。迄今为止,诺贝尔已经训练这一程序能识别小的数据组,在接下来的几个月内,他将使用包含有10万个结构的蛋白质数据库来检验这套深度学习软件的性能。
对计算机专家们而言,深度学习可能会让他们获益颇丰:德哈尔正在考虑创办深度学习公司;而杨乐康上个月被“脸谱”网站雇佣,成为该网站新成立的人工智能部门的负责人。恩格说:“深度学习不再是养在深闺无人时,目前正生逢其时,你填入的数据越多,它的表现也就越好。”不过,他也强调说:“尽管很多时候,深度学习算法都非唯一的解决办法,但它是最好的,当然也是最容易的。这也是为什么其未来拥有巨大潜力的原因。”
其他竞争性的想法
当然,也并非所有科学家都看好深度学习,他们正在尝试使用其他方法来解决问题。比如,美国华盛顿大学计算机科学与工程系教授、艾伦人工智能研究所的负责人奥伦·埃齐奥尼的目标是发明一台计算机——当给其“喂食”一堆经过扫描的教科书后,其能通过标准化的小学科学测试(如果其不断加强,最终能通过大学入学考试)。为了通过这些测试,这台计算机必须能阅读并理解图表和文本。不过,艾伦人工智能研究所如何实现这一目标还是一个未知数。但对埃齐奥尼来说,神经网络和深度学习并非他们的首选。
一个竞争性的想法是,让计算机能在基本输入事实上的基础上进行推理,而非从头开始学习事实。因此,科学家们或许会为这种计算机编写程序,让其识别“所有的女孩都是人”这样的论断。接着,当一篇提到一个女孩的文本被提交给这台计算机时,计算机能推导出这个女孩是人。但这样的计算机也有自己的问题,因为我们周围的世界太纷繁复杂,即使没有数百万个,也有数十万个这样的事实。
目前,在这方面表现最好的就是IBM公司的计算机沃森(Watson)。Watson运算更快,记忆力更好,它也懂一些人类语言中的暗喻和双关。2011年,Watson在美国最受欢迎的智力竞赛节目Jeopardy中战胜人类,获得冠军,从而声名大噪。尽管如此,IBM公司沃森解决方案实验室的科学家们对深度学习在改进模式识别方面的优异表现也产生了兴趣。
谷歌也是如此,尽管其图像标记方面的最新进展主要得益于辛顿的深度学习网络,但其他研发部门也得到了足够多的关注。2012年12月,谷歌雇佣未来学家雷·库兹韦尔做其工程部主管,库兹韦尔的主要任务是使用但不局限于深度学习的技术,来为计算机寻找不同的方式,让其能从日常经验中学习。
去年5月份,谷歌购买了一台由加拿大D-Wave公司研制而成的量子计算机。尽管从理论上而言,这台计算机能用于深度学习领域,但科学家们目前主要用其来处理非人工智能方面的任务,比如困难的数学计算等。
深度学习带来了机器学习的一个新浪潮,受到从学术界到工业界的广泛重视,也导致了“大数据+深度模型”时代的来临。在应用方面,深度学习使得语音图像的智能识别和理解取得惊人进展,从而推动人工智能和人机交互大踏步前进。尽管如此,深度学习仍然还处于襁褓阶段。“它是未来的一部分。”德哈尔说,我们才刚刚开始。如果我们能在理论、建模和工程方面,突破深度学习技术面临的一系列难题,人工智能的梦想将不再遥远。