您当前的位置: 首页 > 旅行风景 >> 五台山

未来会讨论这个深度实验室的规划

2019-03-18 10:13:56

3月2日,深度学习技术与应用国家工程实验室揭牌,林元庆任主任。这是中国首个国家级的深度学习实验室,百度也喊出了“做成国内最大深度实验室”口号。李彦宏在会上说,百度要做深度学习“国家队”。国家队要干什么?如何分工?怎么干?林元庆在现场的演讲中做了大体介绍。本文带来现场实录。

林元庆:下面我跟大家分享一下我们深度学习实验室接下来的计划。之前我们跟共建单位清华、北航经过了几轮的讨论,在这里我简要介绍一下我们在这个国家工程实验室到底要做些什么,我们一些初步的计划是什么。下午我们这几个单位还会再进行一下workshop,未来会讨论这个深度实验室的规划。

人工智能现在不但是百度的战略,应该也是国家的战略。中国政府对这个方向也是高度重视,人工智能现在确实是整个行业,甚至一个国家的战略。

人工智能在过去这几年经历了从量变到质变的一个过程,去年特别热的一个话题是谷歌的AlphaGo战胜了围棋冠军。包括右边这张图我们看到的自动驾驶,我还记得在2012年的时候,谷歌第一次发布自动驾驶视频,我还在想这个东西哪一年会实现知人知面不知心?当时觉得会非常遥远。但是短短几年,自动驾驶已经是很多公司扎扎实实的目标了。在百度我们希望能实现三年的商用,五年量产的目标。

人工智能面临的挑战是系统性的

我想说的是,人工智能其实是一个非常大的系统工程,其实是需要很多方面的因素结合在一起。这里面提到了人工智能的四大要素,可能在座的各位曾经听过人工智能很重要的是深度学习、大数据和大计算,其实大应用也是非常重要的。我想用这张幻灯片来解释一下为什么大应用是非常重要的,有了一些初始的算法,有了一些初始的数据,可以搭建一些初始的技术,然后我们这边发布一些产品或者是服务,有了这些产品和服务的话,我们能够搜集到更多的数据,这样的话,数据跟算法一起迭代,能够演化出更好的算法。

人工智能研发轨迹

当然有了更好的算法,我们就有更好的技术,有更好的技术,我们就有更好的产品,就会使更多的用户来用,这是一个正循环。也正是因为这个正循环,人工智能演化的轨迹跟普通传统的技术是不一样的。比如我们平常说的精密机床,它可能是几十年非常线性的往上进步。但是人工智能不是这样的,人工智能的技术可能在前期会是线性的慢慢的往上进。但是当这个正循环真正起作用的时候,它的发展是非常快的。因此,不管是技术水平或者是应用的深度和广度都会有一个迅速的体现,这个其实是对于人工智能技术的研发非常重要的。从这个图里面也解释了刚才我们看到,要做人工智能技术,我们这四个大要素都需要有很好的技术,这样的话,我们才能够研发出真正非常强大的人工智能的技术。

基于这样的考虑,去年我们筹备深度学习实验室的时候联合了清华大学、北京航天航空大学还有电子四院,也是希望在这几个方面同时发力。在这个实验室里我们准备搭建七个平台,百度参与深度学习平台,清华会参与生物特征识别平台、视觉感知平台,北航会参与视觉感知平台和新型的人机交互,电信研究院会参与知识产权平台和标准化平台。

标准化平台其实也是非常重要的,我们很多人工智能的技术一定要变成一个标准,让它得到广泛的应用。中间这个是我们通常说的人工智能的基础技术,包括听的、看的还有理解的。最基础的就是我们要搭建我们深度学习的平台。我们在这个深度学习的国家工程实验室,其实基础是PaddlePaddle深度学习平台。但是我们往上面研发的是整个人工智能一系列的技术。

深度学习平台

深度学习平台,一方面我们要开放我们的PaddlePaddle,这是我们去年9月份就已经做的。我们不单单要开放PaddlePaddle,我们还要开放深度学习的计算模块,这里面会有GPU,还有大机型的CPU。我们希望建成中国最大的深度学习平台。

听觉平台

听觉平台,包括语音识别、语音合成、语义理解,还有后端的一些很多的资源。

视觉感知平台

视觉感知平台包括的方面比较多,包括我们的检索跟识别,包括清晰度图像识别,我们也正在搭建医学影像分析,比如说我们希望拿到一张CT,来分析这个病人是不是有癌细胞。

生物特征识别平台

生物特征识别平台,我们能够单独拿出来,这是一个非常重要的方式。其实我们应该在两个礼拜之前,我们的人脸识别获得了MIT的十大突破技术之一。我们在这个工程实验室,希望生物特征的识别、人脸识别、声纹识别、虹膜识别等身份特征的识别做成一个能够广泛应用的技术。

新型人机交互平台

新型人机交换平台,这个里面会融合计算机视觉的AR,百度最近也成立了一个事业部,就是纯语音的,用非常自然的这种交互系统,我们最后希望能够把这些系统都放在一起,是一个基于AI的交互系统。包括我们最近这几年基于触摸的,就是在那个基础上,我们想建立的基于AI的方面,这里面包括语音、语义识别和理解能力,还有计算机视觉的能力。

标准化服务平台

刚才也提到,我们希望把我们研发出来的很多的技术都标准化。因此,我们也会在这个工程实验室里面推进标准化平台的建设,这样的话,希望很多研发出来的技术,当它足够成熟的时候,能够应用在各个行业。

知识产权

知识产权的保护也是非常重要的,我们希望成为中国甚至是世界上最好的人工智能实验室,我们研发出来的很多技术,我们也需要去做非常好的知识产权的保护。这个里面还包括知识产权的一些分析,比如说能够分析人工智能这个方向的趋势各个方面,对于我们技术的研发提出建议,哪些技术是非常重要的,直到最后知识产权的保护。

总体目标

我刚才提到了,人工智能的技术需要从四个大要素一起来发力,我们在这四个大要素上具体是怎么做的?

第一,深度学习的平台。我们把我们的PaddlePaddle去开源,我们争取把PaddlePaddle做成一个非常好的开源系统。

第二,我们会开放大规模的计算资源。因此我们的PaddlePaddle会在这个计算资源的平台上进行深度的优化,这是我们要做的一件非常重要的事情。这个计算资源跟PaddlePaddle我们会向社会开放和科研单位开放,他们只需要一个账号,就可以在这个平台上去做各种各样的实验和人工智能的研发。

第三,大数据。我们会和目前的共建单位,甚至包括我们后面更多的合作单位我们来定义问题,定义问题的方式就是通过数据,或者我们叫Benchmark来定义人工智能,我们会去看哪一些人工智能的方向是人工智能领域一些非常核心的,同时也需要技术突破的。这些方向,我们百度跟合作单位会投入很大的力量,吸引非常多的科研单位到这个平台上我们一起来做研发。我们提供深度学习平台、大计算平台和大数据平台,我们一起研发,希望能够在一些技术上取得非常大的突破。

第四,大应用。假定我们前面的研发取得不错的技术,这样的话,我们希望能在百度很多的应用上很快的用起来,或者是说我们也会把这些应用推到社会上,期望通过百度这个平台,这些研发出来的技术能够获得非常广泛的应用。

百度的深度学习技术最新进展

当天下午的研讨会上,林元庆首先介绍了百度在人工智能上的一些技术布局和方向,以下是文字实录:

上午在百度大厦“深度学习技术及应用国家工程实验室”揭牌了,今天下午我们介绍一下这几个单位在做的一些人工智能的研究。我会第一个发言,之后各位老师都会介绍一下各自的研究方向。我首先来讲一下百度的人工智能。

首先简要介绍一下百度大脑,我会讲一下计算机视觉、增强现实、语音技术和NLP。

百度的人工智能基本上可以从这三个层次上来看,中间的层次我们经常叫做百度大脑,就是人工智能的基础技术。跟人脑一样,百度大脑里面我们需要有听的能力、看的能力,还有对语言的理解能力。

当然在百度特别重要的一个功能是大数据提供的推荐和预测的能力,百度现在的搜索需要去预测哪些页可能是你真正想看的页,在百度还有跟无人车相关的决策规划、运动和控制。因此在这个层面上,基本上构成了百度大脑的一些非常核心的基础技术。

最底下是来支持和研发这些技术的,我们叫机器学习平台,特别是深度学习平台。这里面有PaddlePaddle的深度学习平台,有开源的平台,还有大规模计算,包括CPU、GPU、FPGA。当然我们也很需要大数据来做训练。

在这个平台上我们研发这些人工智能的基础技术,有了这些基础技术之后,我们可以有非常多的应用。比如像度秘的应用、图片搜索、人脸闸机,甚至包括自动驾驶。百度大脑主要是几个基础技术,主要是语音、图像、用户画像和大数据。

下面讲一下计算机视觉。这个大部分的工作是在IDL,我下面一个个来讲一下。

首先是人脸识别,人脸识别包括人脸检测和识别。人脸检测在这个图里面我们会看看脸在哪里,脸上的一些主要特征点在什么位置上。识别的话,一个就是来看这是不是同一个人,还是不同的人。百度人脸识别其实做得还是非常好的,我们在2014年、2015年在国际测试集上都是领先的,2016年我们在这个上面有非常大的技术突破。

下面有一些内部的数据给大家说一下这个突破到底有多大。在2015年年底、2016年年初的时候,我们在内部的一个测试集上,把一些很简单的东西去掉了,基本上留下的就是比较难的一些例子。因为我们不想每次看的都是99%以上,我们在内部的测试集是非常难的。在那个测试集上,当时年初的时候还是8%的错误率,在9月份的时候,当时大概是开百度世界大会的时候,我们把错误率降到了大概是2.3%,这是非常大的。平常我们说把错误率降低20%、30%或者是50%,这个其实是几倍的降低,我们现在基本上已经做到了低于1%,在这个测试集上。因此大家能看到,基本上我们在一个已经非常好的系统上,它的性能提高了接近10倍,这是非常大的一个突破。就是因为我们有了这些突破,我们有一些非常有意思的应用。

我们在百度大厦和百度科技园的楼里面都已经置上了这个人脸识别闸机系统,我们已经有20多条线在用这个系统。这里面百度的员工每天进出百度的大厦,现在也都是用这个系统,现在百度总共有5万名员工,主要是在百度大厦和百度科技园有1万多的员工注册了这个系统,每天他们就可以用这个来进出。

我想问大家一个问题,人脸闸机这个技术,我们在2008年奥运会的时候就听说了,当时说2008年的奥运会可以用刷脸来进出这个场馆。为什么我们在过去接近10年的时间都没有看到这个技术真正的落地?包括在乌镇的西栅景区,我们从去年的世界互联大会上,在乌镇就布了人脸进出乌镇的景区,一直运行了五六个月的时间。

为什么现在这些技术才真正的落地,以前说了十年还没有真正的落地?这对技术的门槛还是要求非常高的。比如我们刚才说的百度进出门的闸机系统,首先要让这个系统几乎是接近于零的误通过率,不是百度的人,就一定不能让他通过,因此要求这个系统非常严格,每一个人来,他都要非常仔细的看,非常的严格。同时是百度的人,你又要放他进去,因此这两个是非常矛盾的。如果是一个百度的人,不能让他等半天就是进不去。因此,这个只有单独的技术做到极致的时候,才有可能发生。

我们现在有很多人工智能技术的落地。百度非常追求的就是以技术为导向,真正把技术做到极致,然后才非常扎实的去落地,我们这个已经做得是非常好了。这是我非常喜欢说的一个例子,今天上午我在百度大厦也给一些朋友们看了,今天下午有很多学生没有参加上午的活动。大家能找出来这个图里面哪一个是我吗?这是我自己的一张高中毕业照,这个其实是挺难的,你们比较一下,这两个人从外表来看差别其实是非常大的。我们的人脸识别的技术,我们做到非常靠前的一种程度。

我举的这个例子跟我们几个月之前在《最强大脑》上面做的那个比赛相比要容易很多,主要是两个方面。一个是《最强大脑》那个比赛看的是小学毕业照,我这里面还是高中毕业照,高中毕业照要容易很多。还有《最强大脑》的比赛里面基本上是30张的照片里面去找,而不是1张,因此这个难度要大很多,但是百度的人脸识别技术依然能做得非常好。

下一个方向是我们的细粒度图像识别。传统的图像识别只需要识别这是一把椅子,这是一张桌子就可以了。但是现在细粒度的图像识别,可能就需要去识别这是哪个厂家、哪个型号的椅子。比如这里面举的例子,传统的可能需要去识别这是狗就行了。细粒度的图像识别,我们就需要去识别这是哪一种狗,这是非常细粒度的。比如我不单单识别这是一只鸟,而且要去识别是这种特别的鸟,百度在这个上面其实投入了非常大的力量在做。

刚才说了,我们在国际上Performance精度做得非常明显,核心就是注意力模型。比如说我们去识别这一只鸟,我们能够自动的去发现哪些特征是非常有用的,比如说头顶的颜色,或者是腹部的一些特征,通过端到端的去训练,能够得出哪些信息是非常重要的。

这里面是一个Demo,我们可以看一下,这是菜品的识别,我们在乌镇落地。这里上了一道菜,打开糯米你可以拍照,能够自动识别这个菜,这个是餐馆里面的鱼香茄子,同时还会告诉你它是多少卡路里。我们菜品识别这一块,应该说是世界上最大规模的细粒度图像识别。

图像搜索,我想在座的很多同学可能都用过百度的图像搜索,这里面可以以图搜图,这个我们索引了超过100亿张的照片,能够快速的在100亿张照片里面找到你想要的照片。

我们现在的检索很重要的就是图片和文本的相似度,很多时候你输入的是文本去找图片,这个里面我们需要很好的去理解这个图片和文本的相似度。

IDL还在做的一个事情就是图片的图像技术,大家可能都知道ImageNet,它大概是1千类,150万张照片,这是一个非常重要的Benchmark。现在百度的类别做的比它大很多,因为百度是希望通过同样的图片识别,系统能够真正的非常有用。因此我们识别的东西,要比ImageNet里面1千类要多得多。我们目前做完的系统是可以识别4万类,这里面的训练集是7千万张照片。

我想给大家说一下,为什么这些数字有这么重要?比如说ImageNet,现在大家训练还是3天到5天,如果是全部的模式的话是5天。这个相比是40倍的区别,相当于原来如果ImageNet要训练5天的话,在我的大数据下要训练半年以上,就得200天,这个明显太慢了。百度为什么能做这个?其实也是因为我们有PaddlePaddle,还有非常大的计算集群。这也是为什么我们希望像这样的技术可以在国家工程实验室平台上开放出来,

很多的科研单位,或者是很多的公司都可以来用这样一个平台。

这里面还要提一下,图像的技术里很重要的两个事情,一个是物体的检测,还有一个就是物体的分割。物体的检测就是给你一张照片,如果图像分类的话,只需要知道这里面有一条狗,但是不知道狗在哪里。如果是物体检测的话,还要知道这条狗的位置,用这个框的形式表示。百度在这个上面有非常好的技术,叫做Dense-Box,这个用到了百度非常多的产品线上,这个技术做得非常好。我们现在也在研发图片分割,我们希望能够对图片进行更好的一些理解。其实我下面还会提到一个我们现在在建的非常大的做视频分割的一个团队。

现在还有一个技术是OCR,这个应该比较容易理解。就是拍一张照片,上面如果有文字的话,我们能够把文字检测出来,还要知道这些文字是什么意思。如果是翻译的话,我们还可以直接把英文翻译成中文。百度现在的OCR应该说在国内是做得非常领先的,甚至在国际上也是做得非常领先的。我们其实几年以来都是有5个指标是世界第一。

这里面有两个Demo我们可以看一下,这是拍身份证的,比如说就这么一拍,我们下面的信息就可以直接提取出来了。我们也可以拍银行卡,这个都已经在产品里面了,现在拍银行卡的功能都已经在百度钱包里面了。

我刚才提到百度正在搭建一个非常重要的团队,就是对于视频有比较好的理解。在座的也有很多清华或者各个学校来的学生,如果大家在这个上面有兴趣的话,应该考虑到百度来,我们一起来做这个事情。

我们觉得下一步计算机视觉里面非常重要的一个事情就是视频的理解,当然视频的理解分两部分,一部分是我们叫LowLevel的,我们希望这个视频知道这些是路面,这些是车,这些是树,另外是建筑物。我是不是学会了颓废们希望在这个层面得到99%以上的精度,在这个领域里面大家知道这是非常难做的一个事情。

百度现在正在搭建一个非常重要的团队,就是我们希望做医疗图像的分析。比如说CT的图片,进来之后我们希望利用人工智能的方法,或者是图像识别的方法去看这个里面是不是有癌细胞,还是所有的细胞都是正常的。因此,我们认为这个应该会是AI在医疗上面一个非常重要的落地方向。

下面我简要说一下增强现实。增强现实基本上系统就是这样的,前面有各种传感器,这个传感器可能包括摄像头、GPS和MU。之后我们会做场景的理解,包括物体的检测和识别,还有摄像机自己的三维重建,还有姿态的识别。然后,我们把这些放在一起,就是做带有语义理解的三维重建。这样的话,我们可以根据用户看的角度各个方面做图像渲染,然后推送给用户。这个里面我们还可以加入交互的功能。

在这里给大家看一下我们做的一个Case,这个大家能看到,在这个明信片上,我们现在看到的这个图全部是的截屏,所有的程序都是在上实时Run的。当我们把明信片拿起来的时候,这些花落到明信片上,不管你怎么动,或者是摄像头怎么动的话,我们看到那个花就像黏在这个明信片上。这个里面需要去理解这个明信片3D的姿态,我们需要做很好的跟踪和三维重建。这些就像我刚才说的,全部是在上实时完成的。这是我刚才说的互动场景,在前面把手掌打开,有一只熊可以坐在手掌上。

刚才我们看到的都是看的能力,百度还有非常强的听的能力,这里面包括语音识别、语音合成、语义理解,还有现在非常重要的语音的唤醒。就是一个设备,你希望跟它一说话,它马上就知道是在跟它说话。这里有一个例子,这是一个韩乔生老师语音合成的,我们用他的声音合成了一段我们想说的话。

现在百度语音这一块,除了度秘,我们会提到一个非常大的应用就是智能客服和金牌销售的例子。这个图里面说了,传统的人工客服需要非常多的人,现在如果要做自动化的话,问题在于客户很多时候就不满意,核心的核心还是技术需要进步,能做到非常好才可以用。

下面我简要介绍一下度秘。度秘我们在两个礼拜之前成立了事业部,将会成为百度人工智能这一块非常重要的一个方向。我们希望搭建这么一个平台,能够让人跟机器非常流畅地,或者是非常自然地进行交流。

这个系统就是我们去年做的一站式的高考解决方案,就是你不要再去到处搜集材料了,你只要进来,告诉我你想问什么问题,我直接给你回答,我自动的在后台把这些资料都找出来,把这个提供给你,就是一站式的,去年我们还做了一个Case是全球的智能篮球解说员。

这里面也有一个例子,我们在度秘这个平台上能够把菜品推荐或者是餐馆的推荐做得更流畅,体验的话就是你不需要到处去找材料,到处去找各种各样的页,直接打开度秘,你问它问题就行了。

这些很多的功能其实都下,现在度秘的功能里面已经是线上的一些功能了。这是一个智能日程管理的例子,我想提醒大家注意的是,这里面能够有很好的多轮的对话,它能够记住之前说过的一些内容。

对于人工智能来说,现在确实是一个非常热的时期,但是其实也刚刚开始。百度在人工智能的四大要素上,早上深度学习实验室揭牌的时候我也提到,我们在这四个要素上,国家工程实验室当中都有非常重要的体现。百度的四大核心能力,图像能力、语音能力、用户画像能力和自然语言处理的能力,确实百度在过去这几年都有非常好的积累。

李彦宏早上也说,人工智能是百度核心的核心,从去年年初开始,他说人工智能是百度的下一幕,一整年下来,我们现在就说人工智能确实是百度核心的核心。我特别要强调的是,百度的人工智能会是非常开放的,我们今天早上揭牌了国家工程实验室,也是一个非常重要的体现。我们的PaddlePaddle会在上面开源,我们会开放计算资源,开放大数据,还会开放其他的产品给大家,因此这个会是一个非常开放的平台。包括我们现在已经做得很好的,给大家展示的做得非常不错的人工智能的技术,你都能在上面找到。

就像我刚才说的,其实我们是刚刚开始,非常期待有这个国家工程实验室这个平台,能够跟我们的共建单位一起,后续联合更多的单位,我们一起来把人工智能做成一个非常棒的事情,谢谢大家!

宫颈糜烂用哪一种药好
高血压病因及发病机理
肩部韧带拉伤症状
TAG:
推荐阅读
图文聚焦