【重磅】ImageNet 挑战赛落幕,中国团队包揽冠军 | 李飞飞专访谈计算机视觉先驱

新智元2018-04-15 15:57:18

1 新智元原创  

记者:胡祥杰  闻菲

【新智元导读】世界著名的 ImageNet  大规模图像识别挑战赛(ILSVRC2016)今天公布赛果,来自中国的团队大放异彩,包揽多个项目的冠军。新智元日前专访ImageNet 创建者之一、斯坦福人工智能实验室和斯坦福视觉实验室主任李飞飞,她在视频专访中回顾了人工智能 60 年发展,阐述了未来 5 到 10 年产业界应该重点关注的方向,以及 AI 的最终使命。在10月18日在国家会议中心举办的世界人工智能大会上,李飞飞作为大会特邀嘉宾将发表视频讲话。敬请期待。




ImageNet 2016的结果揭晓,冠军几乎被中国团队包揽:CUImage(商汤和港中文),Trimps-Soushen(公安部三所),CUvideo(商汤和港中文),HikVision(海康威视),SenseCUSceneParsing(商汤和港中文),NUIST(南京信息工程大学)分别拿下多个项目的冠军。


1、物体探测


任务1a,用提供的训练数据进行物体探测,冠军队伍 CUImage,使用提供数据合成6个模型,探测物体胜出种类数量109,精准度 0.662751。





下图,任务1b,使用额外训练数据进行物体探测。冠军队伍 CUImage,使用的是自己在ImageNet Det 数据上的标签基准。识别物体胜出种类数量176个,平均精准度0.66081。




2. 物体定位


下图,任务2a:使用提供的训练数据进行分类+定位。冠军队伍Trimps-Soushen。第一名的模型定位错误率为0.077087,分类错误率为0.02991。




下图,任务2b:使用额外训练数据进行分类和定位结果。Trimps-Soushen在定位和分类上依然排在第一。



3. 视频中的物体探测(VID)


下图,任务3a,使用提供训练数据进行的视频中的物体探测。冠军团队NUIST,识别物体胜出种类数量10个,平均精准度0.808292。



下图,任务3b,使用额外训练数据进行的视频中的物体探测。冠军团队NUIST,识别物体胜出种类数量17个,平均精准度0.79593。



下图,任务3c,用提供训练数据进行的视频中物体探测和追踪,冠军是CUvideo。



下图,任务3d,用额外训练数据进行的视频中物体探测和追踪,冠军是NUIST。



4. 场景分类


冠军 Hikvision



5. 场景分析


冠军SenseCUSceneParsing



更多排名和参赛团队信息,参见:http://image-net.org/challenges/LSVRC/2016/results#det




由中国自动化学会和新智元联合主办的 2016 世界人工智能大会将于10 月 18 日在北京国家会议中心召开斯坦福大学人工智能实验室主任李飞飞作为本次大会特邀嘉宾,将在会上发表视频讲话。新智元前往美国做了前期访谈,在她位于斯坦福大学办公室里,计算机视觉大牛李飞飞回顾了人工智能 60 年发展,她认为未来 5 到 10 年产业界应该重点关注的方向,以及 AI 的最终使命。本文摘选采访内容,让大家先睹为快。


距离大会开幕不到一个月,门票销售进入奇点期,点击“阅读原文”抢票!




【人物简介】李飞飞是斯坦福大学计算机系终身教授,斯坦福人工智能实验室和斯坦福视觉实验室主任。使用神经网络模型等机器学习算法,李飞飞带领团队创造了能够自动生成图说的软件,创建了全球最大的图像识别数据库 ImageNet,每年一度的 ImageNet 竞赛都牵动着整个业界的心弦。李飞飞关于神经网络和计算机视觉的研究大幅推动了人工智能发展,可能为我们带来更直观的图像搜索应用,以及能够在不熟悉的情况下做出决策的自主机器人。


人工智能 60 年一直在积累


新智元:您怎么看 AI 这 60 年的发展?


李飞飞:我简短地说一下。我把过去这 60 年的 AI 看作是“in vitro AI” ,也就是在实验室里的 AI。现在是 21 世纪的第 2 个十年,是 AI 的一个重要的历史转折点,因为 in vitro AI 走向了 in vivo AI——成为走进人们生活、走进社会的 AI,虽然才刚迈出了第一步。过去 60 年是非常重要的 60 年,奠定了这个领域的基础,包括理论基础和理论框架、软硬件工具,尤其是数学、算法,以及 AI 需要关注的主要问题是什么,如何去衡量这些问题。过去的这 60 年,AI 有了长足的发展,站在工业界、投资界的角度,或许 AI 好像是平地而起的一个新兴产业,但实际上这 60 年一直都在积累。


新智元:不过,近几年 AI 投资非常火热,有什么特别的原因吗?


李飞飞:原因我想也应该是有目共睹的。深度学习的第二次崛起是 AI 从 in vitro 走向 in vivo 的一个重要转折点。在我看来,有三个重要的因素,它们汇聚在一起,共同构成了这个转折点。一个是深度学习的理论框架,也就是是神经网络,神经网络从 20 世纪 70 年代、80 年代、90 年代不断在发展、优化。当然,也有一段时间,神经网络不是最受欢迎的机器学习方式,但不管怎么说,在上个世纪末机器学习百花齐放的时候,神经网络是其中的一部分。然后走到 21 世纪初期,硬件在摩尔定律的推动下不断推陈出新,尤其是 NVDIA 的 GPU 带来了并行计算的腾兴,像神经网络的高通量模型运行。第三个非常重要的就是大数据。大数据的崛起与互联网的崛起紧密相关,互联网又是上个世纪 90 年代的产物,经过这十几年的积累,互联网带来了大数据的爆发。所以,在人工智能领域,神经网络、大数据和计算机硬件,尤其是 GPU,这三个事件的聚合带来了 2012 年左右深度学习的大爆发。


如果一定要指出一个事件,我会说是 2012 年 ImageNet 竞赛 Geoffrey Hinton 和他的学生用深度卷积神经网络在图像识别任务上取得了长足的进步,他们当时的计算结果比其他的算法都好很多,我想这可能是大家会记住的历史事件,但背后也很多年的积累。


新智元:您是计算机视觉面的专家,在这 60 年的历史中,AI 领域对您影响最大的人有哪些?


李飞飞:我的专业处在计算机视觉和机器学习的交叉点,在机器学习方面,对我影响很大的两个人是 Michael Jordan 和 Geoff Hinton,他们在各自的机器学习领域都作了巨大的贡献。从我本科生开始到研究生,他们的论文一直引领着机器学习的新思路、不断地探索。看 Geoff Hinton 这么多年写的论文就可以发现,他在神经网络这个子领域上做了各种探索,从最开始的反向传播算法,到生成模型、判别模型、各种不同的推理……深度学习本身是有很长历史的子领域,Geoff Hinton 一直是深度学习的领军人。同样重要的一个人物是 Michael Jordan,是 Michael Jordan 把机器学习统计学的概念带进了这个领域,而且他的工作一直在理论和应用之间保持非常好的平衡。我做研究生的时候,他很多 topic model、梯度下降……他的学生现在已经分散在各个重要的高校,在领军机器学习。所以,这两个人是在机器学习方面对我影响最大的。


在计算机视觉方面,我觉得一个重要的人物是 Jitendra Malik,他是伯克利的教授。Jitendra Malik 把计算机视觉这个领域从图像处理带进了 AI。这是一个非常重要的理念,在上世纪六七十年代,计算机视觉仅仅是图像处理一个不成气候的小领域,在像素级别怎么去做 filtering (such as low-pass, high-pass)、edge detection。但是,Jitendra 是最早一批看到了视觉本身在智能这个问题上的重要性。如果你看人,视觉是人类智能的重要的部分。所以,Jitendra 和与他同时代的一些研究者,比如 Shimon Ullman、Tomaso Poggio,一起推动了计算机视觉思维方式的改革。我 2000 年开始从事计算机视觉博士研究的时候,很幸运的成为第一批赶上这股新思想的人,刚好开始用机器学习的思路来重新思考计算机视觉里重要的感知和认知的问题。所以,Michael Jordan,Geoff Hinton 还有 Jitendra Malik,我觉得这三个人是对我影响最深的三个人。



Jitendra Malik 与李飞飞的合影。来源:Carlos Chavarria for The New York Times



AI 投资领域火热,李飞飞给投资者的几点建议


新智元:您认为未来 5 到 10 年 AI 最有可能会实现哪些突破?


李飞飞:我是这样看的,任何一个即是基础科学又是应用科学的科学领域,提到 5 到 10 年的突破,我们得看是应用场景的突破还是基础科学的突破,这两者往往是有联系,但不一定一样的。在我看来,基础科学的突破应该比应用场景的突破早走几步。


【采访中李飞飞谈到未来 5 到 10 年 AI 学术和产业界应该重点关注的方向,将在 10 月 18 日世界人工智能大会现场播放,点击“阅读原文”抢票!】


新智元:您觉得目前投资领域在 AI 方面有泡沫吗?您对 AI 投资者有什么建议?


李飞飞:要是一年前问我这个问题,我可能只能告诉你我完全不懂投资。但是,最近看到新闻,AI 投资十分火热,同时,硅谷的一个比较优秀的投资团队 A16Z 邀请我成为他们的顾问,Andreessen Horowitz 也被邀请作为他们的顾问。所以,我在最近的大半年开始学习投资了,虽然还是懂得非常少。我的感受是这样的,我认为大家对 AI 的热情是真实的,一方面是由一个新兴的领域带来的兴奋,另一方面是很多有远见的人看到了,我自己就非常相信,信息革命的后半段就是由 AI 来引领的。


信息革命的前半段是由 PC 和互联网定义的,它带来了数据,信息革命的后半段是由智能来引领的。所以,从这个角度讲,我是认同这种兴奋和关注的。你提到“泡沫”这个词,我认为可能在这种兴奋和关注之间,有时候会有一些不冷静。现在在投资界大家也说,什么公司都想把自己标榜成一家机器学习公司、一家大数据公司,但如果你仔细地看一下这个公司,它的人才、实力也许还没有走到那一步。所以我建议投资人,用投资界的朋友说的话就是,“Due diligence”一定要做好,面对每一家公司的时候,不要只看PPT,去了解一下它们的工程师,它们的技术领导团队有什么样的AI、机器学习或大数据的背景。这个是很重要的。


新智元:您十月份没有办法到我们世界人工智能大会的现场,在这里有什么想对参会的各位说的吗?


李飞飞:谢谢大家给我这个机会。首先我预祝人工智能世界大会的成功。在这个比较重要的历史时刻办这么一场会,我觉得也是一个非常好的机会,让社会各界的人聚到一起,共同讨论。我自己站在人工智能的科研者的角度,非常非常高兴社会现在这么关注人工智能,我希望大家给我们很多反馈和建议,很多新的思路。我也希望我的学生今后不管是在学术界还是研发界还是创业界,都能有很好的机会。


我最近一直在思考 AI 何去何从的问题。你看现在好像 AI 不存在何去何从的问题,已经是大家都非常关注的一个领域了。但我自己还是希望科技是为人类服务的,也就是说“technology has to be benevolent”,要站在人性的角度去思考技术。我也希望创投界和学术界更加关心人工智能的使命,人工智能最终的使命是以人为本的,当你在想应用场景的时候,不管是医疗、教育、交通、智能城市……我希望 AI 能用在提高人类生活品质这些最关键的应用场景。同时我也关注 AI 人,我希望更多的不同的人参与 AI 领域的发展。科技是带着价值观的,科技工作者会把他们的价值观带入科技中。那这些科技者是谁,就成了非常重要的一个问题,只有一种人群来创造科技往往会带着这种人群的偏见。所以,我特别推崇包含很多不同的人,来自不同的生活背景、不同的肤色、不同的性别、不同的人生理念来参与 AI 科技的发展。谢谢。


想与李飞飞进行更加深度的交流?


世界人工智能大会得以邀请和采访李飞飞实属不易,经过两个多月的联系和执行,这些宝贵的影像资料才得以到达我们手中。在此特别感谢丁险峰、刘瑞桢、王昱等新智元专家与朋友所做的贡献!


10 月 18 日,中国自动化学会和新智元联合主办的世界人工智能大会举行,欢迎到现场观看李飞飞认为 AI 产业界应该重点关注的方向以及原因,还有更多精彩内容。




豪华嘉宾阵容,共飨 AI 盛宴

7 大院长齐聚新智元智库院长圆桌论坛  

2016世界人工智能大会技术论坛特设“新智元智库院长圆桌会议”,重量级研究院院长7剑下天山,带来最前沿的AI研究动态、剖析技术发展趋势。

七位人工智能界“高手”现场过招,思想的激烈碰撞会给目前的人工智能发展带来哪些洞见?七位院长对行业的发展会有哪些前瞻揭秘?10月18日下午,2016 世界人工智能大会技术论坛,答案将逐层揭晓。

新智元智库院长圆桌汇集了中国人工智能产学研三界最豪华院长阵容:美团技术学院院长刘江担任主持人,微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。

2016世界人工智能大会技术论坛议程
扫描二维码购票:
购票链接:http://www.huodongxing.com/go/aiworld2016
也可点击‘阅读原文’直接购票。