CVPR 2018中国论文分享会 | 计算机视觉产业界和学术界的对话

来源 | 微软研究院AI头条

编辑 | 磐石

出品 | 磐创AI技术团队

【磐创AI导读】：本文授权转载自微软研究院AI头条（ID：MSRAsia），主要分享了CVPR2018中国论文分享会圆桌讨论环节的主要内容。欢迎大家点击上方蓝字关注我们的公众号：磐创AI。

上周五，“微软亚洲研究院创研论坛——CVPR 2018中国论文分享会”在微软大厦成功举行。来自国内外计算机视觉领域学术界、工业界的杰出代表们携各自在CVPR 2018上发表的最新文章出席，与现场观众进行了深入的分享与交流。

在此次分享活动上由刘偲（中国科学院信息工程研究所副研究员）主持的圆桌讨论环节中，陈光（北京邮电大学模式识别实验室副教授）、何旭明（上海科技大学信息科学与技术学院副教授）、凌海滨（美国天普大学Temple University计算机系副教授）、童欣（微软亚洲研究院首席研究员）、王井东（微软亚洲研究院资深研究员）、王晓刚（商汤科技联合创始人、研究院院长）等六位计算机视觉领域的资深专家就当前计算机视觉领域中的热门问题做出了精彩解答。

下面我们就和大家分享一下本次精彩的会谈内容！

CVPR 2018中国论文分享会 | 计算机视觉产业界和学术界的对话

从左至右：童欣、陈光、何旭明、王晓刚、王井东

问题一：很多学生都对计算机视觉领域特别感兴趣，各位老师平时比较看重学生哪方面的能力?又是以什么目标来培养人才的？

王晓刚：我认为学习计算机视觉的学生，发展还是可以比较多元化的。以前的学生大部分走学术路线，但是现在随着工业应用的发展，计算机视觉有了很大的应用前景，学生可以走的路非常多，对学生的要求也不一样。有的人可以走理论、创新性的道路，有一些学生是更适合解决实际问题。这部分学生，在以前走学术路线可能会困难一些，但现在随着工业界应用的发展，他们也有很好的前途，我觉得更要因材施教。最重要的是学生能够经过训练拥有一个良好的思维能力，将来能独立地解决问题，并且对整个视觉领域具备良好的知识体系，打下一个坚实的基础。

陈光：从学生培养的角度来讲，同学最重要的是要听话，尤其是零基础、冷启动的同学，如果他一开始不听话，会走很多的弯路。另外还有两点，一个是要有悟性，当然这个是可遇不可求的，还有一个是能坚持。我们经常对同学说的一点是，只要你坚持做，再小的一个东西你也能做得很有成果、很有心得，将来不管是工作还是研究，都能有很好的前途。

还有一点就更可遇不可求了，是要在后续的培养里才能看得出来的，就是他能不能从问题里“跳出来”，这一点特别关键。有些同学善于钻研，但是可能钻进去就出不来了，这部分同学看技术就是技术，但是他“出不来”。“出不来”的问题在哪？他们可能看不到大的方向、大的趋势或者大的前景，这个时候研究就可能越做越窄，而且也很难找到对于长期发展很有价值的一些点。

问题二：现在随着深度学习的火爆，有很多非视觉领域的人才进入到了视觉领域，各位老师对这个现象怎么看？

何旭明：视觉本来就是个多学科的领域，不同领域同学的进入对这个领域的发展有非常正面的促进作用。如果你有不同的背景，希望你能够发挥你的长处，从不同的角度对计算机视觉进行有自己特色的研究，我觉得这是非常独特一个视角。

陈光：对于从其它领域转专业到视觉领域的同学来说，最重要的一点是你要有好奇心。这个好奇心不是说你对这个图像技术好不好奇，而是建立在你有一定了解的基础上，是不是对它的前景和技术有足够的热爱、足够的好奇。我觉得这一点是你是否要跨入图像领域一个非常重要的点。我本身主要是搞文本的，我见证了很多同学从文本跨越到图像，我觉得只要想清楚了，只要是学术研究，只要是有前途的方向，都是可以的。

问题三：各位老师怎么看待很多高校的学术大牛进入到了工业界？

童欣：这个我觉得是件好事，这说明大家学术做得成功，在工业界能有应用，多好的一件事。越来越多的学术界的人进入到工业界，说明这个领域有了应用。反过来讲，工业界也可以给学术界提供很多反馈，提出很多实际的问题，我觉得这是一种很好的、很正向的交流，长期来看一定会带来两边的繁荣和发展。

王晓刚：以前我的学生毕业后都去做投行了，现在他们可以在工业界继续做研究，并且让技术落地，这其实是非常好的事情，而且很重要的事情，很多好的问题，实际上是从工业界里发现的，以前我们研究的很多学术问题都是学者拍脑袋想出来的，现在我们希望能够从工业界得到更多的反馈。

但是从另一方面来说，工业界把很多学者招过来的时候，不一定能够想得很清楚——怎么能够用好他们，他们的价值在什么地方?不是所有的学者到了工业界以后就能够发挥他的作用，每个人还是不太一样的。

同时，还有一个很重要的问题。这些教授、老师离开了学校，后面的人才谁来培养？整个工业界对视觉和机器学习的人才需求量是非常大的，需要思考怎么样解决“造血”的问题。

陈光：其实我觉得这个问题要两边看，有积极的因素，也有消极的因素。短期来看是消极的，学校肯定是损失了很多培养人才的人才。但是长期来讲，将来这些人有可能还会回到学校，回来的时候，他会带着实践的经验和实际的问题，那时候他一定比现在更有价值。而且现在很多学校都在建立人工智能研究院，将来一定能和企业不断地有更紧密的结合，不管是以人才回流的方式，还是以问题和数据合作的方式，我觉得长期来看还是一件好事。

问题四：网上说高二的学生就可以用深度学习去开发人脸识别的系统，请问在座各位专家，你们觉得深度学习让计算机视觉的门槛变低了吗？

王井东：我觉得这是个好事情，说明我们很多学生通过网上的资源可以很容易获取最先进的深度学习技术，看上去是门槛降低了，但这句话的角度是站在一个本来不是做计算机视觉、或者不是做深度学习、或者做这方面时间不是很长的人那里，门槛的确是降低了。但是我们换个角度想一想，对长期在这个领域工作的人来说，不见得是门槛降低了。为什么这样讲？大家都知道，2012年以来深度学习非常火爆，取得了很大的成功，以至于几乎所有计算机视觉都集中在深度学习的方向，但是，大家还是觉得深度学习还没有被真正理解透，无法从理论的角度去解释。从这个角度来讲，门槛其实并没有降低。门槛高和低，实际上是站在不同的位置上讲的。

何旭明：因为深度学习对数据的要求很高，某种程度上实际上是把门槛抬高了，尤其是对于一些特殊领域，例如医疗。

问题五：每年都有很多CVPR的论文发表，各位老师觉得有多少论文可以解决应用当中的痛点问题？

王晓刚：其中一部分论文对应用是有推动作用的，我们在工业界感觉到，如果有一年时间你不了解这些最新论文就会落后。从另外的角度来说，把论文上面的一些方法拿过来用到实际当中是不是就能解决问题？其实还不是这样的。现在应用发展得非常快，但是在学术领域，对问题的探索很多时候并没有跟上应用的发展。而且，学术论文追求的目标和实际应用的导向还是有差别的。但是，大家通过发表论文、写论文，对整个领域有了全面的理解，等再进入到工业当中，处理各种问题就会游刃有余。

何旭明：CVPR我觉得更多的是培养学生如何去做研究，如何去探索一个新的问题，更多的是为研究生或者博士生创造一个环境，大家可以相互交流，尝试各种不同的想法，这是一个培养人才的途径。

陈光：其实我们希望培养出的人才具有两种特性，我们希望搞工程、搞应用的人具有学术思维和学术视野，他知道算法能实现什么、不能实现什么，这个时候他根据自己所擅长的专业领域拿着问题去找技术，这样有助于技术可以快速落地。另外我们希望搞研究的人有应用思维，他需要以合理的、正确的方式看待他所掌握的技术和方法，而不是像咱们经常说的拿着锤子找钉子，要从一个需求和应用的视野去看待这些技术和方法。

问题六：计算机视觉领域通常会在一个benchmark上刷榜。比如最开始的VOC到ImageNet、COCO或者今年Google Open Images，想请问一下各位老师怎样看待竞赛对学术研究的推动作用？

陈光：我觉得从两个方面来看，一个是积极的角度，一个消极的角度。积极的方面是显而易见的，它提供了一个统一的任务，一个大批量的数据，这在以前看是不可想象的，在别的地方可能根本获取不了这么多数据。这个时候，所有的科研单位和所有做研究的人可以站在同一个起跑线上，用同一个任务去PK，这是一件好事。但是反过来看，它也带来了一些消极的因素，这些任务有时候定义得过于狭窄。当任务和评价已经确定的情况下，大家的想象力就会受到限制。现在这种评测大家在刷榜的时候可能更多的是做工程性的优化。当大家在用更多工程上的工作去拟合这样一些确定任务的时候，其实已经限制了我们在更广泛的、更大的领域里面做更有通用性的工作的想象力。所以我在这里呼吁，设计这些任务和题目的人能够更多地去考虑模型可解释性等、效率、实用和通用泛化等问题。

王晓刚：我补充一点对于审论文的影响。有benchmark和datasets可能让评审工作变得比较容易。对于一些好的、有创新性的想法，或者是一些新的问题，如果没有benchmark可以衡量，这些论文不容易被注意到。有了benchmark，这个领域会迅速产生大量的论文。并不是说这个领域的问题一定很重要，或者这个领域已经取得了很大进展，是因为有了benchmark，大家比较容易发论文，比较容易做评审。当然，这也是后面需要去纠正的一个问题。

王井东：Benchmark对计算机视觉近几年的发展起了很大的作用。为什么深度学习今天有这么多人关注？很大程度上是由于当年的ImageNet数据集以及深度学习和GPU的发展，促进了这个领域的发展，带动了很多计算机视觉初创公司的发展。从这个意义上来讲，benchmark对计算机视觉的积极意义是非常大的。但是从另外一个角度来讲，你必须要在benchmark，例如ImageNet等数据集上做出一些结果出来，你的研究才有可能会被认可。从这种意义上来说对计算机视觉还是有一点负作用，这个其实可能影响了整个领域的大的发展，埋没了一些好的东西。因此，不能完全依靠benchmark来评价一个方法或者算法的好坏。

问题七：很多高校的计算能力可能无法跟大公司相比，很难在ImageNet或者是其它数据集上做出一个好的结果。面对相对有限的计算能力，高校应该怎么办？

王晓刚：现在有一种趋势，学校和工业界的结合越来越紧密，企业会开放更多的资源给到老师们。

另外，学校不应该单纯地以拼计算资源来取胜，或者说整个社区不应该以计算资源为导向。如果只是关注在benchmark上的排名，我们还需不需要reviewer了？将来是不是机器来评判就可以了呢？

陈光：我觉得这个问题是一个挺有意义的问题，关系到我们怎么思考未来技术的发展的。从算力的角度来说，学校肯定是拼不过公司的。那怎么样做突破呢？其实在迁移学习，包括强化学习的方向，学校是可以做更多思考的。我想将来一定会有一些相对通用的模型或者泛化能力比较好的模型能够通过迁移解决一个跨领域的问题，通过迁移学习会减少很多算力和成本的消耗，所以我期待在高校里面能够把迁移学习发扬光大。

童欣：我觉得做研究其实解决的是两个问题：第一个问题是how，就是到底怎么解决这个问题？另一个问题是why，我觉得这是最根本的问题。很多时候学生会跟我说，“老师，我们的模型又提高了2个点，咱们快点写文章吧。”不是说提高了2个点就要写文章，我们要解决的是why——这个模型为什么提高了2个点？我用别的方法行不行？短期内大家还在关注how，能够靠算力提高了2点，大家就会觉得很了不起。但是我觉得很快大家就会到饱和的程度，最后大家做研究还是要回到why的问题，这个东西不仅仅是靠大量的算力能解决的问题，还得靠智力。我觉得这个可能是学校可以更多地发力和好好研究的地方。

问题八：下一个阶段计算机视觉的研究热点是什么？

凌海滨：从特定角度来讲，计算机视觉现在就是两个方向——深度学习和非深度学习。深度学习方向我有一点担心，我的担心倒不是这个方向做不好，而是如果这个方向继续走下去，到底计算机视觉这个领域是深度学习的一个应用，还是一个单独的领域？当然这个并不一定是坏事。

目前我感觉深度学习在计算机视觉这边发力还不太够的地方就是偏几何理解的这分，比如说三维重建这方面，好像目前并没有产生特别好的结果。纯计算机视觉的研究热点，我觉得还是在几何这方面的研究。大的算法框架最近几年没有看到很大的进展。我觉得这个是视觉比较基础的问题，是比较值得研究的。

跟深度学习有关的研究，我个人比较关心的一个问题是时序上的建模。大家可以看到现在深度学习在视频上做得还没有那么强。目前我没有看到类似于RNN网络的架构来很好地对视频自然地end-to-end建模的,网络模型更多的是对中间的特征进行一些建模（即特征提取）。

另外一个我关心的是多模态融合的问题。因为随着计算机视觉越来越成熟之后，有一些计算机视觉解决不了的问题慢慢就会更多地依赖于多个传感器之间的相互保护和融合，比如说拿手机做三维重建，以前视觉做视觉的，IMU的做IMU的，但是现在大家说这两个各有优缺点，怎么样把它们深度的融合起来会比较好。这方面已经有不少很好的工作。我觉得这个可能也是计算机视觉后面需要更多研究的方向。

了解更多CVPR 2018论文（微软）分享会的精彩内容，请发送关键字“CVPR2018”直接获取链接。

你也许还想看：

● 一文彻底搞懂BP算法：原理推导+数据演示+项目实战（上篇）

● TensorFlow + Keras 实战 YOLO v3 目标检测图文并茂教程（文末有惊喜）

● 入门 | Tensorflow实战讲解神经网络搭建详细过程