1. 磐创AI-开放猫官方网站首页
  2. Medium

计算机视觉现状 - CVPR2021年

计算机视觉(CV)是人工智能的一个领域,它专注于使计算机能够像人类一样识别和处理图像和视频中的对象。直到最近,计算机视觉还只能在有限的能力下工作。但是多亏了深度学习的进步,这个领域在最近几年已经能够有很大的飞跃,现在正在迅速地给不同的行业带来革命性的变化!

简历发展如此之快,仅在去年,我们实际上就经历了十年的变化,发表了超过45000篇论文,发布了许多怪物模型,由OpenAI(如iGPT[18]和Clip[10])和Google(如VIT-G/14[19])等大型科技公司发布!跟上这一领域对每个人来说都是一项挑战!

在这篇文章中,你可以阅读我们对CVPR会议的总结。CVPR(computer Vision and Pattern Recognition,计算机视觉与模式识别)是计算机视觉领域的主要会议之一。今年,CVPR有83个研讨会,30个教程,50多个赞助商,12个会议的1600多篇论文(7093篇论文,接受率约为23%)。

最新趋势

在CVPR 2021上,CV的各个子领域都显示出了有希望的改进。虽然包括分割和对象分类在内的一些话题在过去几年里一直是人们关注的中心,但最近出现了新的话题,并在2021年占据了中心舞台。我们的总结集中在以下主题:

  • 从对抗性例子中学习
  • 自主学习与对比学习
  • 视觉语言模型
  • 用有限的数据学习

我们还分享了我们对简历重要的两个行业的见解:

  • 零售业
  • 自动驾驶

使用对抗性示例学习概述

深度学习和计算机视觉系统在各种任务中都取得了成功,但它们也有其不足之处。最近引起研究界注意的一个问题是这些系统对对抗性例子的易感性。一个对抗性的例子是设计用来愚弄系统做出错误预测的嘈杂图像[1]。要在现实世界中部署这些系统,它们必须能够检测到这些示例。为此,最近的工作探索了通过在训练过程中包括对抗性示例来使这些系统对对抗性攻击更健壮的可能性。

优点:传统的深度学习方法对数据集中的每个训练样本进行平均加权,而不考虑标签的正确性。这可能会破坏学习过程,特别是在标签包含噪声的情况下。通过对抗性学习,可以根据每个样本在不同噪声水平下预测标签的稳定性来估计每个样本的可靠性。这使得该模型能够识别和关注对噪声更有弹性的样本,从而降低其对对抗性示例的易感性。此外,在训练制度中包括对抗性的例子已经被证明在标准任务上超过了基准,例如物体分类和检测。这在半监督设置中非常有用,即当有标签的数据供应有限时。

缺点:对抗性训练包括设置“epsilon”参数,该参数控制添加到每个样本的噪声量。过高的“ε”可能会阻碍学习过程。此外,文献[2]中的实验表明,随着大量标记数据集的可用,监督学习技术的性能赶上了对抗性训练技术,使得对抗性训练的优势变得不那么深刻。

对抗性范例学习的最新进展

哨兵:这种方法在迁移学习的设置中使用对抗性例子。迁移学习是深度学习的领域,在该领域中,对源分布上训练的模型进行微调,并在不同的目标分布上进行评估。在目标分布中,哨兵解决了分配给所有样本的相同权重的问题。它使用“预测一致性”方法识别可靠的目标实例。在该方法中,对于被认为是可靠的高度一致的目标实例,提高了模型的预测置信度。更具体地说,一个实例连同其自身的几个增强版本一起被提供给一组模型。对每个模型的预测进行一致性评估。如果更多模型的预测是一致的,则目标实例是可靠的,因此应该使用它来最小化熵损失。如果预测不一致,则目标实例不可靠,因此应该忽略。按照这种方法,Sentry在DomainNet[3]上实现了SOTA,这是一个标准数据集,用于评估模型的迁移学习能力。

优点:在训练中加入对抗性的例子已经被证明可以提高模型的性能,并导致更符合人类解释的特征[4]。这项工作探索了关于干净形象和对抗性形象的联合训练模式。之前的工作探索了关于对抗性例子的预训练模型,然后对干净的图像进行了微调。虽然这提高了分类性能,但模型变得容易受到“灾难性遗忘”的影响,即模型忘记了它在预训练阶段(在域转移的情况下)中学到的特征。为了解决这个问题,提出了辅助批次归一化(BN)层来具体归一化敌方样本。另一方面,正常的BN层被用来对干净的图像进行归一化。这允许归一化层根据干净示例和对抗性示例的不同分布而采取不同的行为。在推理过程中,丢弃辅助的BN层,并使用正常的BN层进行预测。该培训体系与EfficientNet作为主干架构一起,在ImageNet分类准确率方面实现了TOP-1 SOTA性能。此外,AdvProp在更困难的ImageNet版本上实现了SOTA性能:ImageNet-a、ImageNet-c和风格化ImageNet。此外,在训练中包括对抗性例子也实现了目标检测的SOTA[5]。

自主式和对比式学习概述

深度学习需要标签清晰的数据,这对于许多应用程序来说是很难获得的。对大量数据进行注释需要大量的人力,这既耗时又昂贵。此外,现实世界中的数据分布一直在变化,这意味着模型必须不断地根据不断变化的数据进行训练。自我监督方法通过使用大量的原始未标记数据来训练模型来解决其中一些挑战。在此场景中,监督由数据本身(而不是人工注释)提供,目标是完成借口任务。借口任务通常是启发式的(例如,旋转预测),其中输入和输出都是从未标记的数据导出的。定义借口任务的目标是使模型能够了解相关特性,这些特性稍后可以用于下游任务(通常有一些注释可用)。自我监督学习在2020年变得更加流行,当时它终于开始赶上完全监督方法的表现。做出贡献的一种特殊技术是对比学习(CL)。

CL的灵感来自于一种古老的观念[6],即相似的物品应该保持在嵌入空间中,而不相似的物品应该相距很远。为了实现这一点,CL形成成对的样本。对于给定的样本,使用抽样项目及其扩展版本来创建正对。类似地,使用相同的项目和不同的项目创建负对。然后,学习特征,使得正对在嵌入空间中较近,而负对相距较远。这允许相似的物品在嵌入空间中聚集在一起。聚类中心可以表示语义或对象类。由于没有使用标签,CL可以利用丰富的原始未标记数据。

自主性学习与对比性学习的利弊

优点:自我监督学习是一种数据高效的学习范式。有监督的学习方法教会模型擅长特定的任务。另一方面,自我监督学习允许学习不是专门用于解决特定任务的一般表示,而是封装了各种下游任务的更丰富的统计信息。在所有的自监督方法中,使用CL进一步提高了特征提取的质量。自我监督学习具有数据效率高的特点,有利于迁移学习的应用。

缺点:自我监督学习的成功在很大程度上可以归功于精心选择的图像放大,如缩放、模糊和裁剪。因此,为特定任务选择正确的扩充集和扩充程度可能是一个具有挑战性的过程。此外,CL可能会误导模型区分包含相同对象的两幅图像。例如,对于马的图像,为了创建负对,CL可以选择也包含马的另一图像。在这种情况下,模型认为是负对的实际上是正对。

自主学习与对比学习的研究现状

SimSiam:探索简单的暹罗表示学习:暹罗网络框架是一种在自我监督学习中广受欢迎的体系结构。与创建正负对的CL不同,该框架仅最大化图像的放大部分之间的相似度,这有助于学习有用的表示。自我监督学习中的平行工作使用对比损失,这些工作的成功取决于(I)负对的使用[7],(Ii)批次的大小,以及(Iii)动量编码器[8]。但是,SimSiam不依赖于这些因素,使得它对超级参数的选择更加健壮。此外,SimSiam使用“停止渐变”技术来防止功能折叠。特征折叠是指模型在不学习有用表示的情况下学习最小化目标函数的捷径的现象。因此,学习到的特征是不可概括的。通过避免特征折叠,SimSiam在Imagenet上实现了好胜结果,并实现了后续的下游任务,如可可对象检测和实例分割。

Dino:自我监督视觉变形器中的新兴特性:Dino构建在SwAV[9]之上,并且包括没有标签的自我蒸馏。所使用的主干结构是变压器[10],它已被证明优于卷积网络。[如果您有兴趣了解更多关于Dino的信息,请查看此视频]。采用Translers+Dino框架,改进了用于图像分类任务的SOTA算法。Dino可以应用于复制检测和图像检索等应用。给定查询图像后,将尽快检索该图像的所有可能副本。此外,Dino还免费提供细分功能。与有监督的方法相比,在Dino中学习到的特性在显著图生成方面表现得更好。最后,通过仔细的阈值处理,Dino可以开箱即用地用于每帧视频对象的分割,而不需要训练时间一致性。this video

视觉语言模型概述

视觉语言(VL)包括对图像和文本模态有共同理解的训练系统。视觉语言类似于人类与世界互动的方式;视觉是人类感知世界的一大部分,语言是人类交流方式的一大部分。VL模型学习不同数据模态的联合嵌入空间。对于训练,使用图像和文本对,其中文本通常描述图像。这一领域的许多最新工作都使用基于变压器的自我监督学习来从数据中提取特征。在切线音符上,视频-文本对已开始用于学习更丰富、更密集的表示。然而,它仍然是一个具有巨大潜力的新兴领域。

视觉语言模型的利弊

优点:VL使用不同形式的数据,这允许更好的特征映射和提取。此外,大量的数据样本(如YouTube视频和自动生成的注释)可用于训练这些系统。与自我监督学习类似,学习到的特征是通用的,可用于多个下游任务,例如

  • 图像字幕(IC)
  • 视觉问答(VQA)
  • 视觉蕴涵
  • 图文检索

此外,VL模型可用于学习更好的视觉功能和增强语言表示,如中所示

  • OpenAI-CLIP[11]
  • Google Align[12]
  • OpenAI-DALL-E[13]
  • Vokenization[14]

缺点:VL型号专门使用英语创建图文对。因此,多语种工作仍需在这一领域取得进展。至于视频-文字模型,目前还没有足够的统一基准对其进行评估。而且,与基于图像-文本的VL模型类似,视频-文本模型也可以通过更多地关注多语言功能而使不同的语言受益。

视觉语言模型的最新进展

VinVL:重新访问视觉语言模型中的视觉表示:VinVL改进了VL任务的视觉表示。VL模型通常具有对象检测器模型和语言提取器模型,然后是融合模型。融合模型负责融合视觉和语言嵌入。以前的VL模型主要集中在改进视觉-语言融合模型[15],同时保持目标检测模型不变。VinVL证明了视觉特征在VL模型中的重要性,并提出了一种改进的目标检测模型。对象检测模型检测几乎覆盖图像的所有语义区域的边界框,而不是仅覆盖重要对象的传统边界框。最后,通过转换器将视觉特征与语言嵌入融合[16]。在对多个数据集进行预训练后,VinVL针对几个下游任务(VQA、IC等)进行了优化,并在七个公共基准上实现了SOTA性能。性能的提高可以归功于改进的目标检测模型。

有限数据学习概述

监督学习方法需要大量的数据,其性能在很大程度上依赖于训练数据的质量和大小。然而,在现实世界的场景中,大量标记的数据通常很难获得或不容易获得。当考虑需要基于专家知识进行注释的可视类别(例如,医学成像)、很少出现的类别或者其中标记需要大量工作的任务(例如,图像分割)时,这个问题变得更加严重。在过去的十年里,出现了各种研究领域来应对这些挑战。弱监督学习、迁移学习和自/半监督学习等领域试图通过使ML模型能够从有限、弱或嘈杂的监督中学习来克服这些挑战。由于上面讨论了自/半监督学习,这里我们主要关注弱监督学习和迁移学习。

利用有限的数据学习的利弊

优点:弱监督学习和迁移学习有助于减少训练CV模型所需的标签数据量,从而增加这些模型在工业中的应用和采用。弱监督学习还可以帮助模型在存在噪声标签的情况下表现得更好,这在现实世界的设置中通常是这样的。此外,基于实例的迁移学习方法可以用来克服真实世界数据集自然产生的类不平衡挑战(例如,视觉世界的长尾分布[17])。

缺点:弱监督学习和迁移学习都是相对较新的领域,在它们应用于工业之前仍然需要时间。这些方法通常是根据从受控环境收集的基准进行开发和评估的,因此当在真实环境中进行测试时,它们的性能通常会下降。此外,这些领域中最有趣的论文是基于在研究环境中成立的假设开发的,但不一定是在现实世界环境中。在使用这些论文中所做的隐含和明确的假设来解决现实世界的问题时,请注意这些假设。

WYPR:弱监督点识别:WYPR将点云作为输入,共同处理分割、方案生成和检测。共同处理这些任务有几个好处,包括:

  • 集成语义分割作为检测的替代任务可以提供点级预测,从而形成自下而上的解决方案
  • 这些任务是互惠互利的,例如,可以使用检测结果来细化分割
  • 多任务设置可以实现更好的表征学习。

所见即所得使用多实例学习(MIL)和自我训练技术进行训练,并定义了跨任务和转换的额外一致性损失。在ScanNet数据上,WYPR比以前的分割方法提高了6.3%。同样,它在ScanNet上的提案生成和检测性能也优于现有的提案生成和检测方法。

DatasetGAN:DatasetGAN使用生成性对抗网络(GANS)和少机会学习(迁移学习的一个子领域)来生成真实的训练数据-包括图像和标签。此方法建立在StyleGAN[20]之上,StyleGAN[20]是生成逼真图像的最先进模型。默认情况下,StyleGAN仅生成图像。为了使StyleGAN能够生成除图像之外的标签(例如,语义分割图),他们将标签分支添加到StyleGAN中的合成挡路。在本工作中,标签分支是简单的几层多层感知器,用16个带标签的样本进行训练。结果表明,该方法即使只用一个标注实例也能达到合理的结果,当标注实例达到30个时,达到了全监督方法的性能。此外,作者还表明,同样的想法也可以用于生成带有标签的合成视频[21]。

有趣的会议-零售业

从自助结账到产品推荐,简历在过去几年里帮助零售公司取得了重要进展。以下是一些使用CV增强零售体验的公司和初创公司的例子:

  • Grabango是一家总部位于伯克利的零售愿景初创公司,它正在应用CV进行无摩擦结账,类似于AmazonGo。这家创业公司的目标是生成一个虚拟购物篮,识别购物者选择的商品,从而简化结账流程。加州大学伯克利分校(UC Berkeley)的特雷弗·达雷尔(Trevor Darrell)教授领导的数据科学团队,为了实现自助结账,将问题分解为三个部分:跟踪、跟踪商店中的顾客动态、检测诸如取走/保持产品下架/上架以及预测产品ID等事件。通过在商店放置数千个传感器,获取大量历史数据,以及来自伯克利人工智能研究公司(Bair)的专门研究团队,格拉班戈正在使自助结账成为现实。
  • Facebook AI Research(FAIL):通过访问Facebook Marketplace的数百万零售数据点,Facebook能够创建基于文本描述向用户推荐产品的CV模型。简而言之,用户输入他们想要购买的产品的描述。Facebook使用此描述作为查询来获取并向用户显示最相关的产品图像。在幕后,Facebook使用了GrokNet,这是一种为大规模产品识别而培训的CV模型。使用著名的ArcFace模型和催化剂的改进,GrokNet在产品推荐任务上取得了令人印象深刻的结果。

有趣的课程-自动驾驶

几年来,自动驾驶汽车一直是人们关注的中心。谷歌(Google)、特斯拉(Tesla)、优步(Uber)、丰田(Toyota)和Waabi等几家公司和初创公司都投资了自动驾驶汽车。虽然实现5级自主的基本原则(即汽车在没有人工干预的情况下自动驾驶)保持一致,但这一领域的领导者对哪些传感器性能更好有不同的看法。自动驾驶汽车广泛使用传感器来获取周围环境的数据。然后,这些数据被馈送到CV模型,以获得自动驾驶所需的预测。一些公司已经将仅限相机的传感器作为黄金标准,而另一些公司则更喜欢相机和雷达传感器的混合。

  • 特斯拉:由安德烈·卡帕西博士领导的自动驾驶团队只使用相机传感器进行预测。该团队通过实验展示了在雷达上使用相机传感器的好处。特斯拉首席执行官埃隆·马斯克(Elon Musk)甚至在推特上谈到了这一点!此外,研究小组认为,相机传感器比雷达便宜,这使得它们在规模化生产中更经济。与竞争对手相比,特斯拉已经有数千辆自动驾驶汽车上路。这使他们能够收集培训期间没有考虑到的独特驾驶条件的实时数据。为此,特斯拉有一个被称为“舰队”的基础设施,其唯一目的是从世界不同地区收集各种驾驶条件的数据。凭借“大数据=自动驾驶解决”的理念,特斯拉在自动驾驶行业的研发都走在了前列。
  • Waabi:由自动驾驶行业专家兼首席执行官拉克尔·乌尔塔森(Raquel Urtasun)博士领导,Waabi是一家总部位于多伦多的初创公司,专注于长途卡车驾驶。Waabi使用一套传感器来创建卡车周围的导航环境。使用概率模型,环境能够模拟和合成现实生活中遇到的不同交通条件和场景。从该环境中采样不同的路径轨迹,然后将其馈送到为特定任务设计的CV模型。Waabi认为,很难获取真实交通中可能发生的所有可能情景的实时数据。这就是模拟环境可用于创建多个边缘情况场景的地方,然后这些场景可用于训练模型。

引文:

有趣的论文

  • PoseAug:一种用于三维人体姿势估计的可区分姿势增强框架(口头,最佳候选论文):https://arxiv.org/abs/2105.02465
  • 重新思考和提高图像风格传递的稳健性(口语,最佳候选论文):https://arxiv.org/abs/2104.05623
  • SIMSIAM:探索简单的暹罗表征学习:https://arxiv.org/abs/2011.10566
  • 哨兵:基于委员会一致性的无监督领域自适应选择性熵优化。https://arxiv.org/abs/2012.11460
  • 对抗性例子改善图像识别(CVPR‘20):https://arxiv.org/abs/1911.09665
  • VinVL:重新访问视觉语言模型中的视觉表示:https://arxiv.org/abs/2101.00529
  • DINO:自监督视觉变形器的新兴特性:https://arxiv.org/pdf/2104.14294.pdf.博客:https://ai.facebook.com/blog/dino-paws-computer-vision-with-self-supervised-transformers-and-10x-more-efficient-training
  • DatasetGAN:只需最少人力的高效标签数据工厂:https://arxiv.org/abs/2104.06490。代码和博客:https://nv-tlabs.github.io/datasetGAN/

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/07/15/%e8%ae%a1%e7%ae%97%e6%9c%ba%e8%a7%86%e8%a7%89%e7%8e%b0%e7%8a%b6%e2%80%8a-%e2%80%8acvpr2021%e5%b9%b4/

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息