1. 磐创AI首页
  2. Medium

TT-SRN:基于变压器的视频实例分割框架(上)

你有5秒钟的时间,告诉我什么是TT-SRN?

TT-SRN和VIS到底是什么?

视频实例分割(VIS)是最近引入的计算机视觉研究领域,旨在对视频域中的实例进行联合检测、分割和跟踪。最近的方法提出了高度复杂的多级网络,这些网络实际上是不可用的。因此,在实践中需要使用简单而有效的方法。为了填补这一空白,我们提出了一种基于端到端变压器的正弦表示网络(SRN)视频实例分割模块TT-SRN来解决这一问题。TT-SRN将VIS任务看作是一个单阶段的直接序列预测问题,使得我们能够聚合时间信息和空间信息。视频帧特征集由双变压器提取,然后传播到原始变压器以产生一组实例预测。产生的实例级信息然后通过修改的SRN传递,以获得最终的实例级类ID和边界框,以及自动参与的3-D卷积,以获得分段掩码。在其核心,TT-SRN是一个自然的范例,它通过相似性学习处理实例分割和跟踪,使系统能够产生快速而准确的预测集。TT-SRN采用基于集合的全局丢失进行端到端训练,通过二部匹配强制进行唯一预测。因此,在不牺牲分段掩码质量的情况下,显著降低了流水线的总体复杂度。首次在没有隐式CNN架构的情况下解决了VIS问题,这要归功于双变压器,它是最快的方法之一。

我们的方法可以很容易地划分为它的子组件,以产生单独的实例掩码和边界框,这将使它成为许多视觉任务的统一方法。我们在Youtube-VIS数据集上通过比较好胜基准线对我们的结果进行了基准测试,结果表明TT-SRN的性能明显优于基本VIS模型。

代码和纸张可在以下位置获得:

TT-SRN的图像级目标检测和图像分割版本:

攻击计划

考虑到论文的深度和字数,我决定为每个部分单独撰写文章。将有4篇文章(3篇+这篇)。在本文中,我们将探讨“视频实例分割”(VIS)这一主题,并介绍关键字。文章-I涵盖I={1,…}的第一节,4}。开个玩笑而已。

文章1:“视频实例分段和TT-SRN简介”

第2条:“相关工作&其他VIS人员在做什么?”

第3条:“拟议办法:TT-SRN”

第四条:“结果与结论”

视频实例分割简介

图像和视频中基于实例的分割和目标检测是计算机视觉领域的基本问题。与图像实例分割不同的是,新问题的目标是同时检测、分割和跟踪视频中的对象实例[31]。在视频实例分割论文[31]中首次引入了该算法,并提出了一种称为Mask-Track R-CNN的新算法。视频实例分割是视频领域时空理解的重要任务,在视频编辑、自动驾驶、行人跟踪、增强现实、机器人视觉等领域有着广泛的应用。由于它既需要分割又需要跟踪,与图像级实例分割相比,这是一项更具挑战性的任务。此外,它还帮助我们将时空原始数据与视频一起编码为有意义的洞察力,因为与视觉空间数据相比,时空原始数据具有更丰富的内容。通过在解码过程中添加时间维度,我们可以进一步从视频帧中获得有关运动、视点变化、照明、遮挡、变形和局部模糊性的信息。因此,视频实例分割作为一个热门的研究领域,近年来引起了社会各界对视频理解研究的广泛关注。

最先进的方法开发了具有多个网络的非常复杂的体系结构,并且大多基于以人为本的后处理方法(例如,非最大值抑制)来产生高质量的分割掩码和边界框。通常,基于跟踪辅助检测(自顶向下方法)[31,3,5]或基于时空嵌入聚类[6](自底向上)的方法被提出用于撞击VIS任务。在自上而下的方法中,产生图像级实例分割掩码,然后通过复杂的手工规则在时间维度上关联,以将空间预测推进到时空预测,这使得解码过程变得复杂,并导致实际上不可用。而在自下而上的方法中,编队中的实例级像素在时空嵌入空间中进行聚类,具有严重基于密集预测质量的非重叠区域[6],并且需要多个网络才能产生最终的VIS结果。因此,简单而有效、单级、实用和端到端可培训的方法是非常可取的。

在本文中,我们提出了一种新的方法,即TTSRN,它在不影响预测速度和预测质量的情况下降低了整体流水线的复杂度,从而产生VIS结果。整个流水线如图1所示,在给定视频帧的情况下,通过双变压器提取一组图像特征,然后将其传递到经典变压器体系结构以获得实例级预测。然后将这些预测传递到单独的SRN分支,以产生一组类ID、置信度、边界框和自动卷积模块,以获得分段掩码。在本质上,视觉系统的所有子任务(分类、检测、分割和跟踪)都是相关的任务。因此,一个任务的输出可以为另一个任务提供重要信息,这都将相互促进所有子模块。通过认识到这一点,TT-SRN还通过在一个模块中处理子任务的范例来促进TT-SRN。同时,由于VIS的所有单独任务都没有人为设计的规则,因此实例级特征质量是TT-SRN的另一个重要部分,它由双变压器模块完成。双变压器是最近在论文[9]中提出的一种基于空间定向视觉变压器的最先进的体系结构。从NLP上下文中的经典变压器的出版[28]开始,变压器被放在了用于各种NLP任务(例如,机器翻译和序列到序列问题)的事实上的方法中。

在文[11]中首次提出了视觉变压器,并在计算机视觉的背景下演示了变压器的威力。然而,问题在于计算复杂度与图像大小成平方关系。为了抑制,提出了各种视觉转换器,并证明了精心设计的全局和局部注意机制在密集预测任务中的表现可能优于经典的CNN结构[11,27,9]。一种解决办法是局部分组的自我关注(或者像最近的Swin Transformer[20]中那样在非重叠窗口中的自我关注),其中输入在空间上被分组到不重叠的窗口中,并且标准的自我关注仅在每个子窗口内计算[9]。即使Swin变换降低了整体计算复杂度,它也不能通过注意力在非重叠区域之间建立联系。为了克服这一点,论文[9]提出了双变压器,它们引入了空间可分离的自我注意(SSSA)来缓解这一挑战。SSSA由局部分组自我注意(LSA)和全局亚采样注意(GSA)组成[9]。我们发现,双变压器产生的实例级特征相对于传统CNN中的对应特征是高度优化的。

这里,我们还引入了改进的正弦表示网络用于分类和目标检测任务。本文提出了正弦表示网络[25],并证明了由神经网络参数化的隐式定义的、连续的、可微的信号表示已经成为一种强大的范例,提供了许多比传统表示[25]更可能的优点。它们引入了用于隐式神经表示的周期激活函数,并证明了这些被称为正弦表示网络或SEREN的网络非常适合表示复杂的自然信号及其衍生物[25]。在本文中,我们将SIERN体系结构应用于密集预测任务,并对其进行了修改,以重用于包围盒和类id预测。我们改进的SRN网络由多个丢弃的警报层组成。作为SRN的最后一层,放置具有Gelu非线性的完全连接层[15]以产生最终结果。SRNS的建议架构如图2所示。实例分割和跟踪是VIS任务的其他重要方面。

为了执行自然、高效和相互包含的分割和跟踪,我们改编了VisTR[29]中的实例序列匹配和跟踪模块。实例序列匹配在输出实例序列和地面真实实例序列之间执行二部图匹配,并且监督唯一地分配预测及其注释的序列[29]。

因此,TT-SRN可以直接维护秩序。实例序列分割通过自我关注在多个帧上累积每个实例的掩码特征,并通过3D卷积分割每个实例的掩码序列以获得最终结果[29]。

我们的主要贡献概括如下。

  • 我们提出了一种高效的视频实例分割模块,该模块基于视觉和正弦表示网络的经典变换器,将可视化任务看作一个端到端的集合预测问题。
  • 据我们所知,这是第一次在没有任何隐式CNN架构的情况下解决视频实例分割问题,取而代之的是将视觉变换器(例如,双变压器)用作实例级特征生成器。
  • TT-SRN在没有任何编织的情况下,是运行速度最快的方法之一,运行在553FPS上,在Youtube-VIS上实现了39.3%的好胜准确率,远远超过了VIS基线模型。

这就是这篇文章的结尾。跳到下一个!

参考文献

[1]A.Athar,S.Mahadevan,A.Osep,L.Leal-taixˇe,和B.Leibe。STEM-SEG:时空嵌入,例如视频中的分割,2020。

[2]J.L.Ba,J.R.Kiros和G.E.Hinton。图层标准化,2016。

[3]G.Bertasius和L.Torresani.利用遮罩传播对视频中的对象实例进行分类、分割和跟踪,2020。

[4]G.Bertasius、L.Torresani和J.Shi.利用时空采样网络进行视频中的目标检测,2018年。

[5]A.Bewley,Z.GE,L.Ott,F.Ramos和B.Upcroft。简单的在线和实时跟踪。2016年9月,IEEE图像处理国际会议(ICIP)。

[6]曹军,R.M.Anwer,H.Cholakkal,F.S.Khan,Y.Pang,L.Shao.SipMask:用于快速图像和视频实例分割的空间信息保存,2020。

[7]N.Carion,F.Massa,G.Synnaeve,N.Usunier,A.Kirillov和S.Zagoruyko。使用变压器进行端到端目标检测,2020。

[8][8]陈启刚,庞军,王军,熊永强,李祥,孙松山,冯伟,刘振军,石军,欧阳,罗振中,林东东.针对实例细分的混合任务级联,2019年。

[9]楚晓明,田智田,王勇,张斌,任海文,魏晓伟,夏海华,沈春春。“双胞胎:重温视觉变形金刚中空间注意力的设计”,2021年。

[10]戴军,齐海奇,熊勇,李勇,张刚,胡华,魏勇。可变形卷积网络,2017。

[11]A.Dosovitski,L.Beyer,A.Kolesnikov,D.Weissenborn,X.Zhai,T.Unterthiner,M.Dehgani,M.Minder,G.Heigold,S.Gelly等。一张图片价值16×16个字:按比例进行图像识别的变形金刚。arxiv预印本arxiv:2010.11929,2020年。

[12]B.Hariharan,P.Arbelaez,R.Girshick和J.Malik。同时检测和分割,2014。

[13]K.He,G.Gkioxari,P.Dollar和R.Girshick。掩护r-CNN,2018年。

[14]何启和,张小新,任善新,孙军。深度残差学习在图像识别中的应用,2015。

[15]D.Hendrycks和K.Gimpl.高斯误差线性单位(Gelus),2020。

[16]C.-C.Lin,Y.Hung,R.Feris,L.He.使用改进的VAE架构的视频实例分割跟踪。“IEEE/CVF计算机视觉和模式识别(CVPR)会议论文集”,2020年6月。

[17]书名/作者声明:[by]T.Y.Lin,P.Dollar,R.Girshick,K.He,B.Hariharan,and‘S.Belongie.用于目标检测的特征金字塔网络,2017。

[18]T.Y.Lin,P.GoYal,R.Girshick,K.He,P.Dollar。高密度物体检测的焦点丢失,2018年。

[19]T.Y.Lin,M.Maire,S.Belongie,L.Bourdev,R.Girshick,J.Hays,P.Perona,D.Ramanan,C.L.Zitnick和P.Dollar。‘Microsoft Coco:Context中的常见对象,2015。

[20]刘振荣,林玉云,曹永元,胡海华,魏永元,张振中,林世山,郭斌。旋转变压器:使用移位窗口的分层视觉转换器。arxiv预印本arxiv:2103.14030,2021年。

[21]I.Loshchiov和F.Hutter。解耦的权重衰减正则化,2019年。

[22]书名/作者声明:[font=宋体]F.Milletari,N.Navab,S.-A.Ahmadi.V-Net:用于体积医学图像分割的全卷积神经网络,2016。

[23]A.Paszke,S.Gross,F.Massa,A.Lerer,J.Bradbury,G.Chanan,T.Killeen,Z.Lin,N.Gimelshein,L.Antiga,A.Desmaison,A.Kopf,E.Yang,Z.DeVito,M.Reason,¨A.Tejani,S.Chilamkurthy,B.Steiner,L.Fang,J.Bai和S.Chintala。火炬:势在必行的风格,高性能深度学习库,2019。

[24]O·Russakovsky,J.Dung,H.Su,J.Krause,S.Satheesh,S.Ma,Z.Huang,A.Karpy,A.Khosla,M.Bernstein,A.C.Berg,L.Fei-fei。2015年ImageNet大规模视觉识别挑战赛。

[25]书名/作者The Sitzmann,J.N.P.Martel,A.W.Bergman,D.B.Lindell,G.Wetzstein。具有周期激活函数的隐式神经表示,2020。

[26]J.Son,M.Baek,M.Cho和B.Han.基于四重卷积神经网络的多目标跟踪。2017年IEEE计算机视觉与模式识别会议(CVPR),第3786-3795页,2017。

[27]H.Touvron,M.Cord,M.Douze,F.Massa,A.Sablayroll,和H.Jegou。通过注意力训练数据高效的图像转换和提炼。arxiv预印本arxiv:2012.12877,2020年。

[28]A.Vaswani,N.Shazeer,N.Parmar,J.Uszkoreit,L.Jones,A.N.Gomez,L.Kaiser和I.Polosukhin。2017年,你只需要关注就行了。

[29]王勇,徐志忠,王霞,沈春,程兵,沈海文,夏海华。使用变压器进行端到端视频实例分割,2021。

[30][中英文摘要]Y.Wu和K.He。团体正常化,2018年。

[31]杨力,范玉英,徐宁。视频实例分段,2019年。

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/10/02/tt-srn%ef%bc%9a%e5%9f%ba%e4%ba%8e%e5%8f%98%e5%8e%8b%e5%99%a8%e7%9a%84%e8%a7%86%e9%a2%91%e5%ae%9e%e4%be%8b%e5%88%86%e5%89%b2%e6%a1%86%e6%9e%b6%e4%b8%8a/

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息