1. 磐创AI首页
  2. Medium

TT-SRN:基于变压器的视频实例分割框架

你有5秒钟的时间,告诉我什么是TT-SRN?

TT-SRN和VIS到底是什么?

视频实例分割(VIS)是最近引入的计算机视觉研究领域,旨在对视频域中的实例进行联合检测、分割和跟踪。最近的方法提出了高度复杂的多级网络,这些网络实际上是不可用的。因此,在实践中需要使用简单而有效的方法。为了填补这一空白,我们提出了一种基于端到端变压器的正弦表示网络(SRN)视频实例分割模块TT-SRN来解决这一问题。TT-SRN将VIS任务看作是一个单阶段的直接序列预测问题,使得我们能够聚合时间信息和空间信息。视频帧特征集由双变压器提取,然后传播到原始变压器以产生一组实例预测。产生的实例级信息然后通过修改的SRN传递,以获得最终的实例级类ID和边界框,以及自动参与的3-D卷积,以获得分段掩码。在其核心,TT-SRN是一个自然的范例,它通过相似性学习处理实例分割和跟踪,使系统能够产生快速而准确的预测集。TT-SRN采用基于集合的全局丢失进行端到端训练,通过二部匹配强制进行唯一预测。因此,在不牺牲分段掩码质量的情况下,显著降低了流水线的总体复杂度。首次在没有隐式CNN架构的情况下解决了VIS问题,这要归功于双变压器,它是最快的方法之一。

我们的方法可以很容易地划分为它的子组件,以产生单独的实例掩码和边界框,这将使它成为许多视觉任务的统一方法。我们在Youtube-VIS数据集上通过比较好胜基准线对我们的结果进行了基准测试,结果表明TT-SRN的性能明显优于基本VIS模型。

代码和纸张可在以下位置获得:

TT-SRN的图像级目标检测和图像分割版本:

攻击计划

1.视频实例分段简介

图像和视频中基于实例的分割和目标检测是计算机视觉领域的基本问题。与图像实例分割不同的是,新问题的目标是同时检测、分割和跟踪视频中的对象实例[31]。在视频实例分割论文[31]中首次引入了该算法,并提出了一种称为Mask-Track R-CNN的新算法。视频实例分割是视频领域时空理解的重要任务,在视频编辑、自动驾驶、行人跟踪、增强现实、机器人视觉等领域有着广泛的应用。由于它既需要分割又需要跟踪,与图像级实例分割相比,这是一项更具挑战性的任务。此外,它还帮助我们将时空原始数据与视频一起编码为有意义的洞察力,因为与视觉空间数据相比,时空原始数据具有更丰富的内容。通过在解码过程中添加时间维度,我们可以进一步从视频帧中获得有关运动、视点变化、照明、遮挡、变形和局部模糊性的信息。因此,视频实例分割作为一个热门的研究领域,近年来引起了社会各界对视频理解研究的广泛关注。

最先进的方法开发了具有多个网络的非常复杂的体系结构,并且大多基于以人为本的后处理方法(例如,非最大值抑制)来产生高质量的分割掩码和边界框。通常,基于跟踪辅助检测(自顶向下方法)[31,3,5]或基于时空嵌入聚类[6](自底向上)的方法被提出用于撞击VIS任务。在自上而下的方法中,产生图像级实例分割掩码,然后通过复杂的手工规则在时间维度上关联,以将空间预测推进到时空预测,这使得解码过程变得复杂,并导致实际上不可用。而在自下而上的方法中,编队中的实例级像素在时空嵌入空间中进行聚类,具有严重基于密集预测质量的非重叠区域[6],并且需要多个网络才能产生最终的VIS结果。因此,简单而有效、单级、实用和端到端可培训的方法是非常可取的。

在本文中,我们提出了一种新的方法,即TTSRN,它在不影响预测速度和预测质量的情况下降低了整体流水线的复杂度,从而产生VIS结果。整个流水线如图1所示。给定视频帧后,一组图像特征由双变压器提取,然后传递到经典变压器体系结构以获得实例级预测。然后将这些预测传递到单独的SRN分支,以产生一组类ID、置信度、边界框和自动卷积模块,以获得分段掩码。在本质上,视觉系统的所有子任务(分类、检测、分割和跟踪)都是相关的任务。因此,一个任务的输出可以为另一个任务提供重要信息,这都将相互促进所有子模块。通过认识到这一点,TT-SRN还通过在一个模块中处理子任务的范例来促进TT-SRN。同时,由于VIS的所有单独任务都没有人为设计的规则,因此实例级特征质量是TT-SRN的另一个重要部分,它由双变压器模块完成。双变压器是最近在论文[9]中提出的一种基于空间定向视觉变压器的最先进的体系结构。从NLP上下文中的经典变压器的出版[28]开始,变压器被放在了用于各种NLP任务(例如,机器翻译和序列到序列问题)的事实上的方法中。

在文[11]中首次提出了视觉变压器,并在计算机视觉的背景下演示了变压器的威力。然而,问题在于计算复杂度与图像大小成平方关系。为了抑制,提出了各种视觉转换器,并证明了精心设计的全局和局部注意机制在密集预测任务中的表现可能优于经典的CNN结构[11,27,9]。一种解决办法是局部分组的自我关注(或者像最近的Swin Transformer[20]中那样在非重叠窗口中的自我关注),其中输入在空间上被分组到不重叠的窗口中,并且标准的自我关注仅在每个子窗口内计算[9]。即使Swin变换降低了整体计算复杂度,它也不能通过注意力在非重叠区域之间建立联系。为了克服这一点,论文[9]提出了双变压器,它们引入了空间可分离的自我注意(SSSA)来缓解这一挑战。SSSA由局部分组自我注意(LSA)和全局亚采样注意(GSA)组成[9]。我们发现,双变压器产生的实例级特征相对于传统CNN中的对应特征是高度优化的。

这里,我们还引入了改进的正弦表示网络用于分类和目标检测任务。本文提出了正弦表示网络[25],并证明了由神经网络参数化的隐式定义的、连续的、可微的信号表示已经成为一种强大的范例,提供了许多比传统表示[25]更可能的优点。它们引入了用于隐式神经表示的周期激活函数,并证明了这些被称为正弦表示网络或SEREN的网络非常适合表示复杂的自然信号及其衍生物[25]。在本文中,我们将SIERN体系结构应用于密集预测任务,并对其进行了修改,以重用于包围盒和类id预测。我们改进的SRN网络由多个丢弃的警报层组成。作为SRN的最后一层,放置具有Gelu非线性的完全连接层[15]以产生最终结果。SRNS的建议架构如图2所示。实例分割和跟踪是VIS任务的其他重要方面。

为了执行自然、高效和相互包容的分割和跟踪?œ,我们改编了来自VISTR[29]的实例序列匹配和跟踪模块(Instance Sequence Matching And Tracking Module)?�[29]。-euroœ实例序列匹配在输出实例序列和地面真实实例序列之间执行二部图匹配,并监督唯一分配预测及其注释的序列-euro�[29]。

因此,TT-SRN可以直接保持预测的顺序[29]。?euroœ实例序列分割通过自我关注在多个帧上累积每个实例的掩码特征,并通过3D卷积对每个实例的掩码序列进行分割,以获得最终结果-euroœ[29]。

我们的主要贡献概括如下。

  • 我们提出了一种高效的视频实例分割模块,该模块基于视觉和正弦表示网络的经典变换器,将可视化任务看作一个端到端的集合预测问题。
  • 据我们所知,这是第一次在没有任何隐式CNN架构的情况下解决视频实例分割问题,取而代之的是将视觉变换器(例如,双变压器)用作实例级特征生成器。
  • TT-SRN在没有任何编织的情况下,是运行速度最快的方法之一,运行在553FPS上,在Youtube-VIS上实现了39.3%的好胜准确率,远远超过了VIS基线模型。

2.视频实例分割相关工作

在文献中有各种方法来解决视频实例分割的任务,因为它通常被认为是多阶段问题,即分割/检测和跟踪组件在不同阶段被处理。然而,最近的研究已经提出了单阶段的、简单的、计算上有效的方法来解决这个问题,尽管单阶段方法的性能并不比多阶段方法好。因此,计算机视觉研究界扩展了论文[31]中所做的工作,提出了Mask-Track R-CNN的变体或用于视频实例分割任务的新方法。STEM-SEG算法是针对这一任务的另一种新算法,特别是,他们将视频片段建模为单个3D时空体积,并提出了一种新的方法,可以在单个阶段跨空间和时间分割和跟踪实例[1]。

然后是林中青等人。针对视频实例分割任务,提出了一种基于变分自动编码器的分割跟踪算法,该算法构建了一个共享编码器和三个并行解码器,为预测未来帧、对象检测框和实例分割掩码产生了三个互不相交的分支[16]。为了促进这一问题的研究,曹佳乐等人提出了另一种称为SipMask的单步新算法,该算法通过将实例的掩码预测分离到检测到的包围盒的不同子区域来保留特定于实例的空间信息[6]。然后,VISTR被提出为基于单级变压器的VIS体系结构,它将VIS任务视为直接的端到端并行序列解码/预测问题[29]。我们的一些工作改编自VisTR模块。具体地说,我们集成了他们的实例序列匹配和分割模块,对完整的实例进行监督和分割。实例序列匹配在输出实例序列和地面真实实例序列之间执行二部图匹配,并监督TT-SRN,从而TT-SRN学习实例之间的相似性[29]。实例序列分割模块执行自适应3-D卷积以学习像素级相似性。因此,解决时域实例级分割问题有多种不同的方法,在本文中,我们将视频实例分割问题视为预测问题的直接集合,提出了我们的解决方法。即使将视频实例分割的概念归类为一个新的课题,文献中也存在各种类似的问题,如图像级实例分割、视频对象检测、视频对象跟踪、视频对象分割等。我们将简要描述一下类似的问题。

2.1.图像级实例分割

实例分割不仅将像素分组到不同的语义类,而且还将它们分组到不同的对象实例[12]。通常采用两阶段范例,其首先使用区域提议网络(RPN)生成对象提议,然后使用聚集的ROI特征预测对象边界框和掩码[12]。在我们的例子中,我们不仅为个人生成分割掩码,而且还将它们与视频序列相关联。

2.2.视频对象检测

视频对象检测的目的是检测视频中的对象,这是作为ImageNet视觉挑战的一部分首次提出的[24]。即使关联和提供身份改善了检测质量,该挑战也限于用于每帧检测的空间保留的评估度量,并且不需要联合对象检测和跟踪[31]。然而,在我们的例子中,我们的目标是联合检测、分割和跟踪,而不是视频对象检测任务。

2.3.视频对象跟踪

视频目标跟踪任务通常被认为是基于检测和无检测的跟踪方法。在基于检测的跟踪算法中,对象被联合检测和跟踪,从而跟踪部分提高了检测质量,而在无检测方法中,我们给予™初始边界框并试图跨视频帧跟踪该对象[26,31]。由于基于检测的方法与我们的情况类似,视频实例分割需要时间分割掩码。因此,与以前的基本计算机视觉任务不同,视频实例分割需要多学科的聚合方法。

2.4.视频实例分割

由于视频实例分割任务是有监督的,因此需要对具有预定义类别的包围框和二值分割掩码进行以人为本的高质量标注。设Ci是属于数据集D的i=1,α,K的对象类别,其中K是在D中包括背景的唯一类别的数目。然后,设Bti j和Sti j是视频帧ti?ˆˆT中的第j个边界框和二进制掩码,其中T表示给定视频序列中的帧的数目。(2)假设I是属于数据集D的对象类别,其中K是包括D中的背景的唯一类别的数目。然后,设Bti j和Sti j是视频帧ti?ˆˆT中的第j个边界框和二进制掩码。假设在推理阶段,VIS算法产生N?ˆˆC1,α,CK实例假设,使得H_(Ti)_(Nj)表示VIS产生的第N个实例和第t个时间的预测。因此,H ti nj包括置信度分数s ti j∈[0,1]作为实例识别预定义类别、†B ti j和†S ti j的概率。因此,我们试图最小化人工创建的注释和产生的假设,因为它需要快速和最佳的检测、跟踪和分段估计。

3.提出的方法:TT-SRN

我们提出了一种基于端到端变压器的正弦表示网络(SRN)视频实例分割模块,即TT-SRN,以解决VIS任务。我们的方法TT-SRN将VIS任务视为单一状态下的预测问题的直接集合,使我们能够聚合时间信息和空间信息。视频帧特征集由双变压器提取,然后传播到原始变压器以产生实例预测序列。这些由变压器产生的实例级信息然后通过改进的正弦表示网络来获得最终的实例级类ID和包围盒,以及自适应的3-D卷积来获得分割掩码。在其内部机制中,TT-SRN是一个自然的框架,它通过相似性学习来处理跟踪和分割,从而使系统能够产生快速而准确的预测集。实例序列匹配算法是在[29]的基础上改进的,用于跨视频帧跟踪实例。TT-SRN采用基于集合的全局丢失进行端到端训练,通过二部匹配强制进行唯一预测。因此,在不牺牲分段掩码质量的情况下,显著降低了流水线的总体复杂度。第一次,由于双变压器是最快的方法之一,VIS问题在没有隐式CNN架构的情况下得到了解决。我们的方法可以很容易地划分为它的子组件,以产生单独的实例掩码和边界框,这将使它成为许多视觉任务的统一方法。在这一部分中,将TT-SRN划分为其子模块,并对其进行了详细描述。

3.1.双变压器

最近,论文[9]提出了双胞胎的概念,并证明了空间定向视觉转换器的性能优于经典的CNN[9]。在这里,我们将TWINS-SVT网络集成到我们的案例中,以生成实例级功能。他们的孪生变压器基于空间上可分离的自我注意(SSSA)网络,该网络由局部分组自我注意(LSA)和全局亚采样注意(GSA)组成[9]。由于其空间上可分离的模块,功能的质量大大提高了。在小节中,我们将详细描述SSSA模块。

3.1.1本地分组自我注意(LSA)

在LSA中,2-D特征图被划分为子窗口,这些子窗口能够在每个子窗口内实现自我关注。将特征图分成m×n个子窗口,每4个窗口由HWMn个元素组成,其中H,W代表图像尺寸。通过将图像划分为m×n区域,计算成本从O(H²*W²*d)降低到O(H²*W²/(m*n)*d),其中d是自我关注维度。在这一点上,我们没有对窗口中的非重叠区域进行任何进一步的关联。因此,在这里,GSA模块开始发挥作用。

3.1.2全局子抽样注意力(GSA)

由于自我注意机制需要进一步的本土化,需要全局自我注意在不重叠的区域建立联系。在GSA模块中,使用来自本地参与窗口的单个代表性关键字信息来计算全局关注度。然而,随着全局注意力的计算,计算代价将增加到O(H²*W²*d)。为了避免这种情况,局部关注的特征通过平均池、深度跨度卷积和规则跨度卷积进行子采样。结果表明,正则跨距卷积的性能最好[9]。从数学上讲,SSSA模块执行以下计算。

其中,LSA表示局部分组的自我关注,GSA表示全局下采样的关注,FFn表示前馈网络,LayerNorm表示层归一化层[2]。对i=1,α,m和j=1,α,n,其中LSA表示局部分组的自我注意,GSA表示全局次采样注意,FFn表示前馈网络,LayerNorm表示层归一化层[2]。这两个注意模块都是以多头方式进行的。

3.2.经典变形金刚

采用具有6个编码层和6个解码层的经典转换器体系结构,并带有GELU激活[15]来执行实例级查询生成。经典转换器的输出是实例建议加上附加的无对象查询。该转换器的用法与目标检测模型DETR[7]中的用法非常相似。在训练过程中,通过将预测与基本事实唯一地分配来执行二部匹配来监督模型。没有匹配项的预测应该会产生œ无对象的�类预测,因此实例查询的数量应该大于视频帧中的实例数量。在其核心,变压器由其编码器和解码器结构组成,将在以下小节中讨论。

3.2.1时空位置编码

由于变压器结构是排列不变的,因此需要对时空位置编码来建模精确的位置信息。时空位置编码基于正弦波,是经典位置编码的三维版本。我们的位置编码有3个不同的维度,分别是时间维度、水平维度和垂直维度。设最后的级联通道位置编码维数为d,则我们独立使用不同频率的d/3正弦函数,如下所示

其中w_k=(1/10000)^(2*k/(d/3)),位置是该维度中的位置。与传统位置编码的情况一样,这些3-D位置编码被添加到输入。

3.2.2变压器编码器

大小为6的转换器编码层适于学习稍后将传播到解码层以产生最终实例级查询的逐个实例的相似性。从双变压器中提取的特征被传递到具有256个输出潜在大小的单个卷积层。因此,变压器编码器的输入呈R^(NxLxHxW)的形状,其中N是批量大小,L是潜在大小,H和W是单卷积层的输出高度和宽度。注意,根据输入顺序保留时间顺序。每个编码层如常规那样执行多头自注意机制。

3.2.3变压器解码器

然后,编码特征序列通过转换器解码器层,以产生实例查询预测序列。在这一层,一系列可学习的实例查询也被传递到解码器层。实例查询是固定数量的输入嵌入,以表示实例预测的总数。为了安全起见,实例查询的数量总是大于镜像中的实例数量。二部匹配唯一地执行实例级赋值,公开的预测称为-EURO�NO OBJECT QUERIONS-EURO�。例如,假设我们在帧t中产生n_t个实例预测,则设q为一般实例查询的大小,使得所有帧中的q>n_t。

3.3。正弦表示网络

正弦表示网络是文献[25]中最近提出的一种表示学习方法。正弦层由完全连接的层组成,其独特的初始化在文[25]中介绍,具有正弦激活层。总体架构如图2所示。在这项工作中,我们针对我们的情况修改了它们的架构,在具有End Gelu非线性的正弦层之间增加了内部丢包层[15],以产生实例级的End特性。然后,这些末端特征被传播到分类、边界框检测和实例分割分支。我们意识到隐式神经表示的周期性激活,并证明这些被称为正弦表示网络或SEREN的网络非常适合密集的预测任务。我们的消融研究表明,用于终端预测层的周期性激活函数可以适用于密集的预测任务。

3.4.实例序列匹配

TT-SRN的一个重要方面,即实例序列匹配,是在文[29]的基础上,通过二部匹配将实例预测唯一地分配给实例预测,以监督模型。此外,此模块使我们能够推断预测实例的精确顺序,以便稍后在视频中启用跟踪实例。匹配损失既考虑了类别预测,也考虑了预测与地面事实的相似性[7]。设y表示对象的地面真值框集合,y_œ=œy^N_i=1表示N个预测的集合。我们的损失产生了预测和基础事实之间的最佳二部匹配。为了计算两个集合之间的二部匹配,计算以下最小化。

其中L_Match(y_i,y_Subƒœ(I))是基本事实和预测之间的实例匹配成本。这个指派问题是用匈牙利方法计算的,匈牙利方法是一种在多项式时间内求解指派问题的组合优化算法[7]。匹配过程既考虑了类别预测,也考虑了预测真值框和地面真值框的相似性。设注释的每个元素i由y_i=(c_i,b_i)表示,其中ci目标类,bi是表示地面真实归一化坐标的向量。这些坐标被组织为中心、高度和宽度,并且它们相对于图像大小。然后,对于具有下标ƒ(I)的预测,设œp_Underƒ(I)(Ci)表示分类概率,Ranœb_Underƒ(I)表示预测盒。因此,我们可以如下定义LMatch(y_i,y_ƒœ(I))。

该过程监督模型,在启发式分配过程中起着重要作用。在经典的目标检测或实例分割任务(例如,Mask RCNN[13])中,这些过程相当于匹配建议或锚定到地面真理。与经典方法显著不同的是,二部匹配法是唯一赋值的。在这一点上,我们将预测与它们的基本事实一起分配,所以我们需要计算损失,在我们的例子中,是所有匹配对的匈牙利损失。给定一对一分配,匈牙利损失将损失计算为类别预测的负对数似然、框和实例序列的掩码损失的线性组合,如下所示。

其中,下一次ƒ_œ是先前计算的最优分配。此损失用于以端到端的方式训练模型。接下来,我们需要定义L_box和L_MASK。L_box的计算类似于DETR[7]中的计算,如下所示。

其中,错误»_IOU和错误»_L1是超参数。请注意,损失将根据帧内的实例数量进行规格化。

3.5。实例序列分割

TT-SRN的另一个重要方面,即实例序列分割模块,是从论文[29]中改编来产生末端分割掩码的。在内部,该模块累积帧的实例特征,然后对这些累积的特征执行分割。对于每一帧,由变压器的端解码层收集的实例预测和由变压器的端编码层收集的变压器编码特征通过自关注模块。然后,将这些附加特征与双变压器收集的特征和从变压器的末端编码器生成的编码特征进行融合。此过程与VISTR[29]和DETR[7]的情况非常相似。然后,具有不同大小的实例级特征被馈送到可变形卷积层[10]中,该可变形卷积层[10]利用附加偏移量来增加模块中的空间采样位置,并从目标任务学习偏移量,而不需要额外的监督[10]。然后,将形状为R^(1xCxTxtHxW)的融合地图馈送到具有组归一化[30]和Gelu非线性[15]的3-D卷积层中,其中C是通道维度,T是时间维度,H和W是空间特征维度。在最后一层,单个卷积层具有1个输出通道维度,以获得分段掩码。最后,我们需要定义Lask来完成损失函数。通过组合骰子[22]和焦损[18]来计算L_MASK,如下所示。

4.TT-SRN结果

在本节中,我们将演示我们在YouTubeVIS数据集[31]上的结果。YouTube-VIS是一个大型且可伸缩的数据集,由2883个高分辨率YouTube视频、2238个培训视频、302个验证视频和343个测试视频组成。一个类别标签集由人、动物、车辆等40个常见对象组成,共有4883个独特的视频实例,可产生131k高质量的人性化注释。由于测试集的评估是封闭的,因此评估结果基于验证集。4.1.

4.1实施细节

在TT-SRN的第一阶段,我们继承了双变压器[9]中使用的超参数。因此,选择嵌入维数为64,面片大小为4,局部面片大小为7,深度为1。同样顺序,孪生变压器第二级的超参数为128,2,7,1。对于第三级,选择256,2,7,5作为第三级的超参数。在最后阶段,嵌入大小为512个,贴片大小为2个,局部贴片大小为7个,深度为4个,这里深度指的是双变压器截面中描述的变压器块的数量。请参阅图??单个卷积层的隐藏大小被选择为256。在经典的变压器中,有6个编码层和6个解码层,多头尺寸为8。所有编解码器中变压器挡路的内部激活都是格鲁[15]。在SRN阶段,选择丢弃概率为0.2。所有SRN层都用文件[25]中描述的它们的专用初始化方案进行初始化。然后,YouTube-VIS中标注的视频长度最大为36[31],我们选择这个值作为输入视频长度。因此,关联来自一个视频的不同剪辑不需要后处理。这样,我们的模型可以在单个阶段进行端到端培训。由于我们的模型预测每个视频帧有10个对象,因此我们将查询数量设置为360。TT-SRN通过PyTorch 1.8[23]实现。由于其简单的构建块,TT-SRN具有通用性和可伸缩性,可以扩展到其他框架和愿景任务。我们还在我们的项目页面上提供了TT-SRN的单独实例分割和对象检测版本。

在训练阶段,我们用AdamW[21]对所有层进行了优化,从1e-4的学习速率开始,每3个周期衰减0.1个周期。TT-SRN的训练周期为18个历元,批大小选择为16个。经典变压器权值由COCO[19]中预先训练的DETR[7]初始化。所有视频帧都以每通道的方式用ImageNet平均值和标准偏差值进行归一化。然后,所有视频帧的大小都调整为300 x 540以适应GPU。我们仅使用概率为0.5的随机水平翻转作为视频数据增强。TT-SRN在一台8 GB RAM的Tesla K80 GPU上进行了为期5天的培训。

在推理阶段,TT-SRN的体系结构没有变化。因此,我们的模型-Euro™的训练和推理形状完全相同。此外,无需手动创建后处理即可跨视频帧关联实例。我们将阈值设置为得分高于确定阈值的保留实例,以获得最终结果。我们将这个门槛设为0.6。在视频帧中有一些被标识为不同类别的实例。那时,我们使用预测频率最高的类别。

4.2评估指标

在图像实例分割中使用标准评估度量进行评估,并对其进行修改以适应我们的新任务[31]。具体地,度量8是具有各种条件的平均查准率(AP)和平均查全率(AR)[31]。AP被定义为精度调用曲线[31]下的区域。置信度分数用于绘制曲线。AP在多个交叉点过并集(IOU)阈值上求平均[31]。平均召回是指在召回-欠条曲线下翻了一番的区域。作为有条件的AP和AR,我们遵循COCO评估程序,因为它在第5%步需要10个IOU阈值,范围从50%到95%。由于我们在视频领域,我们需要在评估中包括时间一致性,例如,即使模型产生了成功的分割,如果它无法跟踪实例,它就表明性能不佳。因此,我们的IOU计算不同于图像实例分割,因为每个实例包含一个掩码序列[31],因此IOU计算通过在视频帧上累加IOU来扩展到一批视频帧。欠条计算如下。这里,m^i_t表示基本事实,m_œ^i_t表示假设。

4.3主要成果

在YouTube-VIS上,我们将TT-SRN与其他最先进的VIS方法在速度和准确度方面进行了比较。由于我们的方法是单级和端到端可训练的,所以我们优先将我们的方法与单级和端到端可训练的方法进行比较。我们将TTSRN与Mask Track R-CNN[31]、MaskProp[3]、VisTR[29]和STEM-Seg[1]进行了比较。在没有任何编织的情况下,TT-SRN是最快的方法之一,在单个图形处理器上运行在55.3FPS,并且在Youtube-VIS上实现了39.3%MAP的好胜准确率,显著超过了VIS基线模型。在速度方面,TT-SRN在最先进的VIS车型中排名第二。就速度而言,目前的赢家是VisTR[29],因为它在使用ResNet-101[14]主干时运行速度为57.7,在使用ResNet-50主干时运行速度为69.9[14]。TT-SRN在速度方面远远超过当前VIS基线模型Mask Track R-CNN,后者以20.0FPS的速度运行。这一差距源于TTSRN基于注意力的简单机制,该机制只需最少的步骤即可生成VIS预测。另一种好胜方法,STORE-SEG,运行在2.1FPS,非常不能用于实时目的。他们的论文中没有提到MaskProp的速度[3]。请注意,上述结果中不包括数据加载和预处理步骤时间。在准确率方面,TT-SRN的性能明显优于Mask Track R-CNN,因为我们的模型在YouTube-VIS验证集上的MAP得分为39.3%,而Mask Track R-CNN的MAP得分为30.3%。这一巨大的利润率源于TTSRN的结构,该结构在所有组件中都采用了最先进的方法。此外,TT-SRN的性能也远远超过STEmseg,因为STEM-Seg在ResNet-101主干上的MAP得分为34.6%。由于TT-SRN与VisTR相似,采用ResNet-101骨干网的VisTR的MAP得分比采用ResNet-101骨干网的VisTR高0.8%,而采用ResNet-50骨干网的TT-SRN的MAP得分比采用ResNet-50骨干网的VisTR高3.1%。目前的获胜者MaskProp获得了46.6%的MAP得分,它的表现远远超过TT-SRN。TT-SRN和MaskProp之间的差距源于MaskProp的多网络设计,它由时空采样网络[4]、特征金字塔网络[17]、混合任务级联网络[8]和高分辨率掩码细化后处理网络[3]组成。TT-SRN是最简单的VIS架构之一,在所有竞争对手中实现了最快、最准确的结果之一。此外,TT-SRN可以容易地划分为其子组件来执行单独的VIS任务,即对象检测、实例分割和分类。这使得我们的方法简单、统一和实时,而不会牺牲实例掩码的质量。

5.结论

本文针对视频实例分割问题,提出了一种基于端到端变压器的正弦表示网络视频实例分割模块TT-SRN。TT-SRN将VIS任务看作一个单一状态下的直接序列预测问题,使我们能够聚合时间信息和空间信息。为了产生从视频帧中提取的高质量特征,我们使用了双变压器。经典变换器用于产生一系列实例预测,这些预测稍后通过修改的正弦表示网络得到最终结果。TT-SRN是一个自然的范例,它通过相似性学习来处理跟踪,使系统能够产生快速而准确的预测集。TT-SRN通过基于集合的全局丢失进行端到端的训练,该全局丢失通过二部匹配强制唯一预测,从而在不牺牲分段掩码质量的情况下降低了流水线的一般复杂度。首次在没有传统CNN架构的情况下解决了VIS问题,这要归功于双变压器,它是最快的方法之一。我们的方法可以很容易地划分为其子组件,以生成单独的实例掩码和边界框,这将使其成为许多视觉任务的统一方法。我们相信,视频实例分割是视频理解领域中的一项重要任务,它将创新计算机视觉研究领域。我们的项目页面位于https://github.com/cankocagil/TT-srn,TT-srn的单独检测/分割版本位于https://github.com/cankocagil/TT-srnâuro“-object-Detection。https://github.com/cankocagil/ https://github.com/cankocagil/

参考文献

[1]A.Athar,S.Mahadevan,A.Osep,L.Leal-taix‡e,和B.Leibe。STEM-SEG:时空嵌入,例如视频中的分割,2020。

[2]J.L.Ba,J.R.Kiros和G.E.Hinton。图层标准化,2016。

[3]G.Bertasius和L.Torresani.利用遮罩传播对视频中的对象实例进行分类、分割和跟踪,2020。

[4]G.Bertasius、L.Torresani和J.Shi.利用时空采样网络进行视频中的目标检测,2018年。

[5]A.Bewley,Z.GE,L.Ott,F.Ramos和B.Upcroft。简单的在线和实时跟踪。2016年9月,IEEE图像处理国际会议(ICIP)。

[6]曹军,R.M.Anwer,H.Cholakkal,F.S.Khan,Y.Pang,L.Shao.SipMask:用于快速图像和视频实例分割的空间信息保存,2020。

[7]N.Carion,F.Massa,G.Synnaeve,N.Usunier,A.Kirillov和S.Zagoruyko。使用变压器进行端到端目标检测,2020。

[8][8]陈启刚,庞军,王军,熊永强,李祥,孙松山,冯伟,刘振军,石军,欧阳,罗振中,林东东.针对实例细分的混合任务级联,2019年。

[9]楚晓明,田智田,王勇,张斌,任海文,魏晓伟,夏海华,沈春春。“双胞胎:重温视觉变形金刚中空间注意力的设计”,2021年。

[10]戴军,齐海奇,熊勇,李勇,张刚,胡华,魏勇。可变形卷积网络,2017。

[11]A.Dosovitski,L.Beyer,A.Kolesnikov,D.Weissenborn,X.Zhai,T.Unterthiner,M.Dehgani,M.Minder,G.Heigold,S.Gelly等。一张图片价值16×16个字:按比例进行图像识别的变形金刚。arxiv预印本arxiv:2010.11929,2020年。

[12]B.Hariharan,P.Arbelaez,R.Girshick和J.Malik。同时检测和分割,2014年。

[13]K.He,G.Gkioxari,P.Dollar和R.Girshick。屏蔽r-CNN,‘2018年。

[14]何启和,张小新,任善新,孙军。深度残差学习在图像识别中的应用,2015。

[15]D.Hendrycks和K.Gimpl.高斯误差线性单位(Gelus),2020。

[16]C.-C.Lin,Y.Hung,R.Feris,L.He.使用改进的VAE架构的视频实例分割跟踪。“IEEE/CVF计算机视觉和模式识别(CVPR)会议论文集”,2020年6月。

[17]书名/作者声明:[by]T.Y.Lin,P.Dollar,R.Girshick,K.He,B.Hariharan,and‘S.Belongie.用于目标检测的特征金字塔网络,2017。

[18]T.Y.Lin,P.GoYal,R.Girshick,K.He,P.Dollar。2018年密集物体检测的焦点丢失。

[19]T.Y.Lin,M.Maire,S.Belongie,L.Bourdev,R.Girshick,J.Hays,P.Perona,D.Ramanan,C.L.Zitnick和P.Dollar。《Microsoft Coco:Context中的常见对象》,2015。

[20]刘振荣,林玉云,曹永元,胡海华,魏永元,张振中,林世山,郭斌。旋转变压器:使用移位窗口的分层视觉转换器。arxiv预印本arxiv:2103.14030,2021年。

[21]I.Loshchiov和F.Hutter。解耦的权重衰减正则化,2019年。

[22]书名/作者声明:[font=宋体]F.Milletari,N.Navab,S.-A.Ahmadi.V-Net:用于体积医学图像分割的全卷积神经网络,2016。

[23]A.Paszke,S.Gross,F.Massa,A.Lerer,J.Bradbury,G.Chanan,T.Killeen,Z.Lin,N.Gimelshein,L.Antiga,A.Desmaison,A.Kopf,E.Yang,Z.DeVito,M.Reason,¨A.Tejani,S.Chilamkurthy,B.Steiner,L.Fang,J.Bai和S.Chintala。火炬:势在必行的风格,高性能深度学习库,2019。

[24]O·Russakovsky,J.Dung,H.Su,J.Krause,S.Satheesh,S.Ma,Z.Huang,A.Karpy,A.Khosla,M.Bernstein,A.C.Berg,L.Fei-fei。2015年ImageNet大规模视觉识别挑战赛。

[25]书名/作者The Sitzmann,J.N.P.Martel,A.W.Bergman,D.B.Lindell,G.Wetzstein。具有周期激活函数的隐式神经表示,2020。

[26]J.Son,M.Baek,M.Cho和B.Han.基于四重卷积神经网络的多目标跟踪。2017年IEEE计算机视觉与模式识别会议(CVPR),3786âuro“3795页,2017。

[27]H.Touvron,M.Cord,M.Douze,F.Massa,A.Sablayroll,和H.Jegou。通过注意力训练数据高效的图像转换和升华。arxiv预印本arxiv:2012.12877,2020年。

[28]A.Vaswani,N.Shazeer,N.Parmar,J.Uszkoreit,L.Jones,A.N.Gomez,L.Kaiser和I.Polosukhin。2017年,你只需要关注就行了。

[29]王勇,徐志忠,王霞,沈春,程兵,沈海文,夏海华。使用变压器进行端到端视频实例分割,2021。

[30][中英文摘要]Y.Wu和K.He。团体正常化,2018年。

[31]杨力,范玉英,徐宁。视频实例分段,2019年。

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/10/03/tt-srn%ef%bc%9a%e5%9f%ba%e4%ba%8e%e5%8f%98%e5%8e%8b%e5%99%a8%e7%9a%84%e8%a7%86%e9%a2%91%e5%ae%9e%e4%be%8b%e5%88%86%e5%89%b2%e6%a1%86%e6%9e%b6/

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息