你有5秒钟的时间,告诉我什么是TT-SRN?
TT-SRN和VIS到底是什么?
视频实例分割(VIS)是最近引入的计算机视觉研究领域,旨在对视频域中的实例进行联合检测、分割和跟踪。最近的方法提出了高度复杂的多级网络,这些网络实际上是不可用的。因此,在实践中需要使用简单而有效的方法。为了填补这一空白,我们提出了一种基于端到端变压器的正弦表示网络(SRN)视频实例分割模块TT-SRN来解决这一问题。TT-SRN将VIS任务看作是一个单阶段的直接序列预测问题,使得我们能够聚合时间信息和空间信息。视频帧特征集由双变压器提取,然后传播到原始变压器以产生一组实例预测。产生的实例级信息然后通过修改的SRN传递,以获得最终的实例级类ID和边界框,以及自动参与的3-D卷积,以获得分段掩码。在其核心,TT-SRN是一个自然的范例,它通过相似性学习处理实例分割和跟踪,使系统能够产生快速而准确的预测集。TT-SRN采用基于集合的全局丢失进行端到端训练,通过二部匹配强制进行唯一预测。因此,在不牺牲分段掩码质量的情况下,显著降低了流水线的总体复杂度。首次在没有隐式CNN架构的情况下解决了VIS问题,这要归功于双变压器,它是最快的方法之一。
代码和纸张可在以下位置获得:
TT-SRN的图像级目标检测和图像分割版本:
攻击计划
考虑到论文的深度和字数,我决定为每个部分单独撰写文章。将有4篇文章(3篇+这篇)。在本文中,我们将解释“TT-SRN结果与结论”这一主题。文章-I涵盖I={1,…}的第一节,4}。开个玩笑而已。
文章1:“视频实例分段和TT-SRN简介”
第2条:“相关工作&其他VIS人员在做什么?”
第3条:“拟议办法:TT-SRN”
第四条:“结果与结论”
TT-SRN结果与结论
结果
在本节中,我们将演示我们在YouTubeVIS数据集[31]上的结果。YouTube-VIS是一个大型且可伸缩的数据集,由2883个高分辨率YouTube视频、2238个培训视频、302个验证视频和343个测试视频组成。一个类别标签集由人、动物、车辆等40个常见对象组成,共有4883个独特的视频实例,可产生131k高质量的人性化注释。由于测试集的评估是封闭的,因此评估结果基于验证集。4.1.
实施详情
在TT-SRN的第一阶段,我们继承了双变压器[9]中使用的超参数。因此,选择嵌入维数为64,面片大小为4,局部面片大小为7,深度为1。同样,双变压器第二级的超参数为128,2,7,1。对于第三级,选择256,2,7,5作为第三级的超参数。在最后阶段,嵌入大小为512个,贴片大小为2个,局部贴片大小为7个,深度为4个,这里深度指的是双变压器截面中描述的变压器块的数量。请参阅图??单卷积层的隐藏大小选择为256。在经典的变压器中,有6个编码层和6个解码层,多头尺寸为8。所有编解码器中变压器挡路的内部激活都是格鲁[15]。在SRN阶段,选择丢弃概率为0.2。所有SRN层都用文件[25]中描述的它们的专用初始化方案进行初始化。然后,YouTube-VIS中标注的视频长度最大为36[31],我们选择这个值作为输入视频长度。因此,关联来自一个视频的不同剪辑不需要后处理。这样,我们的模型在单人阶段是端到端可训练的。由于我们的模型预测每个视频帧有10个对象,因此我们将查询数量设置为360。TT-SRN通过PyTorch 1.8[23]实现。由于其简单的构建块,TT-SRN具有通用性和可伸缩性,可以扩展到其他框架和愿景任务。我们还在我们的项目页面中提供了TT-SRN的单独实例分割和对象检测版本。
在训练阶段,我们用AdamW[21]对所有层进行了优化,从1e-4的学习速率开始,每3个周期衰减0.1个周期。TT-SRN的训练周期为18个历元,批大小选择为16个。经典变压器权值由COCO[19]中预先训练的DETR[7]初始化。所有视频帧都以每通道的方式用ImageNet平均值和标准偏差值进行归一化。然后,所有视频帧的大小都调整为300 x 540以适应GPU。我们仅使用概率为0.5的随机水平翻转作为视频数据增强。TT-SRN在8 GB内存的单台Tesla K80 GPU上进行了5天的训练。
在推理阶段,TT-SRN的体系结构没有变化。因此,我们的模型的训练和推理形状完全相同。此外,关联跨视频帧的实例不需要手工创建的后处理。我们将阈值设置为得分高于确定阈值的保留实例,以获得最终结果。我们将这个门槛设为0.6。在视频帧中有一些被标识为不同类别的实例。那时,我们使用预测频率最高的类别。
评估指标
在图像实例分割中使用标准评估度量进行评估,并对其进行修改以适应我们的新任务[31]。具体地,度量8是具有各种条件的平均查准率(AP)和平均查全率(AR)[31]。AP被定义为精度调用曲线[31]下的区域。置信度分数用于绘制曲线。AP在多个交叉点过并集(IOU)阈值上求平均[31]。平均召回是指在召回-欠条曲线下翻了一番的区域。作为有条件的AP和AR,我们遵循COCO评估程序,因为它在第5%步需要10个IOU阈值,范围从50%到95%。由于我们在视频领域,我们需要在评估中包括时间一致性,例如,即使模型产生了成功的分割,如果它无法跟踪实例,它就表明性能不佳。因此,我们的IOU计算不同于图像实例分割,因为每个实例包含一个掩码序列[31],因此IOU计算通过在视频帧上累加IOU来扩展到一批视频帧。欠条计算如下。这里,m^i_t表示基本事实,m˜^i_t表示假设。
主要成果
在YouTube-VIS上,我们将TT-SRN与其他最先进的VIS方法在速度和准确度方面进行了比较。由于我们的方法是单级和端到端可训练的,所以我们优先将我们的方法与单级和端到端可训练的方法进行比较。我们将TTSRN与Mask Track R-CNN[31]、MaskProp[3]、VisTR[29]和STEM-Seg[1]进行了比较。在没有任何编织的情况下,TT-SRN是最快的方法之一,在单个图形处理器上的运行速度为55.3FPS,并且在Youtube-VIS上实现了39.3%MAP的好胜准确率,显著超过了VIS基线模型。在速度方面,TT-SRN在最先进的VIS车型中排名第二。就速度而言,目前的赢家是VisTR[29],因为它在使用ResNet-101[14]主干时运行速度为57.7,在使用ResNet-50主干时运行速度为69.9[14]。TT-SRN在速度方面远远超过当前VIS基线模型Mask Track R-CNN,后者以20.0FPS的速度运行。这一差距源于TTSRN基于注意力的简单机制,该机制只需最少的步骤即可生成VIS预测。另一种好胜方法,STORE-SEG,运行在2.1FPS,非常不能用于实时目的。他们的论文中没有提到MaskProp的速度[3]。请注意,上述结果中不包括数据加载和预处理步骤时间。在准确率方面,TT-SRN明显优于Mask Track R-CNN,我们的模型在YouTube-Vis的验证集上达到了39.3%的MAP得分,而Mask Track R-CNN达到了30.3%的MAP得分。这一巨大的利润率源于TTSRN的结构,该结构在所有组件中都采用了最先进的方法。此外,TT-SRN的性能也大大优于STEmseg,因为在ResNet-101主干上,STEM-SEG达到了34.6%的MAP得分。由于TT-SRN与VisTR相似,采用ResNet-101骨干网的VisTR的MAP得分比采用ResNet-101骨干网的VisTR高0.8%,而采用ResNet-50骨干网的TT-SRN的MAP得分比采用ResNet-50骨干网的VisTR高3.1%。目前的获胜者MaskProp获得了46.6%的MAP得分,它的表现远远超过TT-SRN。TT-SRN和MaskProp之间的差距源于MaskProp的多网络设计,它由时空采样网络[4]、特征金字塔网络[17]、混合任务级联网络[8]和高分辨率掩码细化后处理网络[3]组成。TT-SRN是最简单的VIS架构之一,在所有竞争对手中实现了最快、最准确的结果之一。此外,TT-SRN可以容易地划分为其子组件来执行单独的VIS任务,即对象检测、实例分割和分类。这使得我们的方法简单、统一和实时,而不会牺牲实例掩码的质量。
结论
本文针对视频实例分割问题,提出了一种基于端到端变压器的正弦表示网络视频实例分割模块TT-SRN。TT-SRN将VIS任务看作一个单一状态下的直接序列预测问题,使我们能够聚合时间信息和空间信息。为了产生从视频帧中提取的高质量特征,我们使用了双变压器。经典变换器用于产生一系列实例预测,这些预测稍后通过修改的正弦表示网络得到最终结果。TT-SRN是一个自然的范例,它通过相似性学习来处理跟踪,使系统能够产生快速而准确的预测集。TT-SRN通过基于集合的全局丢失进行端到端的训练,该全局丢失通过二部匹配强制唯一预测,从而在不牺牲分段掩码质量的情况下降低了流水线的一般复杂度。首次在没有传统CNN架构的情况下解决了VIS问题,这要归功于双变压器,它是最快的方法之一。我们的方法可以很容易地划分为其子组件,以生成单独的实例掩码和边界框,这将使其成为许多视觉任务的统一方法。我们相信,视频实例分割是视频理解领域中的一项重要任务,它将创新计算机视觉研究领域。我们的项目页面位于https://github.com/cankocagil/TT-srn,TT-srn的单独检测/分割版本位于https://github.com/cankocagil/TT-srn–对象检测。https://github.com/cankocagil/ https://github.com/cankocagil/
…
参考文献
[1]A.Athar,S.Mahadevan,A.Osep,L.Leal-taixˇe,和B.Leibe。STEM-SEG:时空嵌入,例如视频中的分割,2020。
[2]J.L.Ba,J.R.Kiros和G.E.Hinton。图层标准化,2016。
[3]G.Bertasius和L.Torresani.利用遮罩传播对视频中的对象实例进行分类、分割和跟踪,2020。
[4]G.Bertasius、L.Torresani和J.Shi.利用时空采样网络进行视频中的目标检测,2018年。
[5]A.Bewley,Z.GE,L.Ott,F.Ramos和B.Upcroft。简单的在线和实时跟踪。2016年9月,IEEE图像处理国际会议(ICIP)。
[6]曹军,R.M.Anwer,H.Cholakkal,F.S.Khan,Y.Pang,L.Shao.SipMask:用于快速图像和视频实例分割的空间信息保存,2020。
[7]N.Carion,F.Massa,G.Synnaeve,N.Usunier,A.Kirillov和S.Zagoruyko。使用变压器进行端到端目标检测,2020。
[8][8]陈启刚,庞军,王军,熊永强,李祥,孙松山,冯伟,刘振军,石军,欧阳,罗振中,林东东.针对实例细分的混合任务级联,2019年。
[9]楚晓明,田智田,王勇,张斌,任海文,魏晓伟,夏海华,沈春春。“双胞胎:重温视觉变形金刚中空间注意力的设计”,2021年。
[10]戴军,齐海奇,熊勇,李勇,张刚,胡华,魏勇。可变形卷积网络,2017。
[11]A.Dosovitski,L.Beyer,A.Kolesnikov,D.Weissenborn,X.Zhai,T.Unterthiner,M.Dehgani,M.Minder,G.Heigold,S.Gelly等。一张图片价值16×16个字:按比例进行图像识别的变形金刚。arxiv预印本arxiv:2010.11929,2020年。
[12]B.Hariharan,P.Arbelaez,R.Girshick和J.Malik。同时检测和分割,2014。
[13]K.He,G.Gkioxari,P.Dollar和R.Girshick。掩护r-CNN,2018年。
[14]何启和,张小新,任善新,孙军。深度残差学习在图像识别中的应用,2015。
[15]D.Hendrycks和K.Gimpl.高斯误差线性单位(Gelus),2020。
[16]C.-C.Lin,Y.Hung,R.Feris,L.He.使用改进的VAE架构的视频实例分割跟踪。“IEEE/CVF计算机视觉和模式识别(CVPR)会议论文集”,2020年6月。
[17]书名/作者声明:[by]T.Y.Lin,P.Dollar,R.Girshick,K.He,B.Hariharan,and‘S.Belongie.用于目标检测的特征金字塔网络,2017。
[18]T.Y.Lin,P.GoYal,R.Girshick,K.He,P.Dollar。高密度物体检测的焦点丢失,2018年。
[19]T.Y.Lin,M.Maire,S.Belongie,L.Bourdev,R.Girshick,J.Hays,P.Perona,D.Ramanan,C.L.Zitnick和P.Dollar。‘Microsoft Coco:Context中的常见对象,2015。
[20]刘振荣,林玉云,曹永元,胡海华,魏永元,张振中,林世山,郭斌。旋转变压器:使用移位窗口的分层视觉转换器。arxiv预印本arxiv:2103.14030,2021年。
[21]I.Loshchiov和F.Hutter。解耦的权重衰减正则化,2019年。
[22]书名/作者声明:[font=宋体]F.Milletari,N.Navab,S.-A.Ahmadi.V-Net:用于体积医学图像分割的全卷积神经网络,2016。
[23]A.Paszke,S.Gross,F.Massa,A.Lerer,J.Bradbury,G.Chanan,T.Killeen,Z.Lin,N.Gimelshein,L.Antiga,A.Desmaison,A.Kopf,E.Yang,Z.DeVito,M.Reason,¨A.Tejani,S.Chilamkurthy,B.Steiner,L.Fang,J.Bai和S.Chintala。火炬:势在必行的风格,高性能深度学习库,2019。
[24]O·Russakovsky,J.Dung,H.Su,J.Krause,S.Satheesh,S.Ma,Z.Huang,A.Karpy,A.Khosla,M.Bernstein,A.C.Berg,L.Fei-fei。2015年ImageNet大规模视觉识别挑战赛。
[25]书名/作者The Sitzmann,J.N.P.Martel,A.W.Bergman,D.B.Lindell,G.Wetzstein。具有周期激活函数的隐式神经表示,2020。
[26]J.Son,M.Baek,M.Cho和B.Han.基于四重卷积神经网络的多目标跟踪。2017年IEEE计算机视觉与模式识别会议(CVPR),第3786-3795页,2017。
[27]H.Touvron,M.Cord,M.Douze,F.Massa,A.Sablayroll,和H.Jegou。通过注意力训练数据高效的图像转换和提炼。arxiv预印本arxiv:2012.12877,2020年。
[28]A.Vaswani,N.Shazeer,N.Parmar,J.Uszkoreit,L.Jones,A.N.Gomez,L.Kaiser和I.Polosukhin。2017年,你只需要关注就行了。
[29]王勇,徐志忠,王霞,沈春,程兵,沈海文,夏海华。使用变压器进行端到端视频实例分割,2021。
[30][中英文摘要]Y.Wu和K.He。团体正常化,2018年。
[31]杨力,范玉英,徐宁。视频实例分段,2019年。
原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/10/02/tt-srn%ef%bc%9a%e5%9f%ba%e4%ba%8e%e5%8f%98%e5%8e%8b%e5%99%a8%e7%9a%84%e8%a7%86%e9%a2%91%e5%ae%9e%e4%be%8b%e5%88%86%e5%89%b2%e6%a1%86%e6%9e%b6%e7%ac%ac%e5%9b%9b%e9%83%a8%e5%88%86/