1. 磐创AI首页
  2. Medium

UP-DETR:变压器目标检测的无监督预训练(综述)

无监督学习,完美推进!

中国交通大学和腾讯微信人工智能的研究人员提出了UP-DETR,这是一种用于目标检测的无监督学习方法,本文将对此进行探索。它是Facebook AI提出的DETR目标检测方法的一个进步。UP-DETR DETR

受非监督预训练变压器在NLP中取得巨大成功的启发,UP-DETR的作者提出了一种称为随机查询补丁检测的借口任务,用于无监督预训练DETR(UP-DETR)进行目标检测。

1.你只需要注意就行了

2017年,Vaswani等人(来自谷歌)提出了一个网络架构,Transformer,完全基于注意力机制,完全消除了重复和卷曲。该模型在机器翻译任务中表现优异的同时,也保证了并行化能力,从而促进了更快的训练。Transformer

为了捕捉长期依赖关系,在像NLP这样的顺序到顺序的任务中,递归神经网络工作得很好,但由于顺序计算的原因,它们的速度很慢,并且容易受到消失/爆炸梯度问题的影响。

™不能告诉你把注意力机制看作是深入理解变压器工作的黑匣子,我极力推荐你读一下jay alammar的文章(用视觉辅助工具做了很好的解释)。article

必须了解查询(Q)、键(K)和值(V)向量的作用。

要进一步了解注意力是您所需要的全部纸张,请观看视频。

2.为什么视觉任务需要变压器?

与RNN相比,转换器允许对输入序列元素之间的长依赖关系进行建模,并支持序列的并行处理。Transformers-uro™简单的设计允许他们使用相似的处理块处理多种模态(例如,图像、视频、文本和语音),并表现出对超大容量网络和海量数据集的出色可扩展性。这些优势使涉及变压器网络的各种视觉任务取得了令人振奋的进展。?欧元“链接link

3.DETR(简单复习)

2020年提出的一种方法使用变压器编解码器体系结构将目标检测作为集合预测问题来处理。它利用全局损失,在给定一组固定的少量学习对象查询、关于对象关系的DETR原因和全局图像上下文的情况下,通过两部分匹配来强制进行唯一预测,以直接并行输出最终的预测集。

DETR是一种有监督的学习方法,它给出n组预测作为输出。这里,二部分匹配损失在确保单个对象在单个图像输入中不被多次检测到方面起着关键作用。bipartite matching

4.无人监督的预训

深度前馈神经网络的训练可能很困难,因为目标函数中的局部最优和复杂的模型-™倾向于过拟合。无监督预训练是从使用无监督标准(如深度信念网络或深度自动编码器)训练的神经网络开始判别神经网络的过程。此方法有时可以帮助优化。

这个想法简单明了。我们不是随机初始化权重,而是针对任务预先训练它们(通常是在自动编码器中进行特征重构),然后确定权重。然后,我们针对下游任务对其进行微调(从更有利的特征空间区域开始,以便模型比随机初始化权重时学习得更快)

4.UP-DETR

UPDETR方法,从给定的图像中随机裁剪斑块,然后将它们作为查询提供给解码器。该模型被预先训练以从原始图像中检测这些查询补丁。预训中涉及的两个关键问题如下。

UP-DETR认为,尽管DETR在目标检测任务中表现良好,但它在训练和优化方面存在障碍,这需要大规模的训练数据和相对较长的训练时间表。

从下图可以推断出,UP-DETR所需的收敛时间较短,并且长期性能良好,显然,DETR在PASCAL VOC[LINK]中表现不佳,它的训练数据和实例相对较少,而COCO[LINK]的训练数据和实例相对较少,因此DETR在PASCAL VOC[LINK]中表现不佳link link

这表明,在训练数据不足的情况下,变压器的预训练是必不可少的

简单地说,目标分类和定位的组合称为目标检测。

为避免查询补丁检测破坏分类特征,引入冻结的预训练主干和保留变压器特征区分的补丁特征重构。

此外,一项消融研究表明,冷冻CNN主干在预训练阶段的特征辨别中起着重要作用。

不同的对象查询集中在不同的位置区域和框大小。提出了一种简单的单查询预训练,并将其扩展到多查询版本,以演示这一性质。

引入对象查询洗牌和注意掩码,解决了多查询块中查询块和对象查询之间的分配问题。

两个阶段的进攻!

i)以无人监督的方式对变压器进行预培训。

UP-DETR在没有任何标签的ImageNet训练集上进行预训练。CNN主干(ResNet-50)使用SwAV进行预培训

ii)微调

该模型使用预训练Up-DETR参数进行初始化,并使用标记数据对VOC和COCO上的所有参数(包括CNN)进行微调。

如前所述,该阶段从一个有利的特征空间开始,因此表现良好,收敛良好。

该模型在150/300个周期内采用短/长调度进行微调,在100/200个周期下的学习率分别提高0.1倍。

下游培训目标简单地说就是

架构详细信息


正如您所看到的,输入图像首先通过CNN主干来提取特征地图(F),该特征地图(F)被添加到位置编码并馈送到多个变压器编码层。编码器的输出馈送到解码器。

来自同一输入图像的随机裁剪查询补丁通过GAP(Global Average Pooling)被馈送到CNN骨干网,从而给出补丁特征(P),然后将该特征(P)与相同维度的对象查询相加以馈送到解码器。

有N个对象查询。这些都是可以在模型培训时学习的。

损失函数

Lrec分量是本文提出的在无监督预训练过程中平衡分类和定位的重构损失。L2归一化面片特征之间的均方误差,以保持特征区分。

对于多查询补丁,

如果我们有-EUROUREœM?�查询补丁和?EUROœN?EURO�对象查询,那么我们将N个对象查询分成M个组,其中每个查询补丁被分配给N/M个对象查询。

为了更好地泛化,作者假设了两个条件:1)查询补丁的独立性(注意掩码)2)对象查询的多样性(对象查询洗牌)

为了满足查询块的独立性,我们利用注意力掩码矩阵来控制不同对象查询之间的交互。

为了模拟对象查询之间的隐式分组分配,我们在预训练期间随机调整所有对象查询嵌入的排列。10%的查询补丁在预训练期间被屏蔽为零,类似于退出。-œ对象查询无济于事–�在他们的进一步研究中

结果表明,即使有足够的训练数据(即COCO上的?ˆ?118K图像),预训练变压器仍然是必不可少的

UP-DETR的结果被进一步扩展到单镜头检测和全景分割,在这些任务中似乎也有全面的表现。

以下曲线和结果总结了为什么无监督方法很重要。

在无监督预训练的情况下,UP-DETR在目标检测、单镜头检测和全景分割方面的性能明显优于DETR。

参考文献

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/09/24/up-detr%ef%bc%9a%e5%8f%98%e5%8e%8b%e5%99%a8%e7%9b%ae%e6%a0%87%e6%a3%80%e6%b5%8b%e7%9a%84%e6%97%a0%e7%9b%91%e7%9d%a3%e9%a2%84%e8%ae%ad%e7%bb%83%e7%bb%bc%e8%bf%b0/

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息