IEEE的CVPR会议是计算机视觉社区中最受欢迎的会议之一。CVPR21收到了1600篇论文,展示了过去一年中一些令人印象深刻的进展。在您繁忙的日程允许的情况下,我们重点介绍了八篇应该阅读的特殊论文,以及应该运行的代码。conference
克里斯的选择
长颈鹿:用构图生成神经特征场表示场景
- 纸张/代码
- Niemeyer和Geiger使用深度生成模型不仅可以生成真实场景,还可以在对象级别控制真实场景。与以前的方法不同,长颈鹿使用3DGaN,这有助于解开潜在空间中不同对象(从图像数据中学习)之间的关系,使得在对象级别修改场景变得更容易。
- 纸张/代码
- 目标检测通常被视为一个闭集问题,即在有限的对象集上训练模型,并且在测试时不引入新的对象。Joseph等人。将目标检测作为一个开集问题来处理,这在现实世界中是一个更现实的表述。使用较快的RCNN作为基本模型,作者开发了ORE,它使用对比聚类、区域建议网络和其他元素来增量地学习新类,而不会忘记较老的观察类。
HOTR:与变形金刚的端到端人-物交互检测
- 纸张/代码
- 人-物交互(HOI)的目的是了解图像中人与物之间的关系。HOI是一个具有挑战性的问题,因为它耦合了对象检测和交互推理的任务。使用目标检测变压器(DETR)作为基线,Kim等人。开发一个共同学习<人、物、交互>三元组的网络模型。这种方法在V-Coco数据集上展示了改进的AP和5倍于以前最先进的数据集的加速比。
探索简单暹罗表征学习
- 纸张/代码
- 陈和他探索了暹罗网络在无监督视觉表征学习中的应用,并找到了与之前关于其使用限制的看法相矛盾的证据,例如,暹罗网络被认为需要负样本对。在他们的SimSiam模型中,作者使用停止梯度操作来防止收敛到平凡的解,这是暹罗网络经常引用的问题。
汉娜的选择
深度卷积字典学习在图像去噪中的应用
- 纸张/代码
- 提出了一种新的深度卷积字典学习框架(DCDicL)。DCDicL在量化指标(例如PSNR、SSIM)和视觉质量方面都显示出领先的去噪性能。特别是,它可以再现许多现有的去噪DNN难以恢复的微妙的图像结构和纹理。
迭代过滤自适应网络在单幅图像散焦去模糊中的应用
- 纸张/代码
- 本文讨论了一种嵌入迭代过滤自适应网络(IFAN)的端到端网络,用于单幅图像的离焦去模糊。IFAN是专门为有效处理空间变化和大型散焦模糊而设计的,这是许多其他方法无法实现的。
REDET:一种用于空中目标检测的旋转等变检测器
- 纸张/代码
- 许多模型在没有对大量数据进行训练的情况下尝试检测具有不同方向的对象时存在问题。本文通过建立一个编码旋转等差和旋转不变性的模型来解决这个问题。
利用单目标跟踪改进多目标跟踪
- 纸
- 提出了一种多目标跟踪(MOT)和单目标跟踪(SOT)相结合的新方法。这意味着MOT任务能够以有效和高效的方式受益于SOT方法的强大辨别能力。
结论
今年的CVPR21上展示了许多计算机视觉的进步。我们重点介绍了2×4的论文,这些论文涉及许多活跃的研究领域,包括目标检测、去噪、去模糊和场景表示。
原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/08/04/anno-ai%e6%9c%80%e5%96%9c%e6%ac%a2%e7%9a%84cvpr-2021%e8%ae%ba%e6%96%87/