1. 磐创AI-开放猫官方网站首页
  2. Medium

读 - 目标检测20年综述(八)(完)

行人检测

行人检测作为一种重要的目标检测应用,在自动驾驶、视频监控、刑侦等领域受到了广泛的关注。早期的一些行人检测方法在以下方面为一般目标检测奠定了坚实的基础:

  • 特征表示:HOG检测器[人体检测的方向梯度直方图],ICF检测器[积分通道特征]
  • 分类器设计:[交集核支持向量机分类是有效的]
  • 检测加速:[使用定向梯度直方图级联进行快速人体检测]。

近年来,一些通用的目标检测算法被引入到行人检测中,并极大地推动了这一领域的进步:例如,FAST R-CNN[FRAST R-CNN:Forward-Time Object Detection with Region Proposal Networks,Is FAST R-CNN Are Good for Walan Detection?](更快的R-CNN:用区域建议网络实现实时目标检测?)Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Is Faster R-CNN Doing Well for Pedestrian Detection?

困难和挑战

  • (A)小型行人:在远离摄影机的地方拍摄的小型行人的一些例子。在加州理工学院的数据集中,15%的行人身高小于30像素。
  • (B)硬底片:街景图像中的某些背景在视觉外观上与行人非常相似。
  • (C)行人密集及遮挡:一些行人密集及遮挡的例子。在加州理工学院的数据集中,未被遮挡的行人仅占全部行人实例的29%。
  • 实时检测:从高清视频中实时检测行人对于自动驾驶和视频监控等应用至关重要。

传统的行人检测方法

由于计算资源的限制,Haar小波特征在早期的行人检测中得到了广泛的应用[A Training System for Object Detection,Example Based Object Detect by Components,利用运动和外观模式检测行人](A Trabable System for Object Detection,Based Example Based Object By Components By Components)。A Trainable System for Object Detection Example-based object detection in images by components Detecting pedestrians using patterns of motion and appearance

为了改进对被遮挡行人的检测,当时流行的一个想法是“按部件检测”,即,将检测看作在不同人体部位(例如,头部、腿部和手臂)上单独训练的多个部件检测器的集合:[基于实例的图像中的目标部件检测,通过边缘部件检测器的贝叶斯组合检测单个图像中的多个部分被遮挡的人,具有部分遮挡处理的HOG-LBP人体检测器]。Example-based object detection in images by components Detection of multiple, partially occluded humans in a single image by Bayesian combination of edgelet part detectors An HOG-LBP human detector with partial occlusion handling

随着计算能力的提高,人们开始设计更复杂的检测模型,自2005年以来,基于梯度的表示[用于人体检测的方向梯度直方图、基于方向梯度直方图级联的快速人体检测、具有部分遮挡处理的HOG-LBP人体检测器、通过学习Shapelet特征检测行人]和DPM[基于区分训练的部分模型的目标检测、基于语法模型的目标检测、基于DPMV5的30 Hz目标检测]成为行人检测的主流。Histograms of Oriented Gradients for Human Detection Fast Human Detection Using a Cascade of Histograms of Oriented Gradients An HOG-LBP human detector with partial occlusion handling Detecting Pedestrians by Learning Shapelet Features Object Detection with Discriminatively Trained Part-Based Models Object Detection with Grammar Models 30Hz Object Detection with DPM V5

2009年,利用积分图像加速技术,提出了一种有效的、轻量级的特征表示方法:积分通道特征(ICF)[积分通道特征]。ICF随后成为当时行人检测的新标杆[行人检测:现状评估]。Integral Channel Features Pedestrian Detection: An Evaluation of the State of the Art

除了特征表示外,还考虑了一些领域知识,如外观恒定和形状对称性[基于外观恒定和形状对称性的行人检测]和立体信息[100帧/秒的行人检测,无需深度图计算的Stixels估计]。Pedestrian Detection Inspired by Appearance Constancy and Shape Symmetry Pedestrian detection at 100 frames per second Stixels estimation without depth map computation

基于深度学习的行人检测方法

以提高对小型行人的检测能力。尽管诸如快速/较快R-CNN的深度学习对象检测器对于一般的对象检测已经显示出最先进的性能,但是由于它们的卷积特征的低分辨率,它们在检测小行人方面的成功是有限的。此问题的一些最新解决方案包括:

  • 特征融合:[更快的R-CNN在行人检测方面做得好吗?]
  • 介绍超高分辨率手工制作的功能:[了解行人检测的多层通道功能,什么可以帮助行人检测?]
  • 多分辨率下的检测结果集成:[行人检测的深层CNN突破极限]

提高硬性阴性检测水平。最近的一些改进包括集成了以下功能:

  • 增强型决策树:[更快的R-CNN在行人检测方面做得好吗?]
  • 语义分割(作为行人的上下文):[深度学习语义任务辅助的行人检测]
  • 此外,还引入了“跨模态学习”的思想,通过使用RGB和红外图像[学习用于鲁棒行人检测的跨模态深度表示]来丰富硬底片的特征。

以改善密集和遮挡的行人检测。正如文中所提到的,CNN的深层特征具有更丰富的语义,但对检测密集对象效果不佳。

  • 为此,一些研究人员通过考虑目标的吸引和周围其他物体的排斥来设计新的损失函数[斥力损失:检测人群中的行人]。
  • 目标遮挡是另一个通常会遇到密集行人的问题。部分检测器集成[用于行人检测的深度学习强项,联合学习用于行人检测的深度特征、变形部分、遮挡和分类]和注意机制[在CNNs中通过引导注意力进行遮挡行人检测]是提高遮挡行人检测的最常用方法。

人脸检测

人脸检测是最古老的计算机视觉应用之一。早期的人脸检测,如VJ检测器[使用简单特征的Boost Cascade进行快速目标检测],极大地促进了目标检测,其许多杰出的思想即使在今天的目标检测中仍然发挥着重要作用。Rapid Object Detection using a Boosted Cascade of Simple Features

困难和挑战

  • (A)类内变化:(来自WildestFaces数据集的图像)人脸可能呈现各种表情、肤色、姿势和动作。
  • (B)面部遮挡:(来自UFDD数据集的图像)面部可能被其他对象部分遮挡。
  • (C)多尺度人脸检测:(来自P.Hu等人的图像CVPR2017)检测各种尺度的人脸,特别是一些小人脸。
  • 实时检测:移动设备上的人脸检测通常需要CPU实时检测速度。

早期人脸检测(2001年前)

早期的人脸检测算法可以分为三类:

  • 基于规则的方法。这组方法编码了人类关于构成典型人脸的知识,并捕获了面部元素之间的关系[复杂背景中的人脸检测,寻找人脸特征]。
  • 基于子空间分析的方法。这组方法分析了人脸在底层线性子空间中的分布[用于识别的特征脸,用于人脸识别的基于视图的和模块化的特征空间]。特征脸是这组方法的代表。
  • 基于学习的方法。将面部检测框定为滑动窗口+二值分类(目标与背景)过程。这一组的一些常用模型包括神经网络[图像中对象定位的原始方法,视觉场景中的人脸检测,基于神经网络的人脸检测]和SVM[对象检测的通用框架,训练支持向量机:人脸检测的应用]。

传统人脸检测(2000-2015)

在这一时期有两组人脸检测器。

  • 第一组方法基于Boost决策树[基于简单特征的Boost级联的快速目标检测、鲁棒的实时人脸检测、用于目标检测的Boost链学习]。这些方法计算简单,但在复杂场景下检测精度较低。
  • 第二组基于早期的卷积神经网络,利用特征的共享计算来加速检测[一种基于能量模型的快速稳健的人脸检测、协同人脸检测和姿态估计的神经体系结构](A NIC Architecture for Fast and Robust Face Detect,Synergistic Face Detection and Position Estiment with Energy-Based Models)。

基于深度学习的人脸检测(2015年后)

在深度学习时代,大多数人脸检测算法都遵循通用目标检测器的检测思想,如更快的RCNN和SSD。

  • 加速人脸检测:在深度学习时代,级联检测是最常用的加速人脸检测的方法[使用多任务级联卷积网络进行人脸检测、联合人脸检测和对齐的卷积神经网络级联]。另一种加速方法是预测图像中人脸的尺度分布[尺度感知人脸检测],然后在选定的尺度上运行检测。
  • 为了改进多姿态和遮挡人脸检测:“人脸校准”的思想已经被用来通过估计校准参数[用于高效人脸检测的监督变压器网络]或通过多个检测阶段使用渐进校准[实时旋转不变的人脸检测与渐进校准网络]来改进多姿势人脸检测。
  • 为了改进遮挡人脸检测,最近提出了两种方法。第一种是加入“注意机制”,以突出潜在人脸目标的特征[人脸注意网络:一种有效的遮挡人脸检测器]。第二种是“基于部分的检测”(Face-Net:Face-Net:Face Detection by Deep Face Part Response),它继承了DPM的思想。
  • 为了改进多尺度人脸检测:最近关于多尺度人脸检测的工作[查找微小人脸,通过尺度友好的深卷积网络的人脸检测,SSH:Single Stage Headless Face Detector,S³FD:Single Shot Scale-Instant Face Detector]使用与一般目标检测中的检测策略类似的检测策略,包括多尺度特征融合和多分辨率检测。

文本检测

几千年来,文本一直是人类的主要信息载体。文本检测的基本目标是确定给定图像中是否有文本,如果有,则对其进行定位和识别。文本检测有着非常广泛的应用。

  • 它帮助视障人士“阅读”路牌和货币[一种基于照相手机的视障人士货币阅读器,改进了盲人基于照相手机的文本阅读系统的文本检测方法]。
  • 在地理信息系统中,门牌和路牌的检测和识别使得构建数字地图变得更容易[卷积神经网络应用于门牌数字分类,从街景图像中提取基于注意力的结构化信息]。

困难和挑战

  • (A)不同的字体和语言:(来自maxPixel的图像)文本可以有不同的字体、颜色和语言。
  • (B)文本旋转和透视失真:(图像来自Y.Liu等人。CVPR2017)文本可能具有不同的方向,甚至可能存在视角扭曲。
  • (C)密集排列的文本本地化:(图像来自Y.Wu等人。ICCV2017)长宽比大、布局密集的文本行很难准确定位。
  • 破碎和模糊的字符:破碎和模糊的字符在街景图像中很常见。

分步检测与综合检测

分步检测方法[面向笔画检测的场景文本定位与识别,自然场景图像中的鲁棒文本检测]包括字符分割、候选区域验证、字符分组和单词识别等一系列处理步骤。Scene Text Localization and Recognition with Oriented Stroke Detection Robust Text Detection in Natural Scene Images

  • 优点:在粗分割步骤中可以滤除大部分背景,大大降低了后续处理的计算量。
  • 缺点:所有步骤的参数都需要仔细设置,这些步骤中的每一个步骤都会出现并累积错误。

综合的方法[端到端场景文本识别,端到端卷积神经网络文本识别,文本流:自然场景图像中的统一文本检测系统,文本检测的深度特征]将文本检测框定为一个联合概率推理问题,其中字符定位、分组和识别步骤在统一的框架下进行处理。End-to-end scene text recognition End-to-end text recognition with convolutional neural networks Text Flow: A Unified Text Detection System in Natural Scene Images Deep Features for Text Spotting

  • 优点:避免了累积误差,易于集成语言模型。
  • 缺点:当考虑大量的字符类和候选窗口时,推论的计算代价会很高。

传统方法与深度学习方法

大多数传统的文本检测方法都是以无监督的方式生成候选文本,其中常用的技术包括最大稳定极值区域(MSER)分割[自然场景图像中的鲁棒文本检测]和形态滤波[基于自适应聚类的多方向场景文本检测]。Robust Text Detection in Natural Scene Images Multi-Orientation Scene Text Detection with Adaptive Clustering

这些方法[面向笔画检测的场景文本定位与识别、自然场景图像中的鲁棒文本检测、自然场景中基于对称性的文本行检测]也考虑了文本的对称性和笔画结构等领域知识。Scene Text Localization and Recognition with Oriented Stroke Detection Robust Text Detection in Natural Scene Images Symmetry-based text line detection in natural scenes

近年来,研究人员更多地关注文本定位问题,而不是文本识别问题。最近提出了两组方法。

  • 第一组方法将文本检测框定为一般目标检测的特例[具有区域关注的单镜头文本检测器,利用卷积神经网络在野外阅读文本等]。这些方法都有统一的检测框架,但对于有方向或宽高比较大的文本检测效果较差。
  • 第二组方法将文本检测框定为图像分割问题[深度匹配先验网络:通过边界学习实现更紧密的多向文本检测、通过边界学习的后处理最少的自组织文本检测、通过整体的多通道预测的场景文本检测、通过边界语义感知和自举的准确的场景文本检测、通过角点定位和区域分割的多向场景文本检测]。这些方法的优点是对文本的形状和方向没有特别的限制,但缺点是不容易根据分割结果来区分密集排列的文本行。

目前基于深度学习的文本检测方法已经针对上述问题提出了一些解决方案。

  • 对于文本旋转和透视更改:此问题的最常见解决方案是在锚框和ROI池层中引入与旋转和透视更改相关联的额外参数[通过旋转建议进行任意定向的场景文本检测,R2CNN:用于定向鲁棒场景文本检测的旋转区域CNN,用于多向场景文本检测的深度直接回归,深度匹配优先网络:朝向更紧密的多向文本检测,EAST:一个高效而准确的场景文本检测器]。
  • 改进密排文本检测:基于分割的方法在检测密排文本方面表现出更大的优势。为了区分相邻的文本行,最近提出了两组解决方案。第一种是“分段和链接”,其中“分段”指的是字符热图,而“链接”指的是两个相邻分段之间的连接,指示它们属于同一个词或文本行[深度匹配优先网络:朝向更紧密的多定向文本检测,通过整体的场景文本检测,多通道预测]。第二组是引入额外的角/边界检测任务来帮助分离密集排列的文本,其中一组角或封闭边界对应于单个文本行[通过边界学习的具有最少后处理的自组织文本检测,通过边界语义感知和自举的准确场景文本检测,通过角点定位和区域分割的多向场景文本检测]。
  • 为了改进破碎和模糊文本检测:最近一个处理破碎和模糊文本的想法是使用词级[用于自然场景文本识别的合成数据和人工神经网络,使用连接主义文本建议网络检测自然图像中的文本]识别和句子级识别[基于注意力从街景图像中提取结构化信息]。要处理不同字体的文本,最有效的方法是用合成样本进行训练[合成数据和人工神经网络用于自然场景文本识别,利用卷积神经网络在野外阅读文本]。

交通标志与红绿灯检测

随着自动驾驶技术的发展,交通标志和红绿灯的自动检测近年来备受关注。

困难和挑战

  • (A)照明变化:(来自pxhere的图像)当驾车进入阳光刺眼的环境或在夜间行驶时,检测将特别困难。
  • (B)运动模糊:(来自GTSRB数据集的图像)车载摄像机捕获的图像将由于汽车的运动而变得模糊。
  • (C)恶劣天气下的检测:(来自Flickr和Max Pixel的图像)在恶劣天气(例如雨天和雪天),图像质量会受到影响。
  • 实时检测:这对于自动驾驶尤为重要。

传统检测方法

由于交通标志/信号灯具有特殊的形状和颜色,传统的检测方法通常基于:

  • 颜色阈值:[交通标志自动检测与分类、智能车辆交通标志识别与分析、彩色图像道路交通标志检测、基于支持向量机的道路标志检测与识别、基于颜色和边缘信息的红绿灯检测]
  • 视觉显著性检测:[结合视觉显著性和HOG特征学习进行交通标志检测]
  • 形态滤波:[基于聚光灯检测和自适应红绿灯模板的实时视觉红绿灯识别]
  • 边缘/轮廓分析:[交通标志检测的单目标投票方案,快速稳健的交通标志检测]

由于上述方法仅基于低层视觉设计,在复杂环境下往往失效,因此,一些研究人员开始寻找基于视觉方法之外的其他解决方案,如将GPS和数字地图结合起来进行红绿灯检测[红绿灯映射与检测、红绿灯映射、定位、自动车辆状态检测]。Traffic light mapping and detection Traffic light mapping, localization, and state detection for autonomous vehicles

基于深度学习的检测方法

在深度学习时代,一些著名的检测器如FASTER RCNN和SSD被应用于交通标志/灯检测任务[野外交通标志检测和分类,交通灯的深度学习方法:检测、跟踪和分类,基于注意力模型的街景交通信号检测和分类,自动驾驶的深度卷积交通灯识别]。Traffic-Sign Detection and Classification in the Wild A deep learning approach to traffic lights: Detection, tracking, and classification Traffic signal detection and classification in street views using an attention model Deep Convolutional Traffic Light Recognition for Automated Driving

在这些检测器的基础上,采用注意机制和对抗性训练等新技术来改进复杂交通环境下的检测[基于注意力模型的感知生成对抗性网络小对象检测、交通信号检测和街景分类]。Perceptual Generative Adversarial Networks for Small Object Detection Traffic signal detection and classification in street views using an attention model

遥感目标检测

遥感成像技术为人们更好地了解地球打开了一扇大门。近年来,随着遥感图像分辨率的提高,遥感目标检测(如飞机、船舶、油罐等)的检测成为研究热点。遥感目标检测在军事调查、灾害救援、城市交通管理等方面有着广泛的应用。

困难和挑战

  • (A)“大数据”中的检测:遥感图像和自然图像(VOC、ImageNet和MS-COCO)之间的数据量比较。由于遥感图像数据量巨大,如何快速、准确地检测遥感目标仍然是一个难题。
  • (B)被云层遮挡的目标:(邱绍中等人提供的图像。JSTARS2017和Z.Zou等人的研究成果。TGRS2016)地球表面每天有超过50%的面积被云覆盖。
  • 域自适应:由不同传感器(例如,具有不同调制和分辨率)捕获的遥感图像呈现高度差异。

传统检测方法

传统的遥感目标检测方法大多遵循两阶段检测范式:

阶段1:候选者提取。一些常用方法包括:

  • 基于灰度滤波的方法:[基于形状和纹理特征的星载光学图像贝叶斯舰船检测方法的表征,一种新的星载光学图像舰船检测的分层方法]
  • 基于视觉显著性的方法:[基于显著性和S-HOG描述符的光学卫星图像无监督船舶检测,基于视觉搜索的光学卫星图像船舶检测计算模型,基于视觉显著性建模和稀疏编码判别学习的多类地理空间目标的高效同时检测,基于弱监督学习和高层特征学习的光学遥感图像目标检测][基于视觉显著性和S-HOG描述符的无监督船舶检测,基于视觉搜索的光学卫星图像船舶检测计算模型,基于视觉显著性建模和稀疏编码判别学习的多类地理空间目标高效同时检测,基于弱监督学习和高层特征学习的光学遥感图像目标检测]
  • 基于小波变换的方法[基于深度神经网络和极限学习机的星载光学图像压缩域船舶检测]
  • 基于异常检测的方法:[基于异常检测器和局部形状特征的高分辨率光学图像船舶检测]

上述方法的一个相似之处在于,它们都是无监督的方法,因此在复杂的环境中通常会失败。

阶段2:目标验证。在目标验证阶段,一些常用的功能包括:

  • HOG(方向梯度直方图):[基于异常检测器和局部形状特征的高分辨率光学图像中的船舶检测,基于偏最小二乘的车辆检测]
  • LBP(Local Binary Pattern):[一种新的基于形状和纹理特征的星载光学图像分层舰船检测方法]
  • SIFT(尺度不变特征变换):[一种基于视觉搜索的光学卫星图像船舶检测计算模型,基于弱监督学习和高层特征学习的光学遥感图像目标检测,用于光学遥感图像目标检测的仿射不变描述和大间隔降维]
  • 此外,还有一些其他的方法遵循滑动窗口检测范式:[基于偏最小二乘的车辆检测,用于光学遥感图像目标检测的仿射不变描述和大边缘降维,基于词袋和方向感知扫描的航空图像中的鲁棒车辆检测,复杂城市环境下的高分辨率航空图像中的汽车检测]。

为了检测特定结构和形状的目标,如油罐和近海舰船,使用了一些领域知识。例如,油罐检测可以看作圆/弧检测问题[高分辨率光学卫星图像中具有深部周围特征的分层油罐检测器,光学卫星图像中油罐检测框架的设计与实现]。近海船舶检测可以看作是前甲板和船尾的检测[一种基于形状和上下文信息的高分辨率卫星图像近岸船舶检测新方法,基于鲁棒不变广义Hough变换的高分辨率遥感图像近岸船舶自动检测]。A Hierarchical Oil Tank Detector With Deep Surrounding Features for High-Resolution Optical Satellite Imagery Framework design and implementation for oil tank detection in optical satellite imagery A New Method on Inshore Ship Detection in High-Resolution Satellite Images Using Shape and Context Information Automatic Detection of Inshore Ships in High-Resolution Remote Sensing Images Using Robust Invariant Generalized Hough Transform

为了提高遮挡目标检测的性能,一种常用的思想是“分块检测”[基于局部结构对象模型的高分辨率遥感图像遮挡目标检测,一种基于局部和全局结构学习的高分辨率航空图像道路车辆检测方法]。Occluded Object Detection in High-Resolution Remote Sensing Images Using Partial Configuration Object Model An On-Road Vehicle Detection Method for High-Resolution Aerial Images Based on Local and Global Structure Learning

为了检测不同方向的目标,采用“混合模型”对不同方向的目标训练不同的检测器[基于部分检测器集合的多类地理空间目标检测和地理图像分类]。Multi-class geospatial object detection and geographic image classification based on collection of part detectors

基于深度学习的检测方法

继RCNN在2014年取得巨大成功后,DEEP CNN很快就被应用于遥感目标检测[RIFD-CNN:旋转不变和Fisher鉴别卷积神经网络用于目标检测,学习旋转不变卷积神经网络用于VHR光学遥感图像目标检测,基于深度信念网络的高效遥感图像基于显著性的目标检测,基于深卷积神经网络的光学卫星图像机场检测]。在遥感目标检测中,深度CNN算法很快就被应用到遥感目标检测中[RIFD-CNN:旋转不变和Fisher鉴别卷积神经网络用于目标检测,学习旋转不变卷积神经网络用于VHR光学遥感图像目标检测,基于深度信念网络的遥感图像高效基于显著性的目标检测]。像FASH RCNN和SSD这样的通用目标检测框架越来越受到遥感领域的关注[随机存取存储器:高分辨率航空遥感图像目标检测的新范式,基于区域卷积神经网络和硬反例挖掘的航空图像中的车辆检测,基于SVD网络的星载光学图像中的船只检测,机器可以为遥感图像生成类人语言描述吗?一个高效而健壮的高空间分辨率遥感图像综合地理空间目标检测框架,可变形的,可变形的,适用于高分辨率遥感图像的综合地理空间目标检测框架,基于区域卷积神经网络的航空图像中的车辆检测,基于SVD网络的星载光学图像中的船只检测RIFD-CNN: Rotation-Invariant and Fisher Discriminative Convolutional Neural Networks for Object Detection Learning Rotation-Invariant Convolutional Neural Networks for Object Detection in VHR Optical Remote Sensing Images Efficient Saliency-Based Object Detection in Remote Sensing Images Using Deep Belief Networks Airport Detection on Optical Satellite Images Using Deep Convolutional Neural Networks Random Access Memories: A New Paradigm for Target Detection in High Resolution Aerial Remote Sensing Images Vehicle Detection in Aerial Images Based on Region Convolutional Neural Networks and Hard Negative Example Mining Ship Detection in Spaceborne Optical Image With SVD Networks Can a Machine Generate Humanlike Language Descriptions for a Remote Sensing Image? An Efficient and Robust Integrated Geospatial Object Detection Framework for High Spatial Resolution Remote Sensing Imagery Deformable ConvNet with Aspect Ratio Constrained NMS for Object Detection in Remote Sensing Imagery Integrated Localization and Recognition for Inshore Ships in Large Scene Remote Sensing Images

由于遥感图像与日常图像有很大的不同,人们对遥感图像的深度CNN特征的有效性进行了一些研究[深度特征是否从日常物体推广到遥感和航空场景领域?航空图像中的快速车辆检测,航空图像中基于深度学习的车辆检测的综合分析]。人们发现,尽管深度CNN取得了巨大的成功,但它对光谱数据的处理并不比传统的方法好[深度特征是否从日常物体推广到遥感和航空场景领域?]。Do deep features generalize from everyday objects to remote sensing and aerial scenes domains? Fast Vehicle Detection in Aerial Imagery Comprehensive Analysis of Deep Learning-Based Vehicle Detection in Aerial Images Do deep features generalize from everyday objects to remote sensing and aerial scenes domains?

为了检测不同方向的目标,一些研究人员改进了ROI汇聚层以获得更好的旋转不变性[基于在线样本的全卷积网络用于遥感图像中的飞机检测,基于旋转区域的CNN用于舰船检测]。Online Exemplar-Based Fully Convolutional Network for Aircraft Detection in Remote Sensing Images Rotated region based CNN for ship detection

为了提高领域适应性,一些研究人员从贝叶斯的角度提出了检测,即在检测阶段,根据测试图像的分布自适应地更新模型[随机存取存储器:高分辨率航空遥感图像目标检测的新范式]。Random Access Memories: A New Paradigm for Target Detection in High Resolution Aerial Remote Sensing Images

此外,还利用注意力机制和特征融合策略改进了小目标检测[基于任务划分的全卷积网络用于光学遥感图像近岸舰船检测,基于多尺度全卷积网络的光学遥感图像海洋语义标注]。Fully Convolutional Network With Task Partitioning for Inshore Ship Detection in Optical Remote Sensing Images Maritime Semantic Labeling of Optical Remote Sensing Images with Multi-Scale Fully Convolutional Network

未来方向

未来目标检测的研究可能集中在但不限于以下几个方面:

  • 轻量级目标检测:提高检测算法的速度,使其能够在移动设备上流畅运行。一些重要的应用包括移动增强现实、智能摄像机、人脸验证等。
  • 检测遇到AutoML:最近基于深度学习的检测器变得越来越复杂,并且严重依赖经验。未来的方向是通过使用神经体系结构搜索来减少在设计检测模型时的人为干预(例如,如何设计引擎和如何设置锚框)。
  • 检测满足领域自适应:在独立同分布(I.I.D.)的假设下,任何目标检测器的训练过程本质上都可以看作是一个似然估计过程。数据。使用非I.I.D.进行目标检测。数据,特别是对于一些现实世界的应用程序来说,仍然是一个挑战。GaN在领域自适应方面显示出了良好的效果,可能会对未来的目标检测有很大的帮助。
  • 弱监督检测:基于深度学习的检测器的训练通常依赖于大量注释良好的图像。注释过程耗时、昂贵且效率低下。发展弱监督检测技术,其中检测器只用图像级标注训练,或部分用包围盒标注训练,对于降低人力成本和提高检测灵活性具有重要意义。
  • 小物体检测:检测大场景中的小物体一直是一项挑战。这一研究方向的一些潜在应用包括利用遥感图像统计野生动物数量和检测一些重要军事目标的状态。进一步的研究方向可能包括视觉注意机制的集成和高分辨率轻量级网络的设计。
  • 视频检测:高清视频中的实时目标检测/跟踪对于视频监控和自动驾驶非常重要。传统的目标检测器通常被设计成基于图像的检测,而简单地忽略了视频帧之间的相关性。通过探索时空相关性来提高检测性能是一个重要的研究方向。
  • 信息融合检测:具有多种数据源/模式的目标检测,例如RGB-D图像、三维点云、LIDAR等,对于自动驾驶和无人机应用非常重要。一些有待解决的问题包括:如何将训练有素的检测器迁移到不同的数据形式,如何进行信息融合来提高检测水平等。

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/07/26/%e8%af%bb%e2%80%8a-%e2%80%8a%e7%9b%ae%e6%a0%87%e6%a3%80%e6%b5%8b20%e5%b9%b4%e7%bb%bc%e8%bf%b0%e5%85%ab%e5%ae%8c-2/

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息