1. 磐创AI首页
  2. arxiv

2021年09月15日 arxiv 视觉论文速递

Pose with Style: Detail-Preserving Pose-Guided Image Synthesis with Conditional StyleGAN

W e p r e s e n t a n a l g o r i t h m f o r r e – r e n d e r i n g a p e r s o n f r o m a s i n g l e i m a g e u n d e r
a r b i t r a r y p o s e s . E x i s t i n g m e t h o d s o f t e n h a v e d i f f i c u l t i e s i n h a l l u c i n a t i n g
o c c l u d e d c o n t e n t s p h o t o – r e a l i s t i c a l l y w h i l e p r e s e r v i n g t h e i d e n t i t y a n d f i n e
d e t a i l s i n t h e s o u r c e i m a g e . W e f i r s t l e a r n t o i n p a i n t t h e c o r r e s p o n d e n c e f i e l d
b e t w e e n t h e b o d y s u r f a c e t e x t u r e a n d t h e s o u r c e i m a g e w i t h a h u m a n b o d y
s y m m e t r y p r i o r . T h e i n p a i n t e d c o r r e s p o n d e n c e f i e l d a l l o w s u s t o t r a n s f e r / w a r p
l o c a l f e a t u r e s e x t r a c t e d f r o m t h e s o u r c e t o t h e t a r g e t v i e w e v e n u n d e r l a r g e
p o s e c h a n g e s . D i r e c t l y m a p p i n g t h e w a r p e d l o c a l f e a t u r e s t o a n R G B i m a g e u s i n g
a s i m p l e C N N d e c o d e r o f t e n l e a d s t o v i s i b l e a r t i f a c t s . T h u s , w e e x t e n d t h e
S t y l e G A N g e n e r a t o r s o t h a t i t t a k e s p o s e a s i n p u t ( f o r c o n t r o l l i n g p o s e s ) a n d
i n t r o d u c e s a s p a t i a l l y v a r y i n g m o d u l a t i o n f o r t h e l a t e n t s p a c e u s i n g t h e w a r p e d
l o c a l f e a t u r e s ( f o r c o n t r o l l i n g a p p e a r a n c e s ) . W e s h o w t h a t o u r m e t h o d c o m p a r e s
f a v o r a b l y a g a i n s t t h e s t a t e – o f – t h e – a r t a l g o r i t h m s i n b o t h q u a n t i t a t i v e
e v a l u a t i o n a n d v i s u a l c o m p a r i s o n .

CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation

U n s u p e r v i s e d d o m a i n a d a p t a t i o n ( U D A ) a i m s t o t r a n s f e r k n o w l e d g e l e a r n e d f r o m
a l a b e l e d s o u r c e d o m a i n t o a d i f f e r e n t u n l a b e l e d t a r g e t d o m a i n . M o s t e x i s t i n g
U D A m e t h o d s f o c u s o n l e a r n i n g d o m a i n – i n v a r i a n t f e a t u r e r e p r e s e n t a t i o n , e i t h e r
f r o m t h e d o m a i n l e v e l o r c a t e g o r y l e v e l , u s i n g c o n v o l u t i o n n e u r a l n e t w o r k s
( C N N s ) – b a s e d f r a m e w o r k s . O n e f u n d a m e n t a l p r o b l e m f o r t h e c a t e g o r y l e v e l b a s e d
U D A i s t h e p r o d u c t i o n o f p s e u d o l a b e l s f o r s a m p l e s i n t a r g e t d o m a i n , w h i c h a r e
u s u a l l y t o o n o i s y f o r a c c u r a t e d o m a i n a l i g n m e n t , i n e v i t a b l y c o m p r o m i s i n g t h e
U D A p e r f o r m a n c e . W i t h t h e s u c c e s s o f T r a n s f o r m e r i n v a r i o u s t a s k s , w e f i n d t h a t
t h e c r o s s – a t t e n t i o n i n T r a n s f o r m e r i s r o b u s t t o t h e n o i s y i n p u t p a i r s f o r
b e t t e r f e a t u r e a l i g n m e n t , t h u s i n t h i s p a p e r T r a n s f o r m e r i s a d o p t e d f o r t h e
c h a l l e n g i n g U D A t a s k . S p e c i f i c a l l y , t o g e n e r a t e a c c u r a t e i n p u t p a i r s , w e d e s i g n
a t w o – w a y c e n t e r – a w a r e l a b e l i n g a l g o r i t h m t o p r o d u c e p s e u d o l a b e l s f o r t a r g e t
s a m p l e s . A l o n g w i t h t h e p s e u d o l a b e l s , a w e i g h t – s h a r i n g t r i p l e – b r a n c h
t r a n s f o r m e r f r a m e w o r k i s p r o p o s e d t o a p p l y s e l f – a t t e n t i o n a n d c r o s s – a t t e n t i o n
f o r s o u r c e / t a r g e t f e a t u r e l e a r n i n g a n d s o u r c e – t a r g e t d o m a i n a l i g n m e n t ,
r e s p e c t i v e l y . S u c h d e s i g n e x p l i c i t l y e n f o r c e s t h e f r a m e w o r k t o l e a r n
d i s c r i m i n a t i v e d o m a i n – s p e c i f i c a n d d o m a i n – i n v a r i a n t r e p r e s e n t a t i o n s
s i m u l t a n e o u s l y . T h e p r o p o s e d m e t h o d i s d u b b e d C D T r a n s ( c r o s s – d o m a i n
t r a n s f o r m e r ) , a n d i t p r o v i d e s o n e o f t h e f i r s t a t t e m p t s t o s o l v e U D A t a s k s w i t h
a p u r e t r a n s f o r m e r s o l u t i o n . E x t e n s i v e e x p e r i m e n t s s h o w t h a t o u r p r o p o s e d
m e t h o d a c h i e v e s t h e b e s t p e r f o r m a n c e o n O f f i c e – H o m e , V i s D A – 2 0 1 7 , a n d D o m a i n N e t
d a t a s e t s .

On the Sins of Image Synthesis Loss for Self-supervised Depth Estimation

S c e n e d e p t h e s t i m a t i o n f r o m s t e r e o a n d m o n o c u l a r i m a g e r y i s c r i t i c a l f o r
e x t r a c t i n g 3 D i n f o r m a t i o n f o r d o w n s t r e a m t a s k s s u c h a s s c e n e u n d e r s t a n d i n g .
R e c e n t l y , l e a r n i n g – b a s e d m e t h o d s f o r d e p t h e s t i m a t i o n h a v e r e c e i v e d m u c h
a t t e n t i o n d u e t o t h e i r h i g h p e r f o r m a n c e a n d f l e x i b i l i t y i n h a r d w a r e c h o i c e .
H o w e v e r , c o l l e c t i n g g r o u n d t r u t h d a t a f o r s u p e r v i s e d t r a i n i n g o f t h e s e
a l g o r i t h m s i s c o s t l y o r o u t r i g h t i m p o s s i b l e . T h i s c i r c u m s t a n c e s u g g e s t s a n e e d
f o r a l t e r n a t i v e l e a r n i n g a p p r o a c h e s t h a t d o n o t r e q u i r e c o r r e s p o n d i n g d e p t h
m e a s u r e m e n t s . I n d e e d , s e l f – s u p e r v i s e d l e a r n i n g o f d e p t h e s t i m a t i o n p r o v i d e s a n
i n c r e a s i n g l y p o p u l a r a l t e r n a t i v e . I t i s b a s e d o n t h e i d e a t h a t o b s e r v e d f r a m e s
c a n b e s y n t h e s i z e d f r o m n e i g h b o r i n g f r a m e s i f a c c u r a t e d e p t h o f t h e s c e n e i s
k n o w n – o r i n t h i s c a s e , e s t i m a t e d . W e s h o w e m p i r i c a l l y t h a t – c o n t r a r y t o
c o m m o n b e l i e f – i m p r o v e m e n t s i n i m a g e s y n t h e s i s d o n o t n e c e s s i t a t e i m p r o v e m e n t
i n d e p t h e s t i m a t i o n . R a t h e r , o p t i m i z i n g f o r i m a g e s y n t h e s i s c a n r e s u l t i n
d i v e r g i n g p e r f o r m a n c e w i t h r e s p e c t t o t h e m a i n p r e d i c t i o n o b j e c t i v e – d e p t h . W e
a t t r i b u t e t h i s d i v e r g i n g p h e n o m e n o n t o a l e a t o r i c u n c e r t a i n t i e s , w h i c h o r i g i n a t e
f r o m d a t a . B a s e d o n o u r e x p e r i m e n t s o n f o u r d a t a s e t s ( s p a n n i n g s t r e e t , i n d o o r ,
a n d m e d i c a l ) a n d f i v e a r c h i t e c t u r e s ( m o n o c u l a r a n d s t e r e o ) , w e c o n c l u d e t h a t
t h i s d i v e r g i n g p h e n o m e n o n i s i n d e p e n d e n t o f t h e d a t a s e t d o m a i n a n d n o t
m i t i g a t e d b y c o m m o n l y u s e d r e g u l a r i z a t i o n t e c h n i q u e s . T o u n d e r s c o r e t h e
i m p o r t a n c e o f t h i s f i n d i n g , w e i n c l u d e a s u r v e y o f m e t h o d s w h i c h u s e i m a g e
s y n t h e s i s , t o t a l i n g 1 2 7 p a p e r s o v e r t h e l a s t s i x y e a r s . T h i s o b s e r v e d
d i v e r g e n c e h a s n o t b e e n p r e v i o u s l y r e p o r t e d o r s t u d i e d i n d e p t h , s u g g e s t i n g
r o o m f o r f u t u r e i m p r o v e m e n t o f s e l f – s u p e r v i s e d a p p r o a c h e s w h i c h m i g h t b e
i m p a c t e d t h e f i n d i n g .

Single-stage Keypoint-based Category-level Object Pose Estimation from an RGB Image

P r i o r w o r k o n 6 – D o F o b j e c t p o s e e s t i m a t i o n h a s l a r g e l y f o c u s e d o n
i n s t a n c e – l e v e l p r o c e s s i n g , i n w h i c h a t e x t u r e d C A D m o d e l i s a v a i l a b l e f o r e a c h
o b j e c t b e i n g d e t e c t e d . C a t e g o r y – l e v e l 6 – D o F p o s e e s t i m a t i o n r e p r e s e n t s a n
i m p o r t a n t s t e p t o w a r d d e v e l o p i n g r o b o t i c v i s i o n s y s t e m s t h a t o p e r a t e i n
u n s t r u c t u r e d , r e a l – w o r l d s c e n a r i o s . I n t h i s w o r k , w e p r o p o s e a s i n g l e – s t a g e ,
k e y p o i n t – b a s e d a p p r o a c h f o r c a t e g o r y – l e v e l o b j e c t p o s e e s t i m a t i o n t h a t o p e r a t e s
o n u n k n o w n o b j e c t i n s t a n c e s w i t h i n a k n o w n c a t e g o r y u s i n g a s i n g l e R G B i m a g e a s
i n p u t . T h e p r o p o s e d n e t w o r k p e r f o r m s 2 D o b j e c t d e t e c t i o n , d e t e c t s 2 D k e y p o i n t s ,
e s t i m a t e s 6 – D o F p o s e , a n d r e g r e s s e s r e l a t i v e b o u n d i n g c u b o i d d i m e n s i o n s . T h e s e
q u a n t i t i e s a r e e s t i m a t e d i n a s e q u e n t i a l f a s h i o n , l e v e r a g i n g t h e r e c e n t i d e a o f
c o n v G R U f o r p r o p a g a t i n g i n f o r m a t i o n f r o m e a s i e r t a s k s t o t h o s e t h a t a r e m o r e
d i f f i c u l t . W e f a v o r s i m p l i c i t y i n o u r d e s i g n c h o i c e s : g e n e r i c c u b o i d v e r t e x
c o o r d i n a t e s , s i n g l e – s t a g e n e t w o r k , a n d m o n o c u l a r R G B i n p u t . W e c o n d u c t
e x t e n s i v e e x p e r i m e n t s o n t h e c h a l l e n g i n g O b j e c t r o n b e n c h m a r k , o u t p e r f o r m i n g
s t a t e – o f – t h e – a r t m e t h o d s o n t h e 3 D I o U m e t r i c ( 2 7 . 6 % h i g h e r t h a n t h e M o b i l e P o s e
s i n g l e – s t a g e a p p r o a c h a n d 7 . 1 % h i g h e r t h a n t h e r e l a t e d t w o – s t a g e a p p r o a c h ) .

Image Shape Manipulation from a Single Augmented Training Sample

I n t h i s p a p e r , w e p r e s e n t D e e p S I M , a g e n e r a t i v e m o d e l f o r c o n d i t i o n a l i m a g e
m a n i p u l a t i o n b a s e d o n a s i n g l e i m a g e . W e f i n d t h a t e x t e n s i v e a u g m e n t a t i o n i s
k e y f o r e n a b l i n g s i n g l e i m a g e t r a i n i n g , a n d i n c o r p o r a t e t h e u s e o f
t h i n – p l a t e – s p l i n e ( T P S ) a s a n e f f e c t i v e a u g m e n t a t i o n . O u r n e t w o r k l e a r n s t o m a p
b e t w e e n a p r i m i t i v e r e p r e s e n t a t i o n o f t h e i m a g e t o t h e i m a g e i t s e l f . T h e c h o i c e
o f a p r i m i t i v e r e p r e s e n t a t i o n h a s a n i m p a c t o n t h e e a s e a n d e x p r e s s i v e n e s s o f
t h e m a n i p u l a t i o n s a n d c a n b e a u t o m a t i c ( e . g . e d g e s ) , m a n u a l ( e . g . s e g m e n t a t i o n )
o r h y b r i d s u c h a s e d g e s o n t o p o f s e g m e n t a t i o n s . A t m a n i p u l a t i o n t i m e , o u r
g e n e r a t o r a l l o w s f o r m a k i n g c o m p l e x i m a g e c h a n g e s b y m o d i f y i n g t h e p r i m i t i v e
i n p u t r e p r e s e n t a t i o n a n d m a p p i n g i t t h r o u g h t h e n e t w o r k . O u r m e t h o d i s s h o w n t o
a c h i e v e r e m a r k a b l e p e r f o r m a n c e o n i m a g e m a n i p u l a t i o n t a s k s .

DAFNe: A One-Stage Anchor-Free Deep Model for Oriented Object Detection

O b j e c t d e t e c t i o n i s a f u n d a m e n t a l t a s k i n c o m p u t e r v i s i o n . W h i l e a p p r o a c h e s
f o r a x i s – a l i g n e d b o u n d i n g b o x d e t e c t i o n h a v e m a d e s u b s t a n t i a l p r o g r e s s i n
r e c e n t y e a r s , t h e y p e r f o r m p o o r l y o n o r i e n t e d o b j e c t s w h i c h a r e c o m m o n i n
s e v e r a l r e a l – w o r l d s c e n a r i o s s u c h a s a e r i a l v i e w i m a g e r y a n d s e c u r i t y c a m e r a
f o o t a g e . I n t h e s e c a s e s , a l a r g e p a r t o f a p r e d i c t e d b o u n d i n g b o x w i l l ,
u n d e s i r a b l y , c o v e r n o n – o b j e c t r e l a t e d a r e a s . T h e r e f o r e , o r i e n t e d o b j e c t
d e t e c t i o n h a s e m e r g e d w i t h t h e a i m o f g e n e r a l i z i n g o b j e c t d e t e c t i o n t o
a r b i t r a r y o r i e n t a t i o n s . T h i s e n a b l e s a t i g h t e r f i t t o o r i e n t e d o b j e c t s , l e a d i n g
t o a b e t t e r s e p a r a t i o n o f b o u n d i n g b o x e s e s p e c i a l l y i n c a s e o f d e n s e o b j e c t
d i s t r i b u t i o n s . T h e v a s t m a j o r i t y o f t h e w o r k i n t h i s a r e a h a s f o c u s e d o n
c o m p l e x t w o – s t a g e a n c h o r – b a s e d a p p r o a c h e s . A n c h o r s a c t a s p r i o r s o n t h e
b o u n d i n g b o x s h a p e a n d r e q u i r e a t t e n t i v e h y p e r – p a r a m e t e r f i n e – t u n i n g o n a
p e r – d a t a s e t b a s i s , i n c r e a s e d m o d e l s i z e , a n d c o m e w i t h c o m p u t a t i o n a l o v e r h e a d .
I n t h i s w o r k , w e p r e s e n t D A F N e : A D e n s e o n e – s t a g e A n c h o r – F r e e d e e p N e t w o r k f o r
o r i e n t e d o b j e c t d e t e c t i o n . A s a o n e – s t a g e m o d e l , D A F N e p e r f o r m s p r e d i c t i o n s o n
a d e n s e g r i d o v e r t h e i n p u t i m a g e , b e i n g a r c h i t e c t u r a l l y s i m p l e r a n d f a s t e r , a s
w e l l a s e a s i e r t o o p t i m i z e t h a n i t s t w o – s t a g e c o u n t e r p a r t s . F u r t h e r m o r e , a s a n
a n c h o r – f r e e m o d e l , D A F N e r e d u c e s t h e p r e d i c t i o n c o m p l e x i t y b y r e f r a i n i n g f r o m
e m p l o y i n g b o u n d i n g b o x a n c h o r s . M o r e o v e r , w e i n t r o d u c e a n o r i e n t a t i o n – a w a r e
g e n e r a l i z a t i o n o f t h e c e n t e r – n e s s f u n c t i o n f o r a r b i t r a r i l y o r i e n t e d b o u n d i n g
b o x e s t o d o w n – w e i g h t l o w – q u a l i t y p r e d i c t i o n s a n d a c e n t e r – t o – c o r n e r b o u n d i n g
b o x p r e d i c t i o n s t r a t e g y t h a t i m p r o v e s o b j e c t l o c a l i z a t i o n p e r f o r m a n c e . D A F N e
i m p r o v e s t h e p r e d i c t i o n a c c u r a c y o v e r t h e p r e v i o u s b e s t o n e – s t a g e a n c h o r – f r e e
m o d e l r e s u l t s o n D O T A 1 . 0 b y 4 . 6 5 % m A P , s e t t i n g t h e n e w s t a t e – o f – t h e – a r t
r e s u l t s b y a c h i e v i n g 7 6 . 9 5 % m A P .

Can Language Models Encode Perceptual Structure Without Grounding? A Case Study in Color

P r e t r a i n e d l a n g u a g e m o d e l s h a v e b e e n s h o w n t o e n c o d e r e l a t i o n a l i n f o r m a t i o n ,
s u c h a s t h e r e l a t i o n s b e t w e e n e n t i t i e s o r c o n c e p t s i n k n o w l e d g e – b a s e s – –
( P a r i s , C a p i t a l , F r a n c e ) . H o w e v e r , s i m p l e r e l a t i o n s o f t h i s t y p e c a n o f t e n b e
r e c o v e r e d h e u r i s t i c a l l y a n d t h e e x t e n t t o w h i c h m o d e l s i m p l i c i t l y r e f l e c t
t o p o l o g i c a l s t r u c t u r e t h a t i s g r o u n d e d i n w o r l d , s u c h a s p e r c e p t u a l s t r u c t u r e ,
i s u n k n o w n . T o e x p l o r e t h i s q u e s t i o n , w e c o n d u c t a t h o r o u g h c a s e s t u d y o n
c o l o r . N a m e l y , w e e m p l o y a d a t a s e t o f m o n o l e x e m i c c o l o r t e r m s a n d c o l o r c h i p s
r e p r e s e n t e d i n C I E L A B , a c o l o r s p a c e w i t h a p e r c e p t u a l l y m e a n i n g f u l d i s t a n c e
m e t r i c .

Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering

V i s u a l q u e s t i o n a n s w e r i n g ( V Q A ) i s c h a l l e n g i n g n o t o n l y b e c a u s e t h e m o d e l h a s
t o h a n d l e m u l t i – m o d a l i n f o r m a t i o n , b u t a l s o b e c a u s e i t i s j u s t s o h a r d t o
c o l l e c t s u f f i c i e n t t r a i n i n g e x a m p l e s – – t h e r e a r e t o o m a n y q u e s t i o n s o n e c a n
a s k a b o u t a n i m a g e . A s a r e s u l t , a V Q A m o d e l t r a i n e d s o l e l y o n h u m a n – a n n o t a t e d
e x a m p l e s c o u l d e a s i l y o v e r – f i t s p e c i f i c q u e s t i o n s t y l e s o r i m a g e c o n t e n t s t h a t
a r e b e i n g a s k e d , l e a v i n g t h e m o d e l l a r g e l y i g n o r a n t a b o u t t h e s h e e r d i v e r s i t y
o f q u e s t i o n s . E x i s t i n g m e t h o d s a d d r e s s t h i s i s s u e p r i m a r i l y b y i n t r o d u c i n g a n
a u x i l i a r y t a s k s u c h a s v i s u a l g r o u n d i n g , c y c l e c o n s i s t e n c y , o r d e b i a s i n g . I n
t h i s p a p e r , w e t a k e a d r a s t i c a l l y d i f f e r e n t a p p r o a c h . W e f o u n d t h a t m a n y o f t h e
” u n k n o w n s ” t o t h e l e a r n e d V Q A m o d e l a r e i n d e e d ” k n o w n ” i n t h e d a t a s e t
i m p l i c i t l y . F o r i n s t a n c e , q u e s t i o n s a s k i n g a b o u t t h e s a m e o b j e c t i n d i f f e r e n t
i m a g e s a r e l i k e l y p a r a p h r a s e s ; t h e n u m b e r o f d e t e c t e d o r a n n o t a t e d o b j e c t s i n
a n i m a g e a l r e a d y p r o v i d e s t h e a n s w e r t o t h e ” h o w m a n y ” q u e s t i o n , e v e n i f t h e
q u e s t i o n h a s n o t b e e n a n n o t a t e d f o r t h a t i m a g e . B u i l d i n g u p o n t h e s e i n s i g h t s ,
w e p r e s e n t a s i m p l e d a t a a u g m e n t a t i o n p i p e l i n e S i m p l e A u g t o t u r n t h i s ” k n o w n ”
k n o w l e d g e i n t o t r a i n i n g e x a m p l e s f o r V Q A . W e s h o w t h a t t h e s e a u g m e n t e d e x a m p l e s
c a n n o t a b l y i m p r o v e t h e l e a r n e d V Q A m o d e l s ‘ p e r f o r m a n c e , n o t o n l y o n t h e V Q A – C P
d a t a s e t w i t h l a n g u a g e p r i o r s h i f t s b u t a l s o o n t h e V Q A v 2 d a t a s e t w i t h o u t s u c h
s h i f t s . O u r m e t h o d f u r t h e r o p e n s u p t h e d o o r t o l e v e r a g e w e a k l y – l a b e l e d o r
u n l a b e l e d i m a g e s i n a p r i n c i p l e d w a y t o e n h a n c e V Q A m o d e l s . O u r c o d e a n d d a t a
a r e p u b l i c l y a v a i l a b l e a t

Weakly Supervised Person Search with Region Siamese Networks

S u p e r v i s e d l e a r n i n g i s d o m i n a n t i n p e r s o n s e a r c h , b u t i t r e q u i r e s e l a b o r a t e
l a b e l i n g o f b o u n d i n g b o x e s a n d i d e n t i t i e s . L a r g e – s c a l e l a b e l e d t r a i n i n g d a t a i s
o f t e n d i f f i c u l t t o c o l l e c t , e s p e c i a l l y f o r p e r s o n i d e n t i t i e s . A n a t u r a l
q u e s t i o n i s w h e t h e r a g o o d p e r s o n s e a r c h m o d e l c a n b e t r a i n e d w i t h o u t t h e n e e d
o f i d e n t i t y s u p e r v i s i o n . I n t h i s p a p e r , w e p r e s e n t a w e a k l y s u p e r v i s e d s e t t i n g
w h e r e o n l y b o u n d i n g b o x a n n o t a t i o n s a r e a v a i l a b l e . B a s e d o n t h i s n e w s e t t i n g ,
w e p r o v i d e a n e f f e c t i v e b a s e l i n e m o d e l t e r m e d R e g i o n S i a m e s e N e t w o r k s
( R – S i a m N e t s ) . T o w a r d s l e a r n i n g u s e f u l r e p r e s e n t a t i o n s f o r r e c o g n i t i o n i n t h e
a b s e n c e o f i d e n t i t y l a b e l s , w e s u p e r v i s e t h e R – S i a m N e t w i t h i n s t a n c e – l e v e l
c o n s i s t e n c y l o s s a n d c l u s t e r – l e v e l c o n t r a s t i v e l o s s . F o r i n s t a n c e – l e v e l
c o n s i s t e n c y l e a r n i n g , t h e R – S i a m N e t i s c o n s t r a i n e d t o e x t r a c t c o n s i s t e n t
f e a t u r e s f r o m e a c h p e r s o n r e g i o n w i t h o r w i t h o u t o u t – o f – r e g i o n c o n t e x t . F o r
c l u s t e r – l e v e l c o n t r a s t i v e l e a r n i n g , w e e n f o r c e t h e a g g r e g a t i o n o f c l o s e s t
i n s t a n c e s a n d t h e s e p a r a t i o n o f d i s s i m i l a r o n e s i n f e a t u r e s p a c e . E x t e n s i v e
e x p e r i m e n t s v a l i d a t e t h e u t i l i t y o f o u r w e a k l y s u p e r v i s e d m e t h o d . O u r m o d e l
a c h i e v e s t h e r a n k – 1 o f 8 7 . 1 % a n d m A P o f 8 6 . 0 % o n C U H K – S Y S U b e n c h m a r k , w h i c h
s u r p a s s e s s e v e r a l f u l l y s u p e r v i s e d m e t h o d s , s u c h a s O I M a n d M G T S , b y a c l e a r
m a r g i n . M o r e p r o m i s i n g p e r f o r m a n c e c a n b e r e a c h e d b y i n c o r p o r a t i n g e x t r a
t r a i n i n g d a t a . W e h o p e t h i s w o r k c o u l d e n c o u r a g e t h e f u t u r e r e s e a r c h i n t h i s
f i e l d .

Single-stream CNN with Learnable Architecture for Multi-source Remote Sensing Data

I n t h i s p a p e r , w e p r o p o s e a n e f f i c i e n t a n d g e n e r a l i z a b l e f r a m e w o r k b a s e d o n
d e e p c o n v o l u t i o n a l n e u r a l n e t w o r k ( C N N ) f o r m u l t i – s o u r c e r e m o t e s e n s i n g d a t a
j o i n t c l a s s i f i c a t i o n . W h i l e r e c e n t m e t h o d s a r e m o s t l y b a s e d o n m u l t i – s t r e a m
a r c h i t e c t u r e s , w e u s e g r o u p c o n v o l u t i o n t o c o n s t r u c t e q u i v a l e n t n e t w o r k
a r c h i t e c t u r e s e f f i c i e n t l y w i t h i n a s i n g l e – s t r e a m n e t w o r k . W e f u r t h e r a d o p t a n d
i m p r o v e d y n a m i c g r o u p i n g c o n v o l u t i o n ( D G C o n v ) t o m a k e g r o u p c o n v o l u t i o n
h y p e r p a r a m e t e r s , a n d t h u s t h e o v e r a l l n e t w o r k a r c h i t e c t u r e , l e a r n a b l e d u r i n g
n e t w o r k t r a i n i n g . T h e p r o p o s e d m e t h o d t h e r e f o r e c a n t h e o r e t i c a l l y a d j u s t a n y
m o d e r n C N N m o d e l s t o a n y m u l t i – s o u r c e r e m o t e s e n s i n g d a t a s e t , a n d c a n
p o t e n t i a l l y a v o i d s u b – o p t i m a l s o l u t i o n s c a u s e d b y m a n u a l l y d e c i d e d a r c h i t e c t u r e
h y p e r p a r a m e t e r s . I n t h e e x p e r i m e n t s , t h e p r o p o s e d m e t h o d i s a p p l i e d t o R e s N e t
a n d U N e t , a n d t h e a d j u s t e d n e t w o r k s a r e v e r i f i e d o n t h r e e v e r y d i v e r s e
b e n c h m a r k d a t a s e t s ( i . e . , H o u s t o n 2 0 1 8 d a t a , B e r l i n d a t a , a n d M U U F L d a t a ) .
E x p e r i m e n t a l r e s u l t s d e m o n s t r a t e t h e e f f e c t i v e n e s s o f t h e p r o p o s e d
s i n g l e – s t r e a m C N N s , a n d i n p a r t i c u l a r R e s N e t 1 8 – D G C o n v i m p r o v e s t h e
s t a t e – o f – t h e – a r t c l a s s i f i c a t i o n o v e r a l l a c c u r a c y ( O A ) o n H S – S A R B e r l i n d a t a s e t
f r o m $ 6 2 . 2 3 \ % $ t o $ 6 8 . 2 1 \ % $ . I n t h e e x p e r i m e n t s w e h a v e t w o i n t e r e s t i n g
f i n d i n g s . F i r s t , u s i n g D G C o n v g e n e r a l l y r e d u c e s t e s t O A v a r i a n c e . S e c o n d ,
m u l t i – s t r e a m i s h a r m f u l t o m o d e l p e r f o r m a n c e i f i m p o s e d t o t h e f i r s t f e w
l a y e r s , b u t b e c o m e s b e n e f i c i a l i f a p p l i e d t o d e e p e r l a y e r s . A l t o g e t h e r , t h e
f i n d i n g s i m p l y t h a t m u l t i – s t r e a m a r c h i t e c t u r e , i n s t e a d o f b e i n g a s t r i c t l y
n e c e s s a r y c o m p o n e n t i n d e e p l e a r n i n g m o d e l s f o r m u l t i – s o u r c e r e m o t e s e n s i n g
d a t a , e s s e n t i a l l y p l a y s t h e r o l e o f m o d e l r e g u l a r i z e r . O u r c o d e i s p u b l i c l y
a v a i l a b l e a t

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/09/15/2021%e5%b9%b409%e6%9c%8815%e6%97%a5-arxiv-%e8%a7%86%e8%a7%89%e8%ae%ba%e6%96%87%e9%80%9f%e9%80%92/

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息