1. 磐创AI首页
  2. arxiv

2021年09月16日 arxiv 视觉论文速递

One-Class Meta-Learning: Towards Generalizable Few-Shot Open-Set Classification

R e a l – w o r l d c l a s s i f i c a t i o n t a s k s a r e f r e q u e n t l y r e q u i r e d t o w o r k i n a n
o p e n – s e t s e t t i n g . T h i s i s e s p e c i a l l y c h a l l e n g i n g f o r f e w – s h o t l e a r n i n g p r o b l e m s
d u e t o t h e s m a l l s a m p l e s i z e f o r e a c h k n o w n c a t e g o r y , w h i c h p r e v e n t s e x i s t i n g
o p e n – s e t m e t h o d s f r o m w o r k i n g e f f e c t i v e l y ; h o w e v e r , m o s t m u l t i c l a s s f e w – s h o t
m e t h o d s a r e l i m i t e d t o c l o s e d – s e t s c e n a r i o s . I n t h i s w o r k , w e a d d r e s s t h e
p r o b l e m o f f e w – s h o t o p e n – s e t c l a s s i f i c a t i o n b y f i r s t p r o p o s i n g m e t h o d s f o r
f e w – s h o t o n e – c l a s s c l a s s i f i c a t i o n a n d t h e n e x t e n d i n g t h e m t o f e w – s h o t
m u l t i c l a s s o p e n – s e t c l a s s i f i c a t i o n . W e i n t r o d u c e t w o i n d e p e n d e n t f e w – s h o t
o n e – c l a s s c l a s s i f i c a t i o n m e t h o d s : M e t a B i n a r y C r o s s – E n t r o p y ( M e t a – B C E ) , w h i c h
l e a r n s a s e p a r a t e f e a t u r e r e p r e s e n t a t i o n f o r o n e – c l a s s c l a s s i f i c a t i o n , a n d
O n e – C l a s s M e t a – L e a r n i n g ( O C M L ) , w h i c h l e a r n s t o g e n e r a t e o n e – c l a s s c l a s s i f i e r s
g i v e n s t a n d a r d m u l t i c l a s s f e a t u r e r e p r e s e n t a t i o n . B o t h m e t h o d s c a n a u g m e n t a n y
e x i s t i n g f e w – s h o t l e a r n i n g m e t h o d w i t h o u t r e q u i r i n g r e t r a i n i n g t o w o r k i n a
f e w – s h o t m u l t i c l a s s o p e n – s e t s e t t i n g w i t h o u t d e g r a d i n g i t s c l o s e d – s e t
p e r f o r m a n c e . W e d e m o n s t r a t e t h e b e n e f i t s a n d d r a w b a c k s o f b o t h m e t h o d s i n
d i f f e r e n t p r o b l e m s e t t i n g s a n d e v a l u a t e t h e m o n t h r e e s t a n d a r d b e n c h m a r k
d a t a s e t s , m i n i I m a g e N e t , t i e r e d I m a g e N e t , a n d C a l t e c h – U C S D – B i r d s – 2 0 0 – 2 0 1 1 , w h e r e
t h e y s u r p a s s t h e s t a t e – o f – t h e – a r t m e t h o d s i n t h e f e w – s h o t m u l t i c l a s s o p e n – s e t
a n d f e w – s h o t o n e – c l a s s t a s k s .

A Deep Learning Approach for Masking Fetal Gender in Ultrasound Images

U l t r a s o u n d ( U S ) i m a g i n g i s h i g h l y e f f e c t i v e w i t h r e g a r d s t o b o t h c o s t a n d
v e r s a t i l i t y i n r e a l – t i m e d i a g n o s i s ; h o w e v e r , d e t e r m i n a t i o n o f f e t a l g e n d e r b y
U S s c a n i n t h e e a r l y s t a g e s o f p r e g n a n c y i s a l s o a c a u s e o f s e x – s e l e c t i v e
a b o r t i o n . T h i s w o r k p r o p o s e s a d e e p l e a r n i n g o b j e c t d e t e c t i o n a p p r o a c h t o
a c c u r a t e l y m a s k f e t a l g e n d e r i n U S i m a g e s i n o r d e r t o i n c r e a s e t h e
a c c e s s i b i l i t y o f t h e t e c h n o l o g y . W e d e m o n s t r a t e h o w t h e Y O L O v 5 L a r c h i t e c t u r e
e x h i b i t s s u p e r i o r p e r f o r m a n c e r e l a t i v e t o o t h e r o b j e c t d e t e c t i o n m o d e l s o n t h i s
t a s k . O u r m o d e l a c h i e v e s 4 5 . 8 % A P [ 0 . 5 : 0 . 9 5 ] , 9 2 % F 1 – s c o r e a n d 0 . 0 0 6 F a l s e
P o s i t i v e P e r I m a g e r a t e o n o u r t e s t s e t . F u r t h e r m o r e , w e i n t r o d u c e a b o u n d i n g
b o x d e l a y r u l e b a s e d o n f r a m e – t o – f r a m e s t r u c t u r a l s i m i l a r i t y t o r e d u c e t h e
f a l s e n e g a t i v e r a t e b y 8 5 % , f u r t h e r i m p r o v i n g m a s k i n g r e l i a b i l i t y .

MotionHint: Self-Supervised Monocular Visual Odometrywith Motion Constraints

W e p r e s e n t a n o v e l s e l f – s u p e r v i s e d a l g o r i t h m n a m e d M o t i o n H i n t f o r m o n o c u l a r
v i s u a l o d o m e t r y ( V O ) t h a t t a k e s m o t i o n c o n s t r a i n t s i n t o a c c o u n t . A k e y a s p e c t
o f o u r a p p r o a c h i s t o u s e a n a p p r o p r i a t e m o t i o n m o d e l t h a t c a n h e l p e x i s t i n g
s e l f – s u p e r v i s e d m o n o c u l a r V O ( S S M – V O ) a l g o r i t h m s t o o v e r c o m e i s s u e s r e l a t e d t o
t h e l o c a l m i n i m a w i t h i n t h e i r s e l f – s u p e r v i s e d l o s s f u n c t i o n s . T h e m o t i o n m o d e l
i s e x p r e s s e d w i t h a n e u r a l n e t w o r k n a m e d P P n e t . I t i s t r a i n e d t o c o a r s e l y
p r e d i c t t h e n e x t p o s e o f t h e c a m e r a a n d t h e u n c e r t a i n t y o f t h i s p r e d i c t i o n . O u r
s e l f – s u p e r v i s e d a p p r o a c h c o m b i n e s t h e o r i g i n a l l o s s a n d t h e m o t i o n l o s s , w h i c h
i s t h e w e i g h t e d d i f f e r e n c e b e t w e e n t h e p r e d i c t i o n a n d t h e g e n e r a t e d e g o – m o t i o n .
T a k i n g t w o e x i s t i n g S S M – V O s y s t e m s a s o u r b a s e l i n e , w e e v a l u a t e o u r M o t i o n H i n t
a l g o r i t h m o n t h e s t a n d a r d K I T T I a n d E u R o C b e n c h m a r k . E x p e r i m e n t a l r e s u l t s s h o w
t h a t o u r M o t i o n H i n t a l g o r i t h m c a n b e e a s i l y a p p l i e d t o e x i s t i n g o p e n – s o u r c e
s t a t e – o f – t h e – a r t S S M – V O s y s t e m s t o g r e a t l y i m p r o v e t h e p e r f o r m a n c e o n K I T T I
d a t a s e t b y r e d u c i n g t h e r e s u l t i n g A T E b y u p t o 2 8 . 7 3 % . F o r E u R o c d a t a s e t , o u r
m e t h o d c a n e x t r a c t t h e m o t i o n m o d e l . B u t d u e t o t h e p o o r p e r f o r m a n c e o f t h e
b a s e l i n e m e t h o d s , M o t i o n H i n t c a n n o t s i g n i f i c a n t l y i m p r o v e t h e i r r e s u l t s .

LRWR: Large-Scale Benchmark for Lip Reading in Russian language

L i p r e a d i n g , a l s o k n o w n a s v i s u a l s p e e c h r e c o g n i t i o n , a i m s t o i d e n t i f y t h e
s p e e c h c o n t e n t f r o m v i d e o s b y a n a l y z i n g t h e v i s u a l d e f o r m a t i o n s o f l i p s a n d
n e a r b y a r e a s . O n e o f t h e s i g n i f i c a n t o b s t a c l e s f o r r e s e a r c h i n t h i s f i e l d i s
t h e l a c k o f p r o p e r d a t a s e t s f o r a w i d e v a r i e t y o f l a n g u a g e s : s o f a r , t h e s e
m e t h o d s h a v e b e e n f o c u s e d o n l y o n E n g l i s h o r C h i n e s e . I n t h i s p a p e r , w e
i n t r o d u c e a n a t u r a l l y d i s t r i b u t e d l a r g e – s c a l e b e n c h m a r k f o r l i p r e a d i n g i n
R u s s i a n l a n g u a g e , n a m e d L R W R , w h i c h c o n t a i n s 2 3 5 c l a s s e s a n d 1 3 5 s p e a k e r s . W e
p r o v i d e a d e t a i l e d d e s c r i p t i o n o f t h e d a t a s e t c o l l e c t i o n p i p e l i n e a n d d a t a s e t
s t a t i s t i c s . W e a l s o p r e s e n t a c o m p r e h e n s i v e c o m p a r i s o n o f t h e c u r r e n t p o p u l a r
l i p r e a d i n g m e t h o d s o n L R W R a n d c o n d u c t a d e t a i l e d a n a l y s i s o f t h e i r
p e r f o r m a n c e . T h e r e s u l t s d e m o n s t r a t e t h e d i f f e r e n c e s b e t w e e n t h e b e n c h m a r k e d
l a n g u a g e s a n d p r o v i d e s e v e r a l p r o m i s i n g d i r e c t i o n s f o r l i p r e a d i n g m o d e l s
f i n e t u n i n g . T h a n k s t o o u r f i n d i n g s , w e a l s o a c h i e v e d n e w s t a t e – o f – t h e – a r t
r e s u l t s o n t h e L R W b e n c h m a r k .

Luminance Attentive Networks for HDR Image and Panorama Reconstruction

I t i s v e r y c h a l l e n g i n g t o r e c o n s t r u c t a h i g h d y n a m i c r a n g e ( H D R ) f r o m a l o w
d y n a m i c r a n g e ( L D R ) i m a g e a s a n i l l – p o s e d p r o b l e m . T h i s p a p e r p r o p o s e s a
l u m i n a n c e a t t e n t i v e n e t w o r k n a m e d L A N e t f o r H D R r e c o n s t r u c t i o n f r o m a s i n g l e
L D R i m a g e . O u r m e t h o d i s b a s e d o n t w o f u n d a m e n t a l o b s e r v a t i o n s : ( 1 ) H D R i m a g e s
s t o r e d i n r e l a t i v e l u m i n a n c e a r e s c a l e – i n v a r i a n t , w h i c h m e a n s t h e H D R i m a g e s
w i l l h o l d t h e s a m e i n f o r m a t i o n w h e n m u l t i p l i e d b y a n y p o s i t i v e r e a l n u m b e r .
B a s e d o n t h i s o b s e r v a t i o n , w e p r o p o s e a n o v e l n o r m a l i z a t i o n m e t h o d c a l l e d ” H D R
c a l i b r a t i o n ” f o r H D R i m a g e s s t o r e d i n r e l a t i v e l u m i n a n c e , c a l i b r a t i n g H D R
i m a g e s i n t o a s i m i l a r l u m i n a n c e s c a l e a c c o r d i n g t o t h e L D R i m a g e s . ( 2 ) T h e m a i n
d i f f e r e n c e b e t w e e n H D R i m a g e s a n d L D R i m a g e s i s i n u n d e r – / o v e r – e x p o s e d a r e a s ,
e s p e c i a l l y t h o s e h i g h l i g h t e d . F o l l o w i n g t h i s o b s e r v a t i o n , w e p r o p o s e a
l u m i n a n c e a t t e n t i o n m o d u l e w i t h a t w o – s t r e a m s t r u c t u r e f o r L A N e t t o p a y m o r e
a t t e n t i o n t o t h e u n d e r – / o v e r – e x p o s e d a r e a s . I n a d d i t i o n , w e p r o p o s e a n e x t e n d e d
n e t w o r k c a l l e d p a n o L A N e t f o r H D R p a n o r a m a r e c o n s t r u c t i o n f r o m a n L D R p a n o r a m a
a n d b u i l d a d u a l n e t s t r u c t u r e f o r p a n o L A N e t t o s o l v e t h e d i s t o r t i o n p r o b l e m
c a u s e d b y t h e e q u i r e c t a n g u l a r p a n o r a m a . E x t e n s i v e e x p e r i m e n t s s h o w t h a t o u r
p r o p o s e d a p p r o a c h L A N e t c a n r e c o n s t r u c t v i s u a l l y c o n v i n c i n g H D R i m a g e s a n d
d e m o n s t r a t e i t s s u p e r i o r i t y o v e r s t a t e – o f – t h e – a r t a p p r o a c h e s i n t e r m s o f a l l
m e t r i c s i n i n v e r s e t o n e m a p p i n g . T h e i m a g e – b a s e d l i g h t i n g a p p l i c a t i o n w i t h o u r
p r o p o s e d p a n o L A N e t a l s o d e m o n s t r a t e s t h a t o u r m e t h o d c a n s i m u l a t e n a t u r a l s c e n e
l i g h t i n g u s i n g o n l y L D R p a n o r a m a . O u r s o u r c e c o d e i s a v a i l a b l e a t

High-Resolution Image Harmonization via Collaborative Dual Transformations

G i v e n a c o m p o s i t e i m a g e , i m a g e h a r m o n i z a t i o n a i m s t o a d j u s t t h e f o r e g r o u n d t o
m a k e i t c o m p a t i b l e w i t h t h e b a c k g r o u n d . H i g h – r e s o l u t i o n i m a g e h a r m o n i z a t i o n i s
i n h i g h d e m a n d , b u t s t i l l r e m a i n s u n e x p l o r e d . C o n v e n t i o n a l i m a g e h a r m o n i z a t i o n
m e t h o d s l e a r n g l o b a l R G B – t o – R G B t r a n s f o r m a t i o n w h i c h c o u l d e f f o r t l e s s l y s c a l e
t o h i g h r e s o l u t i o n , b u t i g n o r e d i v e r s e l o c a l c o n t e x t . R e c e n t d e e p l e a r n i n g
m e t h o d s l e a r n t h e d e n s e p i x e l – t o – p i x e l t r a n s f o r m a t i o n w h i c h c o u l d g e n e r a t e
h a r m o n i o u s o u t p u t s , b u t a r e h i g h l y c o n s t r a i n e d i n l o w r e s o l u t i o n . I n t h i s w o r k ,
w e p r o p o s e a h i g h – r e s o l u t i o n i m a g e h a r m o n i z a t i o n n e t w o r k w i t h C o l l a b o r a t i v e
D u a l T r a n s f o r m a t i o n ( C D T N e t ) t o c o m b i n e p i x e l – t o – p i x e l t r a n s f o r m a t i o n a n d
R G B – t o – R G B t r a n s f o r m a t i o n c o h e r e n t l y i n a n e n d – t o – e n d f r a m e w o r k . O u r C D T N e t
c o n s i s t s o f a l o w – r e s o l u t i o n g e n e r a t o r f o r p i x e l – t o – p i x e l t r a n s f o r m a t i o n , a
c o l o r m a p p i n g m o d u l e f o r R G B – t o – R G B t r a n s f o r m a t i o n , a n d a r e f i n e m e n t m o d u l e t o
t a k e a d v a n t a g e o f b o t h . E x t e n s i v e e x p e r i m e n t s o n h i g h – r e s o l u t i o n i m a g e
h a r m o n i z a t i o n d a t a s e t d e m o n s t r a t e t h a t o u r C D T N e t s t r i k e s a g o o d b a l a n c e
b e t w e e n e f f i c i e n c y a n d e f f e c t i v e n e s s .

An Insect-Inspired Randomly, Weighted Neural Network with Random Fourier Features For Neuro-Symbolic Relational Learning

I n s e c t s , s u c h a s f r u i t f l i e s a n d h o n e y b e e s , c a n s o l v e s i m p l e a s s o c i a t i v e
l e a r n i n g t a s k s a n d l e a r n a b s t r a c t c o n c e p t s s u c h a s ” s a m e n e s s ” a n d ” d i f f e r e n c e ” ,
w h i c h i s v i e w e d a s a h i g h e r – o r d e r c o g n i t i v e f u n c t i o n a n d t y p i c a l l y t h o u g h t t o
d e p e n d o n t o p – d o w n n e o c o r t i c a l p r o c e s s i n g . E m p i r i c a l r e s e a r c h w i t h f r u i t f l i e s
s t r o n g l y s u p p o r t s t h a t a r a n d o m i z e d r e p r e s e n t a t i o n a l a r c h i t e c t u r e i s u s e d i n
o l f a c t o r y p r o c e s s i n g i n i n s e c t b r a i n s . B a s e d o n t h e s e r e s u l t s , w e p r o p o s e a
R a n d o m l y W e i g h t e d F e a t u r e N e t w o r k ( R W F N ) t h a t i n c o r p o r a t e s r a n d o m l y d r a w n ,
u n t r a i n e d w e i g h t s i n a n e n c o d e r t h a t u s e s a n a d a p t e d l i n e a r m o d e l a s a d e c o d e r .
T h e r a n d o m i z e d p r o j e c t i o n s b e t w e e n i n p u t n e u r o n s a n d h i g h e r – o r d e r p r o c e s s i n g
c e n t e r s i n t h e i n p u t b r a i n i s m i m i c k e d i n R W F N b y a s i n g l e – h i d d e n – l a y e r n e u r a l
n e t w o r k t h a t s p e c i a l l y s t r u c t u r e s l a t e n t r e p r e s e n t a t i o n s i n t h e h i d d e n l a y e r
u s i n g r a n d o m F o u r i e r f e a t u r e s t h a t b e t t e r r e p r e s e n t c o m p l e x r e l a t i o n s h i p s
b e t w e e n i n p u t s u s i n g k e r n e l a p p r o x i m a t i o n . B e c a u s e o f t h i s s p e c i a l
r e p r e s e n t a t i o n , R W F N s c a n e f f e c t i v e l y l e a r n t h e d e g r e e o f r e l a t i o n s h i p a m o n g
i n p u t s b y t r a i n i n g o n l y a l i n e a r d e c o d e r m o d e l . W e c o m p a r e t h e p e r f o r m a n c e o f
R W F N s t o L T N s f o r S e m a n t i c I m a g e I n t e r p r e t a t i o n ( S I I ) t a s k s t h a t h a v e b e e n u s e d
a s a r e p r e s e n t a t i v e e x a m p l e o f h o w L T N s u t i l i z e r e a s o n i n g o v e r f i r s t – o r d e r
l o g i c t o s u r p a s s t h e p e r f o r m a n c e o f s o l e l y d a t a – d r i v e n m e t h o d s . W e d e m o n s t r a t e
t h a t c o m p a r e d t o L T N s , R W F N s c a n a c h i e v e b e t t e r o r s i m i l a r p e r f o r m a n c e f o r b o t h
o b j e c t c l a s s i f i c a t i o n a n d d e t e c t i o n o f t h e p a r t – o f r e l a t i o n s b e t w e e n o b j e c t s i n
S I I t a s k s w h i l e u s i n g m u c h f a r f e w e r l e a r n a b l e p a r a m e t e r s ( 1 : 6 2 r a t i o ) a n d a
f a s t e r l e a r n i n g p r o c e s s ( 1 : 2 r a t i o o f r u n n i n g s p e e d ) . F u r t h e r m o r e , w e s h o w t h a t
b e c a u s e t h e r a n d o m i z e d w e i g h t s d o n o t d e p e n d o n t h e d a t a , s e v e r a l d e c o d e r s c a n
s h a r e a s i n g l e r a n d o m i z e d e n c o d e r , g i v i n g R W F N s a u n i q u e e c o n o m y o f s p a t i a l
s c a l e f o r s i m u l t a n e o u s c l a s s i f i c a t i o n t a s k s .

Identifying partial mouse brain microscopy images from Allen reference atlas using a contrastively learned semantic space

P r e c i s e i d e n t i f i c a t i o n o f m o u s e b r a i n m i c r o s c o p y i m a g e s i s a c r u c i a l f i r s t
s t e p w h e n a n a t o m i c a l s t r u c t u r e s i n t h e m o u s e b r a i n a r e t o b e r e g i s t e r e d t o a
r e f e r e n c e a t l a s . P r a c t i t i o n e r s u s u a l l y r e l y o n m a n u a l c o m p a r i s o n o f i m a g e s o r
t o o l s t h a t a s s u m e t h e p r e s e n c e o f c o m p l e t e i m a g e s . T h i s w o r k e x p l o r e s S i a m e s e
N e t w o r k s a s t h e m e t h o d f o r f i n d i n g c o r r e s p o n d i n g 2 D r e f e r e n c e a t l a s p l a t e s f o r
g i v e n p a r t i a l 2 D m o u s e b r a i n i m a g e s . S i a m e s e n e t w o r k s a r e a c l a s s o f
c o n v o l u t i o n a l n e u r a l n e t w o r k s ( C N N s ) t h a t u s e w e i g h t – s h a r e d p a t h s t o o b t a i n l o w
d i m e n s i o n a l e m b e d d i n g s o f p a i r s o f i n p u t i m a g e s . T h e c o r r e s p o n d e n c e b e t w e e n t h e
p a r t i a l m o u s e b r a i n i m a g e a n d r e f e r e n c e a t l a s p l a t e i s d e t e r m i n e d b a s e d o n t h e
d i s t a n c e b e t w e e n l o w d i m e n s i o n a l e m b e d d i n g s o f b r a i n s l i c e s a n d a t l a s p l a t e s
t h a t a r e o b t a i n e d f r o m S i a m e s e n e t w o r k s u s i n g c o n t r a s t i v e l e a r n i n g . E x p e r i m e n t s
s h o w e d t h a t S i a m e s e C N N s c a n p r e c i s e l y i d e n t i f y b r a i n s l i c e s u s i n g t h e A l l e n
m o u s e b r a i n a t l a s w h e n t r a i n i n g a n d t e s t i n g i m a g e s c o m e f r o m t h e s a m e s o u r c e .
T h e y a c h i e v e d T O P – 1 a n d T O P – 5 a c c u r a c y o f 2 5 % a n d 1 0 0 % , r e s p e c t i v e l y , t a k i n g
o n l y 7 . 2 s e c o n d s t o i d e n t i f y 2 9 i m a g e s .

Domain Adaptation by Maximizing Population Correlation with Neural Architecture Search

I n D o m a i n A d a p t a t i o n ( D A ) , w h e r e t h e f e a t u r e d i s t r i b u t i o n s o f t h e s o u r c e a n d
t a r g e t d o m a i n s a r e d i f f e r e n t , v a r i o u s d i s t a n c e – b a s e d m e t h o d s h a v e b e e n p r o p o s e d
t o m i n i m i z e t h e d i s c r e p a n c y b e t w e e n t h e s o u r c e a n d t a r g e t d o m a i n s t o h a n d l e t h e
d o m a i n s h i f t . I n t h i s p a p e r , w e p r o p o s e a n e w s i m i l a r i t y f u n c t i o n , w h i c h i s
c a l l e d P o p u l a t i o n C o r r e l a t i o n ( P C ) , t o m e a s u r e t h e d o m a i n d i s c r e p a n c y f o r D A .
B a s e o n t h e P C f u n c t i o n , w e p r o p o s e a n e w m e t h o d c a l l e d D o m a i n A d a p t a t i o n b y
M a x i m i z i n g P o p u l a t i o n C o r r e l a t i o n ( D A M P C ) t o l e a r n a d o m a i n – i n v a r i a n t f e a t u r e
r e p r e s e n t a t i o n f o r D A . M o r e o v e r , m o s t e x i s t i n g D A m e t h o d s u s e h a n d – c r a f t e d
b o t t l e n e c k n e t w o r k s , w h i c h m a y l i m i t t h e c a p a c i t y a n d f l e x i b i l i t y o f t h e
c o r r e s p o n d i n g m o d e l . T h e r e f o r e , w e f u r t h e r p r o p o s e a m e t h o d c a l l e d D A M P C w i t h
N e u r a l A r c h i t e c t u r e S e a r c h ( D A M P C – N A S ) t o s e a r c h t h e o p t i m a l n e t w o r k
a r c h i t e c t u r e f o r D A M P C . E x p e r i m e n t s o n s e v e r a l b e n c h m a r k d a t a s e t s , i n c l u d i n g
O f f i c e – 3 1 , O f f i c e – H o m e , a n d V i s D A – 2 0 1 7 , s h o w t h a t t h e p r o p o s e d D A M P C – N A S m e t h o d
a c h i e v e s b e t t e r r e s u l t s t h a n s t a t e – o f – t h e – a r t D A m e t h o d s .

CropDefender: deep watermark which is more convenient to train and more robust against cropping

D i g i t a l i m a g e w a t e r m a r k i n g , w h i c h i s a t e c h n i q u e f o r i n v i s i b l y e m b e d d i n g
i n f o r m a t i o n i n t o a n i m a g e , i s u s e d i n f i e l d s s u c h a s p r o p e r t y r i g h t s
p r o t e c t i o n . I n r e c e n t y e a r s , s o m e r e s e a r c h h a s p r o p o s e d t h e u s e o f n e u r a l
n e t w o r k s t o a d d w a t e r m a r k s t o n a t u r a l i m a g e s . W e t a k e S t e g a S t a m p a s a n e x a m p l e
f o r o u r r e s e a r c h . W h e t h e r f a c i n g t r a d i t i o n a l i m a g e e d i t i n g m e t h o d s , s u c h a s
b r i g h t n e s s , c o n t r a s t , s a t u r a t i o n a d j u s t m e n t , o r s t y l e c h a n g e l i k e 1 – b i t
c o n v e r s i o n , G A N , S t e g a S t a m p h a s r o b u s t n e s s f a r b e y o n d t r a d i t i o n a l w a t e r m a r k i n g
t e c h n i q u e s , b u t i t s t i l l h a s t w o d r a w b a c k s : i t i s v u l n e r a b l e t o c r o p p i n g a n d i s
h a r d t o t r a i n . W e f o u n d t h a t t h e c a u s e s o f v u l n e r a b i l i t y t o c r o p p i n g i s n o t t h e
l o s s o f i n f o r m a t i o n o n t h e e d g e , b u t t h e m o v e m e n t o f w a t e r m a r k p o s i t i o n . B y
e x p l i c i t l y i n t r o d u c i n g t h e p e r t u r b a t i o n o f c r o p p i n g i n t o t h e t r a i n i n g , t h e
c r o p p i n g r e s i s t a n c e i s s i g n i f i c a n t l y i m p r o v e d . F o r t h e p r o b l e m o f d i f f i c u l t
t r a i n i n g , w e i n t r o d u c e i n s t a n c e n o r m a l i z a t i o n t o s o l v e t h e v a n i s h i n g g r a d i e n t ,
s e t l o s s e s ‘ w e i g h t s a s l e a r n a b l e p a r a m e t e r s t o r e d u c e t h e n u m b e r o f
h y p e r p a r a m e t e r s , a n d u s e s i g m o i d t o r e s t r i c t p i x e l v a l u e s o f t h e g e n e r a t e d
i m a g e .

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/09/16/2021%e5%b9%b409%e6%9c%8816%e6%97%a5-arxiv-%e8%a7%86%e8%a7%89%e8%ae%ba%e6%96%87%e9%80%9f%e9%80%92/

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息