Intro.

최근 들어 General AI, Universal feature representation 등 여러 종류의 domain이나 task를 동시에 수행할 수 있는 방법론에 대한 관심이 증가하고 있습니다. 여러 domain을 동시에 수행하는 하나의 모델을 설계하는 방법론을 multi-domain leraning이라는 명칭으로 다양한 연구가 진행되고 있으며, image classification 분야에서는 visual decathlon [1] 데이터셋을 기점으로 해마다 뛰어난 연구결과들이 나오고 있습니다. 이러한 흐름은 지난 글에 자세히 소개를 드린 적이 있습니다.

그럼에도 불구하고, object detection과 같이 좀 더 복잡한 문제에 대해서는 multi-domain learning을 수행하려는 시도가 조금은 있었지만 활발하게 다루어지진 않았었습니다. 본 포스트에서 소개해드릴 논문 Towards Universal Object Detection by Domain Attention [2]은 이번 CVPR 2019에서 발표 될 예정이며 multi-domain object detection을 다루고 있습니다.

Previous work

앞서 말씀드린대로 multi-domain learning은 주로 visual decathlon dataset을 기반으로 한 image classification 문제를 다루고 있습니다. 해당 연구주제의 흐름을 조금 살펴보면

Universal representations: The missing link between faces, text, planktons, and cat breeds [3] 라는 논문에서는 multi-domain set을 하나의 universal network로 학습할 때, 중간 중간 위치한 batch normalization parameter를 domain-specific하게 학습시킬 경우 multi-domain learning 성능이 크게 향상됨을 보여주었습니다.

[20190425] Research seminar - Multi-domain learning with attention - Google Slides 2019-05-08 18-01-12

[20190425] Research seminar - Multi-domain learning with attention - Google Slides 2019-05-08 18-02-16.png

이러한 연구흐름의 연장선으로 Residual adapter [4, 5]라 불리는 논문들이 NIPS 2017, CVPR 2018에 나오면서 visual decathlon dataset에서의 state-of-the-art 성능을 보여주게 됩니다. Residual adapter은 앞서 소개드린 논문에서 batch normalization을 domain-specific하게 만드는 것에서 더 나아가 일부 convolution layer을 domain-specific하게 배치함으로써 성능을 향상시켰습니다.

1705.08045.pdf 2019-05-08 18-09-02

1803.10082.pdf 2019-05-08 18-09-30

하지만 위와 같은 연구흐름은 CNN based object detection 구조에서는 제대로 작동하기 힘들게 됩니다. Object detection 분야에서 가장 널리 사용되고 있는 Faster R-CNN [6] 이나 여러 방법론들의 경우 공통적으로 학습을 위한 mini-batch를 구성할 때 image의 개수가 1~2개 정도 밖에 되지 않기 때문에 mini-batch statistics에 의존하는 batch normalization을 학습하기가 어려워집니다. 이 문제를 회피하기 위해 대부분의 object detection 논문에서는 ImageNet 데이터셋에서 pre-trained한 classification용 모델의 파라미터를 가져와 initialization에 활용하고, batch normalization parameter들은 모두 freeze한 채로 fine-tuning을 수행합니다.

Domain-specific BN [3]이나 Residual adapter [4, 5]과 같은 방법들은 모두 domain-specific batch normalization parameter를 학습하는 부분이 성능 향상에 큰 비중을 차지하고 있으며 이 부분이 제대로 작동하지 않을 경우 성능이 크게 저하됨을 본 논문의 실험에서 확인할 수 있습니다. 따라서 object detection의 경우 batch normalization layer를 활용하지 않고도 적절히 multi-domain learning을 수행할 수 있는 adaptation 방법이 필요하게 됩니다. 이를 위한 방법으로 본 논문에서는 squeeze-and-excitation adapter (SE adapter)를 제안하고 있습니다.

SE Adapter

Squeeze-and-excitation Networks (SENet) [7] 이 국제적으로 유명한 image classification challenge인 ILSVRC 2017 classification 에서 1위 성능을 달성하면서 self-attention을 활용한 모델의 성능 향상이 가능함에 주목을 받게 되었고 여러 후속 연구들 또한 생겨났습니다. SENet은 self-attention의 일종으로 볼 수 있으며, feature map의 각 channel에 대해 0~1 사이의 값을 곱함으로써 channel-wise recalibration을 수행합니다.

[20190425] Research seminar - Multi-domain learning with attention - Google Slides 2019-05-09 16-56-49.png

본 논문에서는 SE module을 domain adaptation 용도로 활용하기에, SE adapter 라는 명칭을 사용하였으며 실제 작동원리는 SENet 논문과 동일하다고 보시면 됩니다. 만약 N개의 domain이 존재할 경우, N개의 SE adapter를 여러 개 활용한 구조를 SE adapter bank라고 명칭하였으며, 특정 domain에서는 지정된 특정 SE adapter를 사용하게 됩니다.

저자는 위처럼 SE block을 domain adaptation 용도로 활용하는데서 더 나아가, 특정 domain에 특정 SE adapter를 hard assign하는 대신 soft domain-assignment 방식을 최종적으로 제안합니다. 그 배경에는, 우리가 사전에 정의한 ‘domain’ 이라는 개념이 명확하게 정의될 수 없을수도 있고, 각각의 다른 domain 사이에서도 서로 공통적으로 나타나는 sub-domain이 존재하는 경우도 있음을 가정합니다.

1904.04402.pdf 2019-05-09 17-37-24

최종적으로 제안하는 구조는 위와 같습니다. 왼쪽과 오른쪽은 동일한 모듈을 다르게 표현 한 것입니다. 이 경우에는 데이터셋의 도메인 개수 N와 SE Adapter 개수 N’가 동일하지 않아도 작동할 수 있으며, N’을 임의로 가정한 latent domain 개수라고 볼 수도 있겠습니다. 각 SE adapter에서 나오는 channel-wise attention에 대해, 해당 Residual block에서 각 domain에 대해 얼마나 중요도를 할당할지에 대한 soft-attetion을 만들어준 뒤 matrix multiplication을 통해 최종 attention을 생성해냅니다.

Experiment

[20190425] Research seminar - Multi-domain learning with attention - Google Slides 2019-05-09 17-43-54

우선 Object detection dataset 5가지에 대해 multi-domain learning을 수행하였으며 위 표와 같이 하나의 단일 모델만으로도 5가지 domain set에 대해 성공적으로 학습을 할 수 있으며 더 나아가서는 성능 또한 해당 도메인 데이터로만 학습 한 경우보다 더 높게 나타남을 확인할 수 있습니다.

[20190425] Research seminar - Multi-domain learning with attention - Google Slides 2019-05-09 17-47-46.png

[20190425] Research seminar - Multi-domain learning with attention - Google Slides 2019-05-09 17-44-40

위와 마찬가지로, Object detection dataset에 대해 이번엔 총 11가지의 다른 domain set에 대해 학습을 진행하였고 역시나 성공적으로 높은 성능을 달성할 수 있습니다. 더 놀라운 사실은, 11가지 domain에 대해 latent domain 개수를 6개로 가정하고 학습을 진행했을 경우에도 거의 비슷한 성능을 확보할 수 있습니다. 이 경우엔 총 사용된 파라미터의 개수가 기존 single모델 대비 약 1.3배 정도밖에 되지 않으니 파라미터 대비 굉장히 높은 성능이라고 볼 수 있습니다.

[20190425] Research seminar - Multi-domain learning with attention - Google Slides 2019-05-09 17-44-54

latent domain 개수를 몇 개로 설정하느냐는 또 다른 hyperparameter가 되며, 해당 개수에 따른 성능 변화를 검증한 실험도 진행하였습니다. latent domain 개수가 늘어남에 따라 파라미터의 수도 늘어나게 되는 단점이 있지만, 이와 동시에 최종 성능 또한 지속적으로 증가하는 현상을 볼 수 있습니다.

Conclusion

본 논문에서는 multi-domain learning을 위한 새로운 방법론으로 self-attention을 domain adaptation 용도로 작동하도록 학습하는 방식을 제안하였으며, baseline 대비 높은 성능을 보여줌을 확인할 수 있었습니다. Object detection 이라는 굉장히 structured된 난이도 높은 task에서 안정적으로 작동함을 보여주었습니다.

References

[1] Visual decathlon. https://www.robots.ox.ac.uk/~vgg/decathlon/
[2] X. Wang et al. Towards Universal Object Detection by Domain Attention. CVPR 2019.
[3] H. Bilen et al. Universal representations: The missing link between faces, text, planktons, and cat breeds. arXiv’17.
[4] SA. Rebuffi et al. 
Learning multiple visual domains with residual adapters. NIPS 2017.
[5] SA. Rebuffi et al. Efficient parametrization of multi-domain deep neural networks. CVPR 2018.
[6] S. Ren et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. NIPS 2015.
[7] J. Hu et al. Squeeze-and-excitation Networks. CVPR 2018.

Posted by:Byungjae Lee

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s