Introduction

유방암 환자의 예후를 예측하는 인자들 중 가장 중요하게 다루어지는 것 중 하나가 병기(stage) 입니다. 병기를 나누는 데 있어 가장 널리 사용되는 시스템은 American Cancer Society에서 발표한 TNM staging 시스템 [1]입니다.

tnm
TNM staging system. 출처

TNM staging 시스템은, 암을 종양의 크기 (T-stage), 림프절의 전이 정도 (N-stage), 그리고 타 기관으로의 전이 여부 (M-stage) 세 가지를 종합하여 병기를 분류합니다. 이 세 가지 중에서 가장 큰 영향력을 가진 요소는 바로 림프절의 전이 여부를 판단하는 N-stage 이며, 보통은 병리학자가 암 주변의 림프절로부터 채취한 조직을 현미경으로 보고 판단하게 됩니다.

scientist-1332343_1920
현미경을 이용한 검사

이러한 Pathological N-stage (pN-stage) 진단 과정은 여러 장의 조직을 고배율 현미경으로 전체적으로 보고 판단해야 하기 때문에 시간이 오래 걸리는 힘든 작업입니다. (디지털 현미경으로 고배율 스캔을 할 경우, 약 200,000 × 100,000 픽셀 정도 크기를 가지게 됩니다)

본 포스트에서는, 여러 장의 림프절 조직에서 전이된 영역을 검출하고, 이들을 종합하여 하나의 최종 결과인 pN-stage를 예측하는 딥러닝 기반의 프레임워크를 제안한 필자가 저자로 참여한 논문 [2]을 소개하려고 합니다. 논문의 결과부터 말씀드리면 pN-stage를 예측하는 대회인 CAMELYON17에서 1위 성능을 기록하였습니다.

Overall Framework

a
프레임워크의 전체 구조

CAMELYON17 데이터에서는 한 환자당 5장의 림프절 조직이 주어졌다고 가정하고 있으며, 5장의 조직을 분석 후 종합하여 해당 환자에 대한 pN-stage를 예측하는 것을 목표로 하고 있습니다.

본 논문에서는 각각의 조직(슬라이드)에 대해 아래와 같은 과정을 거쳐 해당 림프절의 전이 여부를 판단하게 됩니다.

  1. 관심영역(조직 영역) 추출
    슬라이드에서 조직에 해당하는 부분만을 추출하기 위해, whole slide image를 grayscale로 변환한 후, 특정 값을 기준으로 thresholding하여 조직 영역을 검출합니다.
  2. 전이영역 검출
    일정 크기의 patch에 대해 normal/tumor를 분류할 수 있는 Convolutional neural network (CNN)를 활용해 조직 영역 중 전이가 된 부분들을 검출합니다.
  3. 림프절 분류
    전이된 부분을 검출한 림프절 슬라이드에 대해, 여러 특징들을 추출해 낸 뒤 Random forest classifier를 활용해 림프절의 전이 상태 (Normal / ITC / Micro / Macro)를 분류합니다.

한 환자로부터 채취한 5개의 림프절에 대해 전이 상태를 모두 분류한 뒤, 이를 종합하여 해당 환자의 pN-stage를 아래와 같이 정할 수 있게 됩니다.

  • pN0: 모든 림프절 전이상태가 normal일 경우
  • pN0(i+): Micro와 macro 전이상태는 없지만, ITC 전이상태가 존재할 경우
  • pN1mi: Macro 전이상태는 없지만, Micro 전이상태가 존재할 경우
  • pN1: 1~3개의 전이된 림프절이 존재하면서, 적어도 1개 이상이 Macro 전이상태일 경우
  • pN2: 4~9개의 전이된 림프절이 존재하면서, 적어도 1개 이상이 Macro 전이상태일 경우

 

Metastasis Detection

CAMELYON17 - Background 2018-09-04 16-35-44
전이영역 검출 예시. 출처

제안한 전체 프레임워크 중, 가장 중요한 부분은 바로 조직에서 전이된 영역을 검출하는 부분입니다. CNN을 활용해 컴퓨터 비전 영역에서 많은 진보가 있었고, 본 논문에서도 이러한 CNN을 적극 활용하여 전이영역 검출을 수행합니다. 하지만 ImageNet과 같은 일반적인 이미지 분류 문제와 달리, 디지털 스캐너로 스캔한 병리 영상이라는 특성에서 오는 여러 문제들 때문에 높은 정확도를 얻기 어렵습니다. 해당 논문에서는 아래와 같은 문제들을 발견하고, 적절한 방법으로 해결함으로써 높은 성능을 달성할 수 있었습니다.

Balanced Patch Sampling

Slack - Lunit Inc. 2018-09-03 19-27-46
다양한 크기의 조직과 염색 색상을 지닌 조직 슬라이드. 출처

본 논문에서 적용한 CNN 모델의 학습 목표는 정상/전이 두 개의 클래스를 분류하는 것입니다. 이를 학습하기 위해선 정상 영역의 패치들과 전이영역의 패치들이 필요하게 되는데, 전이가 일어나지 않은 슬라이드에서는 정상 영역의 패치밖에 추출할 수 없으며, 전이가 존재하는 슬라이드일지라도 극히 일부분만 전이 영역인 경우가 대다수이기 때문에 전이영역의 패치는 적은 개수 밖에 추출할 수 없습니다.  이대로 학습을 진행할 경우, 클래스 간의 불균형이 심하기 때문에 제대로 된 성능을 낼 수 없게 됩니다.

또한, 일반적인 분류 문제와 달리, 슬라이드에서 조직 영역을 찾아내고, 그 중에서 정상/전이영역 패치를 추출하게 되는 본 문제에서는 슬라이드 간의 불균형 또한 발생하게 됩니다. 한 장의 슬라이드에서 추출한 여러장의 패치는 염색 정도, 스캐너의 입력값, 인접한 세포의 유사성 등으로 인해 비슷한 특성을 지니게 될 확률이 높습니다. 단순하게 슬라이드 조직 영역 내에서 패치를 추출할 경우, 각 슬라이드마다 조직의 크기가 다르기때문에 추출되는 패치의 개수가 다르게 되고, 최종적으로 슬라이드 간의 다양한 특성을 효율적으로 학습하지 못하게 됩니다.

슬라이드 불균형과 클래스 불균형 문제를 해결하기 위해 본 논문에서는 학습 단계에서 주어지는 학습 데이터는 아래의 샘플링 과정을 거쳐 추출하게 됩니다. 그 결과, 학습 모델의 입장에서는 정상/전이 두 클래스를 같은 개수로 입력 받음과 동시에 각 슬라이드에서 추출하는 패치의 개수 또한 어느정도 균형이 맞게 됩니다.

학습시 주어지는 각 example에 대해서,

  1. 정상/전이 패치 중 어느 것을 추출할 지 균일 분포(uniform distribution) 확률로 결정
  2. 선택된 클래스를 포함한 슬라이드 중 하나를 균일 분포 확률로 결정
  3. 선택된 슬라이드 내에 존재하는 선택된 클래스 패치들 중 하나를 균일 분포 확률로 결정

의 순서를 거쳐 샘플링을 수행하게 됩니다.

Patch Augmentation

슬라이드 한 장의 크기가 200,000 × 100,000 pixel 정도로 큰 크기를 지니지만, Camelyon17에서 학습에 활용할 수 있는 슬라이드의 개수는 총 900장 밖에 되지 않습니다. 한 장의 슬라이드로부터 추출한 패치들은 비슷한 특성을 지니기 때문에, 900장의 슬라이드에서 추출된 패치들로 CNN을 학습할 경우 과적합(overfitting) 문제에 취약할 수 있습니다. 이를 방지하기 위해 아래와 같은 augmentation을 수행하게 됩니다. 특히 조직 슬라이드는 어느 각도로 회전하더라도 지닌 특성 자체가 변하지 않기 때문에 360도 내에서 높은 자유도로 회전시켜 주는 augmentation을 통해 효과적인 변화를 줄 수 있습니다.

1805.12067.pdf 2018-09-03 18-41-36

Satin Color Augmentation

여기서 사용된 데이터들은 림프절로부터 채취한 조직에 H&E (hematoxylin & eosin) 염색을 거쳐 디지털 스캐너로 스캔하여 취득한 데이터들입니다. 이러한 염색과정은 병원기관마다 조금씩 차이가 있고, 염색하는 사람마다도 조금씩 차이가 있기 때문에 슬라이드 간 염색된 색상이 일정하지 않게 됩니다. 이러한 다변성을 해결하기 위해 일부 논문에서는 stain color normalization과 같이 특정 reference stain color를 설정한 뒤 여기에 맞게 normalization을 수행하기도 합니다.

반면, 본 논문에서는 color normalization 대신에 CNN 학습에서 자주 사용되는 data augmentation을 효율적으로 활용하여 stain color 또한 augmentation에 반영해 주었습니다. stain color가 변화할 수 있는 영역 대부분을 커버할 수 있는 큰 정도의 color augmentation을 수행하였습니다. 그 변화량은 아래와 같습니다.

1805.12067.pdf 2018-09-03 19-01-13

2-Stage Fine-Tuning

주어진 데이터가 여러 곳의 병원으로부터 획득하였는데, 각 병원마다 사용하는 스캐너 종류가 다르고 염색 방식 또한 차이가 있기 때문에 서로 다른 domain으로부터 취득된 데이터라고 볼 수 있습니다. 이처럼 여러 domain의 데이터로 CNN을 학습을 진행할 때 가장 단순하게 적용해 볼 수 있는 방법은 target domain에 fine-tuning을 진행하는 것입니다. 본 논문에서는 Camelyon16과 Camelyon17 두 데이터를 모두 사용해서 학습을 진행한 뒤, 학습 된 모델을 다시 한 번 target domain인 Camelyon17 데이터만을 단독으로 사용해 fine-tuning을 진행함으로써 domain mis-alignment 문제를 어느정도 해결하였습니다.

Result

1805.12067.pdf 2018-09-03 19-06-47

앞서 설명한 framework로 환자의 pN-stage를 분류하였을 경우, Camelyon17 test 데이터에서 정확도를 측정하는 지표로 사용하는 Kappa score 기준으로 0.9203을 보였으며, 이는 현재까지 제안된 모든 알고리즘들 중 가장 높은 정확도를 보여주고 있습니다.

1805.12067.pdf 2018-09-03 19-10-38.png

특히, 2순위의 알고리즘과 confusion matrix를 비교해 보면, 제안한 알고리즘이 보다 더 정확한 예측을 할 뿐만 아니라 false-negative (위 테이블의 붉은색 영역) 들이 상당히 많이 줄어듦을 확인할 수 있습니다. 이는 진단 관점에서 봤을 때, 암의 전이 여부를 놓치는 것은 적절한 시기의 치료법을 놓쳐 환자의 생존률에 치명적인 영향을 줄 수 있기 때문에 상당히 고무적인 결과라고 볼 수 있겠습니다.

Conclusion

본 논문에서는 견고하면서도 효과적으로 여러 장의 병리 슬라이드로부터 pN-stage를 예측하는 방법론을 제안하였습니다. 제안한 알고리즘은 해당 분야의 주요한 데이터셋인 Camelyon17에서 가장 높은 성능을 기록하였습니다. 병리 영상을 활용한 딥러닝 기반의 알고리즘 개발은 일반적인 데이터와 다른 특성으로부터 오는 여러 문제들을 효과적으로 해결해야 적절한 성능에 도달할 수 있다고 보여집니다.

 

[1] Sobin, L.H., Gospodarowicz, M.K., Wittekind, C.: TNM classification of malignant
tumours. John Wiley & Sons (2011)
[2] Lee, B., & Paeng, K.: A Robust and Effective Approach Towards Accurate Metastasis Detection and pN-stage Classification in Breast Cancer. MICCAI (2018)

Posted by:Byungjae Lee

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s