이 논문은 DeepMind 와 Moorfields hospital 이 공동으로 수행한 연구로 2018년 8월 Nature Medicine 에 실렸습니다. 안과에서 사용하는 3차원 영상장비인 OCT 의 영상 해석에는 많은 경험을 필요로 한다고 합니다. 하지만 전체 검사 수에 비해서 이를 잘 판독할 수 있는 의료진이 부족하기 때문에, 응급질환임에도 불구하고 진단 및 치료가 지연될 수  있습니다. 따라서 이 연구에서는 OCT 영상에서 응급 질환 여부를 전문가 수준으로 판단할 수 있는 딥러닝 모델을 개발함으로써, 응급질환의 환자들이 빠르게 진료를 받을 수 있도록 prioritization 을 시켜주는 것입니다. 이는 실제 임상에서 안과적 응급환자의 치료가 늦어지는 것을 막을 수 있는 유용한 application 으로 생각이 됩니다.

저자들은 이 문제를 푸는데 있어서 세가지 중요한 포인트를 언급하였는데, 첫번째는 학습에 사용되지 않은 population 또는 OCT device 에서 얻은 영상에서도 잘 작동해야하는 ‘generalization’ 문제입니다. 두번째는 실제 의료현장에서 유용하게 쓰일 수 있는 모델을 만들어야한다는 것이고, 마지막으로는 실제 의료현장에서 전문가들과 유사하거나 더 나은 성능을 보여야 한다는 점입니다.  그러면 저자들은 이 문제들을 어떻게 해결했는지, 논문의 순서대로 살펴보도록 하겠습니다.

이 연구에서는 OCT 영상에서 아래의 두가지를 예측하고자 했습니다.

  1. Referral suggestion: OCT 에서 응급한 질환이 있는지 여부를 4단계(urgent, semi-urgent, routine, observation only) 로 나누어서 맞추도록 학습합니다.
  2. Disease classification: 질병명 자체를 맞추도록 학습합니다.

의료 영역에서의 문제를 classification 으로 접근할때, 각 class 의 definition 을 엄밀히 정하기 어려운 경우들이 있습니다. 본 연구에서 응급한 정도나 질병명을 정의하는 과정을 비교적 자세히 기술하였으니, 관심이 있으신 분들은 논문을 참고하시면 좋겠습니다.

위 문제들을 풀기위해서 논문에서는 두개의 networks 를 제안했습니다.

  1. Segmentation: OCT 영상에서 tissue 를 segmentation 하는 network
  2. Classification: segmentation map 을 이용해 referral suggestion 과 disease 를 맞추는 classification network

두개의 networks 으로 나누어 모델링한 이유는, general한 모델을 효율적으로 구축하기 위함으로 요약할 수 있습니다. 이 논문에서의 generalization 문제는 크게 (1) 영상 장비의 차이에서 발생하는 technical variations 과 (2) 환자들 사이의 병변의 차이에서 발생하는 pathology variations 로 나누어 생각할 수 있는데, 저자들은 두개의 neural networks 에게 이 두가지 이슈를 구분해서 풀어주기를 바랬습니다. 첫번째 모델인 segmentation network 가 장비 차이에서 오는 문제에 robust 하면, 두번째 모델인 classification network 는 장비 차이에 대한 문제를 고려를 할 필요가 없다고 합니다. 이 가설이 성립하면, 각 장비별로 모든 classes 를 커버하는 data set 을 구할 필요가 없는 대신, 각 장비별로 segmentation label 만 구해서 첫번째 모델만 finetuning 시키면 되는 것입니다. Segmentation label 의 경우는 disease level 에서 이뤄지는 것이 아니라 tissue level 에서 이뤄지기 때문에, 데이터를 수집하는 과정이 더 수월할 것이며 각 장비별로 상대적으로 적은 수만 획득해도 학습에 큰 무리가 없을 수 있습니다.  (결과에서 언급이 된 내용이지만, 한개의 장비에서 얻은 데이터로 학습 및 평가를 하는 경우에는 두개의 networks 로 구분해서 학습시키는 것과 segmentation 과정없이 바로 영상으로 classification 시키는 것 사이의 성능 차이는 없었습니다.)

1

구체적 보면 segmentation 은 3D U-net을 이용해서 877명의 데이터로 총 15개의 tissue classes (anatomy, pathology, and artifact) 를 구분하도록 했습니다. Classification 아래 그림의 비교적 간단한 network 을 이용했으며, 총 4 단계 referral suggestion 예측을 위해 총 7621명의 14884 OCT 데이터를 학습에 이용했습니다.

제목 없음

성능 향상을 위해서 총 5개의 segmentation models 과 5개의 classification models 을 앙상블하여서 결과를 얻었습니다. 저자들은 5개의 모델을 이용한 근거로는 각각의 모델을 4개씩 사용했을때(5.697) 비해서 5개씩 사용했을때(5.517)의 error 감소 정도가 크지 않아서, 5개씩만 ensemble 해도 충분하다고 판단했다고 합니다.

3

 

Test data 의 label 은 OCT 데이터 외에도 fundus image 및 clinical note 의 정보를 이용해서, 최대한 정확한 진단결과를 이용하고자 하였습니다.  Referral suggestion  에 대한 ‘gold standard’ label 은 OCT 검사 뿐만 아니라 환자가 다양한 진료 process 를 거친 후 최종적으로 내려진 임상 진단을 바탕으로 했으며, Disease classification 에 대해서는 8명의 의사가 OCT + fundus image + clinical note 까지 리뷰한 후 내린 최종 진단들 중 다수결로 정하였으며, 이를 ‘silver standard’ 라고 명하였습니다.

Experts (의사)와 딥러닝의 performance 를 비교할때, experts 의 의견은 (1) OCT 영상만을 보고 판단한 결과(2) OCT+fundus image+clinical note 모두를 보고 판단한 결과를 각각 평가에 이용했습니다. 실제 의료 현장에서는 OCT 이외에도 여러 임상정보를 이용해 진단을 하기 때문에, real world 에서의 expert’s performance 를 반영해 validation 했다고 볼 수 있겠습니다.

 

Performances in ‘referral suggestion’

OCT 이미지에서 2개의 neural networks 을 거친 후, 최종적으로 얻은 referral suggestion 결과를 urgent (=임상적으로 가장 응급한 상태) class versus 나머지 3개의 classes 의 상태로 나누어 binary 문제로 설정해서 ROC 평가를 한 결과 (total error = 5.5%) 가 아래와 같습니다. 총 8명의 안과의사와 비교했을때, 딥러닝 모델이 비슷하거나 약간 더 우수한 performance 를 보임을 확인할 수 있습니다. 그림에서 experts 의 결과의 경우, 속이 빈 동그라미는 OCT+clinical note+fundus image 를 모두 이용한 결과이고 속이 찬 동그라미는 OCT 만을 이용해 판단한 결과입니다. 전문가들은 다양한 임상 정보를 모두 활용해 판단할 경우, performance 향상을 보였지만, 그래도 딥러닝 모델보다 크게 나은 성능은 아니었습니다.

2

 

일반적인 딥러닝 모델에서는 어떤 class 를 틀리더라도 모두 같은 scale 의 error 로 평가를 하는데, 이 문제에서는 각 class 별로 error 가 환자에게 미치는 위험도가 다를 수 있습니다. 예를 들어, 실명까지도 가능한 응급질환을 정상으로 예측했을때의 error 는 심각한 결과를 초래할 수 있지만, 응급질환을 덜 응급하다고 판단한 error 는 덜 위험한 결과로 이어질 것입니다. 따라서 저자들은 모든 가능한 error 에 따라서 다른 penalty 를 줄 필요가 있다고 판단하고, 아래의 그림과 같은 penalty matrix 를 만들어 사용했습니다.  이는 아마도 연구에 참여한 여러 의사들의 의견을 반영해 만들었을 것으로 생각됩니다. 아래 그림에 따르면 의학적으로 긴급한 상태의 ‘urgent’ data 를 딥러닝 모델이 정상이라고 판단하고 ‘observation’ 으로 prediction 한 경우에 가장 높은 penalty point (=100) 을 설정한 것을 확인할 수 있습니다.

4

 

위 penalty matrix 이용해서 referral suggestion 예측 모델을 만든 결과, 모든 experts 보다도 딥러닝 모델의 total penalty points 가 낮았고 심각한 error 를 초래할 가능성을 최소화했다고 합니다.

 

Performances in ‘disease classification’

Disease classification 에 대해서도 전체적으로 AUC 가 99% 로 높았으며,  experts 와 유사한 정확도를 보였습니다. 이는 OCT 영상에서 여러 질환 및 referral suggestion 을 잘 수행함을 의미합니다.

 

Results in OCT images from a different device

기존에 학습에 사용하지 않은 device 로 얻은 116개의 데이터를 모델에 그냥 넣고 test 한 경우, referral suggestion 에 대해서 error 가 46.6% 로 매우 높았습니다.

5

[Left: 1번째 device, Right: 2번째 device       –>  두 디바이스의 영상 차이가 큼]

이는 두 devices 의 영상 차이가 매우 크기 때문에, 새로운 디바이스 영상을 이용해 refining 을 시켜줄 필요가 있음을 시사하는 결과입니다. 이 문제를 해결하기 위해서 2번째 device 로 얻은 영상 152 케이스에 대해서 segmentation label 을 만든 후, segmentation network 을 retraining  하였습니다. 그 결과 classification error 가 3.4% 로 크게 감소했고, 전문가들과도 유의한 차이가 없었습니다.

6

[Retraining of segmentation network]

 

만약 논문의 모델이 1개의 classification network 만으로 구성되었다면 새로운 장비에서 모든 class 에 대한 데이터를 구해야했을 것이고, 이 경우에는 구하기 힘든 질환들도 있을 수 있습니다. 하지만, segmentation label 은 앞서 말씀드린바와 같이 상대적으로 구하기 용이하기 때문에, 이 논문에서의 접근법이 더 실용적일 수 있다고 생각합니다.

종합하면, 877데이터로 segmentation network 을 학습시키고 14884 데이터로 classification network 을 학습시켜 5.5% error 를 확인했으며, 다른 장비로 얻은 데이터 152 개로 segmentation network 만을 refining 시키면 3.4% 까지 error 를 줄일 수 있었다는 내용입니다. (2번째 장비의 데이터 수가 116개로 작아서, 두 데이터 세트에서의 에러 차이를 비교할 수는 없었습니다.)

1

 

Discussion

이전의 OCT 에 deep learning 을 이용한 연구들과 비교하자면, 이 연구에서는 다양한 안과 질환들에 대해서 모델을 학습했고, 여러 전문가들과의 성능을 비교했으며, 다른 장비에서 효율적으로 적용할 수 있는 모델 구조 및 retraining 방법을 제시한것에 의의가 있습니다. 또한 이전의 연구들에 비해 훨씬 많은 수의 segmentation label 을 학습에 이용함으로써, 이를 이용한 classification network 가 비교적 다양한 질환들을 cover 하면서 좋은 결과를 낼 수 있었다고 생각됩니다.

실제 segmentation map 을 이용해 classification task 을 수행하는 경우, 실제 영상에서의 detail 정보들이 많이 사라지는 단점이 있을텐데, OCT 영상에서는 큰 영향을 받지 않고 여러 질환들을 잘 classifying 하는것을 확인할 수 있었습니다. 경계부위에서의 segmentation 이 애매할 수 밖에 없는 문제점은 앙상블 효과를 통해서 약간은 극복할 수 있지 않았나 싶은 생각도 듭니다.

본 연구에 사용한 데이터는 총 32개의 병원에서 37개의 장비 (device 1 = 28, device 2 =9) 로 얻은 데이터로 학습 및 평가를 했습니다. Device 1 과 2 의 영상은 육안으로도 차이가 큼에도 불구하고, 소수의 segmentation label sets 만 구축함으로써 모델 전체의 error 를 크게 줄일 수 있었습니다.  이는 segmentation network 에서 device variation 에 robust 하게 학습을 시키면,  segmentation map 을 이용하는 classification network 입장에서는 device 차이에 의한 영향을 받지 않음을 확인시켜주었습니다. 두개의 모델로 나눠서 학습하는 경우의 또다른 이점은 segmentation map 이 중간 산물의 역할을 할 수 있다는 것입니다. 이는 end-to-end 로 classification 을 수행했을때에 비해서, 의사들 입장에서 network 의 중간 과정을 조금 더 잘 이해할 수 있다는 장점이 있다고 저자들은 이야기합니다.  이 연구에서는 한 pixel 에 대해서 1 개의 segmentation label 만을 표현할 수 있었는데, multiple labels 을 annotation 할 수 있는 구조가 된다면 segmentation map 더욱 풍부한 anatomical and pathological information 을 내재할 수 있어서, classification network 가 더 다양한 질환들을 커버하는데 도움이 될 수 있을 것입니다.

이 알고리즘이 clinical trials 을 거쳐 general 하게 사용되게 된다면, Moorfield 계열의 30개 병원에서 매일 약 1000 OCT scans 에 대해 5년간 무상으로 사용할 수 있게 할 예정이고, 그렇게 되면 많은 환자들이 이 기술의 혜택을 받아서 응급한 환자들이 우선적으로 진료를 받을 수 있게 될 것이라고 DeepMind 웹사이트에 언급되어 있습니다.

11

출처: https://deepmind.com/blog/moorfields-major-milestone/

논문 원문: Clinically applicable deep learning for diagnosis and referral in retinal disease, Nature Medicine, 2018, https://doi.org/10.1038/s41591-018-0107-6

 

 

Posted by:Ki Hwan Kim

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s