Home » CT OPINION

[CT Opinion] 코로나를 위한 데이터과학과 인공지능

April.2020 No Comment

코로나바이러스 감염증 (COVID-19; 이하 코로나)으로 인해 온라인 강의가 시작된 지 어느새 한달 반이 지났다. 다행히 우리나라는 상황이 좋아진 듯하고 유럽 또한 안정세를 보이는 듯하다. 코로나 사태의 최전방에서 노력하고 계시는 전세계의 의료진에게 감사하지 않을 수 없다. 한편 데이터과학과 인공지능 분야 학계는 코로나 해결을 위해 어떤 노력을 하고 있을까? 본 기사에서는 코로나 해결을 위한 인공지능 및 데이터과학 학계의 노력을 조명하고, 일반인이 코로나 데이터를 통해 인공지능과 데이터과학도 배우고 코로나 해결에 기여하는 방법을 소개한다.

코로나 인공지능 가상 학회

1

지난 4월 1일 스탠포드 대학교의 HAI (Human-Centered Artificial Intelligence)는 코로나와 인공지능을 주제로 가상 학회를 열었다 (https://hai.stanford.edu/events/covid-19-and-ai-virtual-conference). 코로나 사태로 인해 학회는 온라인으로 진행되었고, 녹화된 영상 또한 웹사이트에 모두 업로드 되었다. 녹화된 영상을 확인해보니 발표자들은 발표 자료를 화면에 띄워 놓고 각자의 집에서 발표를 했다는 것을 알 수 있었다. 중간에는 패널들이 화상 회의 애플리케이션 줌 (Zoom)을 이용하여 토론을 하는 모습도 보였다. 발표자들은 자신의 분야에서 코로나 퇴치를 위해 노력하는 데이터 분석가, CTO 등 다양했다. 그 중 인상깊었던 발표는, 온라인 데이터 경진 대회 사이트인 캐글 (Kaggle)의 CEO인 Anthony Goldbloom의 “어떻게 머신러닝이 코로나를 예측하는데 도움을 주는가” (How Machine Learning Can Help Forecast COVID-19)였다. 그는 자신의 발표에서 캐글이 세 가지 종류의 대회를 개최하고 있다고 말하고 각 대회가 무엇인지 간략히 설명했다.

코로나 데이터 경진 대회

https://www.kaggle.com/covid19
앞서 말한 캐글 CEO의 발표에서 언급한 데이터 경진 대회는 어떤 것들이 있는지 간략히 소개하고자 한다.

1

https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge/

첫번째는 수많은 코로나 관련 논문들을 빠르게 읽을 수 있도록 자연어처리 기술을 이용하여 논문을 요약해주는 대회이다. 학습된 모델은 논문을 읽고 핵심 질문 9개에 대하여 답할 수 있어야한다. 예를 들면 질문은 다음과 같은 것이 있다: 알려진 전염성, 잠복기, 환경 안정성은 무엇인가? 이러한 질문은 대회의 태스크 하나에 해당하며, 해당 대회는 우승 상금으로 각 태스크당 천 달러를 걸었다. 자연어처리 능력을 기르고 돈을 벌고 싶은 사람은 도전해보자.

1

https://www.kaggle.com/data/142091

두번째는 코로나 관련 데이터셋 구축 대회이다. 구축된 데이터셋은 유용성, 문서화, 유지보수 세가지 측면으로 평가 받는다고 한다. 이 대회 또한 우승한 세팀에게 각각 천 달러 씩 지급한다고 한다.

1

첫번째의 코로나 자연어처리 대회가 인공지능 대회에 가까웠다면, 세번째 대회는 데이터 과학 대회에 가깝다고 볼 수 있다. 이 대회는 12개의 태스크로 이루어져 있으며, 각 태스크는 하나의 질문에 해당된다. 질문들은 최전방에서 일하는 의료진들이 알고 싶어하는 코로나 해결에 중요한 질문들이다. 참가자들은 해당 질문에 답을 하기 위하여 주어진 데이터셋을 이용하여 나름의 대답을 제출해야한다. 질문 중 하나는 인구 중 어떤 특징을 갖는 사람들이 사망하는가에 대한 것이다.

또한 코로나 확진자 수를 예측하는 대회도 있었지만 지난 4월 15일에 종료되었다.

현재 약 1200명이 첫번째 대회에 분석 노트를 업로드하여 참가하였고, 앞서 언급한 15일에 종료된 확진자 수 예측 대회에는 472명의 참가자로 대회가 종료되었다. 다른 대회는 이제 막 생겼기 때문에 참가자 수가 많지 않은 편이다. 한편 외국 유명 커뮤니티인 레딧 (Reddit)에는 첫번째 대회가 전염병 모델링에 도움이 되기보다는 텍스트 분석에 그치는 것이 아니냐는 비판이 많은 공감을 얻었다.

코로나를 위한 데이터과학 및 인공지능 강의

1

https://sites.google.com/view/data-science-covid-19/

캐글의 데이터를 둘러보면 종종 어려운 의학 용어가 등장한다. 스탠포드에서는 데이터 분석가, 인공지능 연구자 등이 쉽게 코로나 퇴치에 기여할 수 있도록 강의 또한 개설했다. 강의는 4월 10일에 시작하여 아직 진행중이다.

본 기사에서는 코로나 퇴치를 위한 데이터과학 및 인공지능 학계의 노력을 알아보았다. 한국은 상황이 나아진 듯 하지만 전세계적으로는 여전히 코로나가 심각하다. 데이터과학 혹은 인공지능 관련 지식이 있고 코로나 퇴치에 관심이 있다면 대회에 참여해보는 것은 어떨까?

김태준 (taejun@kaist.ac.kr)