질병관리청이 발표하는 데이터에는 우리가 알지 못했던 많은 사실이 담겨 있다. 한겨레 자료사진
코로나19 발생 이후 지난 3년간 질병관리청이 발표한 데이터에는 우리가 알지 못했던 여러 사실이 담겨 있다. 데이터를 잘 들여다보면 코로나 초기 대구 확진자 폭증 직전에 어떤 일이 벌어졌는지, 찾지 못한 감염자는 얼마나 되는지, 잘 억제되던 감염 확산이 2021년 12월 왜 폭증했는지 등등 여러 궁금증에 대한 해답의 실마리를 찾아낼 수 있다. ‘한겨레 미래&과학’ 필진인 윤복원 박사(물리학)가 코로나19 발생 3년째를 보내면서, 데이터 분석 기법을 통해 한국에서의 코로나19 전개 과정을 추적하는 글을 연재한다. 윤 박사는 데이터 분석의 가치를 널리 알리는 취지에서 데이터 수집과 분석에 사용한 파이썬 코드도 공개했다. 편집자
연재를 시작하며 : 반전에 반전을 거듭한 3년의 세월
지난 3년 동안 수많은 사람이 코로나19 바이러스에 감염됐고 그중 일부는 감염의 여파로 사망했다. 2022년 9월 초까지 전 세계 코로나19 확진자수는 6억명이 넘고 650만명 이상이 사망했다. 공식 집계된 확진자수와 사망자 수가 그 정도이고 실제로는 통계에 잡힌 것보다 더 많은 사람들이 감염돼 사망했다.
첫 대규모 감염 확산은 2020년 1월 중국 우한시에서 일어났다. 초기만 해도 사스와 메르스처럼 일부 지역에 국한된 전염병으로 머물고 감염이 확산되지 않기를 기대하는 사람들이 많았다. 하지만 곧 전 세계로 퍼져나갔다.
한국에서는 같은 해인 2020년 1월21일 첫 확진자가 나왔다는 발표가 있었다. 이미 5년 전에 메르스 감염 확산의 경험이 있었던 한국은 확진자가 나오면 다른 사람들과 접촉할 수 없도록 의료기관이나 시설에 격리했고, 확진자가 다녀간 곳은 일시 폐쇄했으며, 그와 접촉한 모든 사람을 추적하는 방식으로 감염이 확산되는 것을 매우 적극적으로 막았다. 그해 2월 중순까지 한국에서는 하루에 한 명 정도의 신규 확진자가 나오는 수준으로 아주 잘 방어하는 듯했다.
그러나 2월18일 31번 확진자가 나오면서 상황은 급반전되었다. 이 확진자가 대규모 종교 예배에 참석했다는 것이 알려졌고, 방역 당국은 그 예배에 참석한 사람들을 중심으로 접촉자를 추적하고 검사하기 시작했다. 당시 한국의 질병관리본부는 코로나19 진단 검사와 접촉자 추적에 대한 준비를 이미 해 놓은 상태였기 때문에, 추적과 검사 과정은 매우 신속하게 진행됐다. 다음날인 2월19일부터 신규 확진자수는 급격히 늘어났고 3주만에 누적 확진자수가 7천명이 넘는 수준에 이르렀다, 중국 우한시에 이어 전 세계에서 두번째 대규모 감염이 일어난 것이다. 당시 데이터에는 31번 확진자가 나오기 2주 전인 2월 초부터가 감염 확산이 시작됐고 확진자가 폭증할 때까지 무슨 일이 있었는지를 보여주는 흔적이 남아 있다. 데이터를 분석하면 당시 상황이 어떻게 진행되었는지 좀 더 구체적으로 재구성할 수 있다.
2020년 초 이후 3년간의 코로나 누적 확진자 수 추이. 아워월드인데이터
한국에서 2020년 2월18일부터 시작된 1차 대유행은 2월 말 하루 신규 확진자수가 800명이 넘을 만큼 규모가 상당히 컸다. 하지만 3월 중순엔 100명 이하로 떨어뜨리는 수준으로 누그러뜨렸다. 지역 봉쇄와 같은 강력한 통제 방식을 동원하지 않고도 이룬 성과였다. 국민의 일상적인 경제 활동과 사회 활동을 유지하면서 접촉자 추적과 적극적인 검사로도 감염 확산 규모를 줄일 수 있다는 선례를 만들었다. 물론 진단 검사 키트를 미리 개발해 준비하는 등의 철저한 대비와 국민의 적극적인 협조가 이런 성과의 기반이었다.
다른 나라들도 2월 하순부터 신규 확진자수가 늘어나기 시작했다. 하지만 대부분의 나라에서는 한국이 한 방식처럼 감염 확산 규모를 줄일 수 없었다. 지역을 봉쇄하거나 그에 준하는 통제를 통해 사람들 사이의 접촉을 막는 방법으로 감염 확산 막을 수밖에 없는 상황이었다. 치명률은 나라마다 달랐고, 2020년 상반기만 해도 대부분의 나라에서는 한국보다 훨씬 높은 치명률이 나왔다. 감염됐지만 찾지 못한 감염자들이 많았기 때문이다.
2020년 후반기에 접어들면서 많은 선진국에서의 치명률은 낮아지기 시작했다. 2020년 초에는 치명률이 10%를 넘는 선진국들이 많았지만, 2020년 연말에는 이들 국가의 치명률도 한국과 비슷한 수준으로 낮아졌다. 2020년 12월 영국에서 처음 시작된 국가 차원의 백신 접종은 치명률 하락에 날개를 달았다. 많은 나라가 백신 접종의 효과를 보면서 방역 조처를 완화하기 시작했다.
2021년 2월26일 백신 접종을 시작한 한국도 고위험층에 대한 1차 백신 접종이 어느 정도 진행된 2021년 여름까지는 0.2%에 가까운 수준으로 치명률이 상당히 낮아졌다. 이후 다시 치명률이 상승하기 시작했다. 백신의 감염 및 사망 예방 효과와 백신 접종률이 치명률에 끼치는 영향을 분석하면 백신 접종률이 상당히 높아지는 시점부터는 치명률이 다시 높아지는 것도 설명할 수 있다.
코로나19 초기에 서울 강서구보건소에 마련된 선별진료소에서 시민들이 코로나19 진단 검사를 받고 있다. 김명진 기자 littleprince@hani.co.kr
하지만 2021년 12월 중순 전례 없는 위기가 발생했다. 의료 역량이 감당할 수 있는 수준의 턱밑까지 확진자와 위중증환자가 증가하면서 강력한 거리두기를 다시 시행하는 상황으로 급변했다. 한국의 코로나19 데이터에는 2021년 11월에 이미 위험 신호가 있었다. 그 위험 신호가 무엇을 의미하는지도 데이터에 담겨 있었다.
오미크론 변이가 지배하면서 백신 접종과 거의 무관하게 무차별적으로 감염이 확산되면서 엄청난 규모의 신규 확진자들이 쏟아져 나왔다. 대부분의 국가가 비슷한 상황을 시차를 두고 겪었다. 다행히 오미크론 변이의 위중증·사망 위험성이 다른 변이에 비해 상대적으로 낮았고 백신의 사망 예방 효과도 충분히 유지되면서 엄청난 신규 확진자수 규모에 비하면 신규 사망자수는 적은 편이었다.
코로나19에 감염된 사실을 어떻게 검사하는지도 관심 사항이다. 많은 나라에서 공식 진단 검사 방식으로 사용하는 PCR검사는 유전자를 몇억배 이상까지 복사해 증폭하는 과정을 거치기 때문에 바이러스가 조금만 있어도 검출할 수 있는 매우 정확한 검사 방법이다. 하지만 PCR 검사는 한정된 수량의 PCR장비를 사용해 몇시간 동안 유전자를 증폭하는 과정을 거쳐야 한다. 이 때문에 검사량을 마음대로 늘릴 수 없는 단점이 있다.
이 단점을 극복하기 위해 검체 여러개를 섞어 하나의 검체처럼 검사하는 취합 검사 방식이 한국을 비롯해 여러 나라에서 사용되고 있다. 어떤 상황에서 취합 검사 방식을 사용할 수 있고 어떤 상황에서는 사용할 수 없는지를 정확하게 알고 시행 유무를 판단할 필요가 있다. 취합 검사에서 얼마나 많은 검체를 섞어 검사할 수 있는지도 상황에 따라 따져봐야 할 부분이다.
PCR 검사를 위해 면봉으로 검체를 추출하고 있다. 한겨레 자료사진
데이터 수집·분석에 쓴 파이썬 코드를 공개하는 이유
감염됐는데도 감염되지 않았다고 판정하는 ‘위음성’과 감염되지 않았는데도 감염됐다고 판정하는 ‘위양성’도 따져 봐야 한다. 위음성은 민감도와 관련되고 위양성은 특이도와 관련된다. PCR 검사는 민감도와 특이도가 매우 높아 위음성과 위양성이 매우 적게 나오는 검사 방법이다. 하지만 검사를 받는 사람 중에 감염된 사람이 매우 적을 때는 양성 판정이 나온 결과에 위양성이 많이 포함되는 정확도 문제를 제기할 수도 있다. 하지만 감염자 비율이 매우 낮을 때는 취합 검사 방식으로 검사하기 때문에 위양성이 거의 생기지 않는다는 사실을 간과하기 쉽다.
한국과 주요 국가들의 코로나19 상황에서 관련 분야 전문가들이 주목하지 않았던 부분에 중점을 두고 코로나19가 유행하기 시작했던 2020년 초부터 데이터를 분석하기 시작했다. 그렇게 해서 얻은 정보 중에 의미 있는 내용은 따로 정리해서 2020년 초부터 <한겨레 미래&과학>에 기고했다. 신속히 공개할 필요가 있는 정보는 개인 페이스북 계정에 포스팅한 글을 통해서도 공개했다. 2022년 2월까지 거의 2년 동안 기고하고 포스팅한 글들을 기반으로 부족한 부분은 채우고 잘못된 부분은 고쳐서 총정리했다.
질병관리청에서 일반 대중에게 공개하는 데이터를 분석해 어떤 새로운 정보를 얻을 수 있고 실제 상황에 어떻게 적용할 수 있는지를 다뤘다. 필요한 경우 ‘월드오미터’나 ‘아워 월드인데이터’에서 얻을 수 있는 다른 나라의 코로나19 데이터도 분석해 한국의 데이터 분석 결과와 비교했다. 이 과정에 필요한 데이터 수집 및 분석 알고리즘과 시뮬레이션 알고리즘은 프로그래밍 기초 지식만 있어도 이해할 수 있는 파이썬 코드로 구현해 공개했다.
이 문서를 통해 물리를 연구하는 사람은 코로나19 데이터를 어떤 시각으로 바라보고 어떻게 처리하고 분석하는지를 볼 수 있다. 아무쪼록 관련 분야 사람들뿐만 아니라 일반 대중에게도 코로나19 데이터 분석을 통해 어떤 정보를 얻을 수 있고 데이터 분석이 얼마나 중요한지를 이해하는 데 도움이 되기를 기대한다.
(1) 감염과 확진의 차이
질병관리청은 매일 오전 코로나19 발생 현황을 브리핑했다. 유튜브 갈무리
한국 방역 당국은 코로나19와 관련해서 매일 여러 수치를 발표한다. 그중에는 확진자수, 사망자수, 격리 해제자수가 있다.[1][2] 각각의 정보는 하루 동안 새로 발생한 숫자와 그동안 나온 숫자를 합한 누적값 이렇게 두 개의 수치로 발표한다.
‘확진자’는 진단검사를 받고 양성이 나와서 ‘확진’된 사람이다. 검사에서 양성이 나왔다는 것은 코로나19 바이러스에 감염된 것을 의미한다. 하지만 감염됐음에도 불구하고 검사를 받지 않은 사람들도 있다. 감염됐어도 증상이 없는 사람은 본인 감염됐는지 모를 수도 있고, 증상이 미미하면 그냥 지나칠 수도 있다. 이들은 ‘확진’이 되지 않으니 확진자로 분류되지 않는다. 여기에 더해 감염이 확실함에도 불구하고 이런저런 이유로 검사를 받지 않았거나 못한 사람들도 감염자에 포함된다.
결국 확진자는 감염자이지만 감염자라고 해서 확진자인 것은 아니다. 감염자는 모든 확진자를 다 포함하지만 확진자는 감염자를 다 포함하지 못하므로, 확진자는 감염자의 일부인 부분집합이다. 확진자에 포함되지 않은 감염자는 ‘찾지 못한 감염자’로, 감염자 집합에서 확진자 집합의 ‘여집합’(complementary set)이다.
그림 1-1. 감염자 중에는 확진자도 있고 ‘찾지 못한 감염자’도 있다. 확진자는 질병관리청이 매일 발표하는 통계에 포함되지만 ‘찾지 못한 감염자’는 통계에 포함되지 않는다.
감염자를 최대한 많이 찾아내려면 일시에 전 국민을 빠짐없이 검사해야 한다. 단순히 전 국민을 검사한다는 것만으로는 감염자를 다 찾아낼 수 없다. 검사를 받은 후에 검사받지 않은 다른 감염자에 의해 감염될 수 있기 때문이다. 일시에 전 국민을 검사한다고 하더라도 감염자가 또 생길 수 있다. 감염된 지 얼마 되지 않아 몸에서 바이러스를 생산하지 않는 경우에는 검사를 받아도 양성이 나오지 않기 때문이다. 이렇게 감염된 지 얼마 되지 않아 음성이 나온 감염자는 며칠 후 몸에서 바이러스를 본격적으로 생산하면서 다른 사람들에게 바이러스를 전파할 수 있다. 결국 완벽하게 감염자를 다 찾아내는 것은 사실상 불가능하다.
전 국민 또는 지역별로 모든 주민을 검사하는 이른바 ‘전수검사’를 통해 감염자를 최대한 많이 찾아내면 그들을 격리함으로써 감염 전파를 최소화할 수는 있다. 효과를 최대화하기 위해 중국의 경우처럼 전수검사 기간 동안 주민의 이동과 주민들 사이의 접촉을 막는 조처를 할 수도 있다. 하지만 한국과 같은 사회에서 주민 이동과 접촉을 막으면서 전수검사를 하는 것은 경제적, 사회적 문제로 시행이 거의 불가능하다. 결국 코로나바이러스가 완전히 종식되지 않는 이상 감염자는 존재하고 그중에는 검사를 받지 않아 확진되지 않는 사람들, 즉 ‘찾지 못한 감염자’들이 있을 수밖에 없다.
코로나-19 데이터에 나오는 ‘사망자’는 코로나19에 확진된 사람 중에 증상이 악화돼 사망한 사람이다. 때로는 사망한 사람을 검사했더니 양성이 나온, 이른바 ‘사후 확진’도 있다. 코로나19로 사망한 사람은 확진자의 일부이기 때문에, 사망자는 확진자의 부분집합이다.
그림 1-2. 확진자는 모두 감염자이므로 감염자의 부분집합이다. 사망자는 확진자 중에서 나온다. 모든 감염자를 빠짐없이 진단 검사로 찾아내지 못하므로 찾지 못한 감염자들이 존재한다. 감염으로 사망한 사람들은 사후 진단을 포함해서 확진된 사람들에서 나오므로, 사망자는 확진자의 부분집합이다.
확진된 사람들은 방역 당국이 정한 원칙에 따라 다른 사람들과 접촉을 제한하고 격리에 들어간다. 확진자 중에 증상이 심한 사람이나 사망 위험성이 높은 사람들은 치료를 받는다. 이후 격리를 끝낼 수 있는 기준이 만족되면 격리에서 해제된다. 이들이 ‘격리 해제자’다. 격리해제 기준은 시기와 상황에 따라 다르다.
감염 확산 초기 한국에서는 격리 해제 기준이 상당히 엄격했다. 감염된 이후 얼마나 오랫동안 다른 사람들을 감염시키는지에 대한 정보가 충분하지 못했던 2020년 상반기까지만 해도, 격리가 해제되려면 PCR 검사에서 이틀 연속 음성이 나와야 했다. 몸에서 바이러스가 거의 사라질 때까지 격리하는 엄격한 확진자 관리였다. 이렇게 엄격하게 적용한 격리 해제 기준은 데이터를 좀 더 정확하게 분석하는 데 도움을 준다.
시차를 두고 나타나는 감염-확진-사망-격리해제
감염, 확진, 사망, 격리해제는 시차를 두고 일어난다. 감염이 먼저 일어난다. 검사를 받고 확진이 되는 때는 감염된 이후이다. 검사하는 이유는 사람마다 다를 수 있다. 증상이 나타나서 검사를 받을 수도 있고, 증상과 상관없이 확진된 사람과 접촉해서 검사를 받을 수도 있다. 주기적으로 검사를 받는 사람도 있을 수 있고, 의무적으로 참여하는 전수검사도 있을 수 있다. 검사를 받는 이유는 방역 당국의 검사 전략과 역량의 영향을 상당히 받는다. 검사를 받는 이유가 다른 만큼 감염과 검사 사이의 시차도 다를 수 있다. 따라서 감염과 확진 사이의 시차는 특정한 값이 아닌 시간대에 퍼져 있는 분포로 나타난다.
증상이 나타나는 사람만 검사하는 경우 증상이 나타날 때까지 기다려야 하기 때문에 감염과 확진 사이의 시차가 길어질 수 있다. 증상이 없는 사람들은 검사하지 않기 때문에 무증상 감염자는 확진자에 포함되지 않을 가능성이 크다. 그만큼 실제 감염자수에 비해 확진자수가 상당히 적게 나올 수 있다.
반면 접촉자 추적으로 찾은 접촉자 모두를 검사하거나 전수검사 또는 그에 준하는 검사로 증상이 없어도 검사하는 경우에는 감염된 지 얼마 안되는 감염자도 찾을 수 있다. 이런 경우에는 감염과 확진 사이의 시차가 짧아지고 누락되는 감염자들도 줄어든다. 반면 감염된 후 증상이 없어 검사를 받지 않고 지내다가 주위 사람들이 확진되면서 뒤늦게 검사를 받는 경우에는, 감염과 확진 사이의 시차가 상당히 길어질 수도 있다.
그림 1-3. 특정 날짜에 ‘감염’된 사람 중 많은 이는 시차를 두고 검사를 받아 ‘확진’되고, 확진된 사람 중 일부는 시차를 두고 ‘사망’한다. 확진된 사람은 시차를 두고 ‘격리해제’된다. 확진, 사망, 격리해제가 일어나는 시점은 특정 시점이 아닌 시간대에 퍼져 있는 분포를 지닌다. 이런 분포를 다루는 그림 속의 수식은 선형 응답 이론(linear response theory), 그린 함수(Green’s function), 합성곱(convolution), 필터링(filtering) 등의 이름으로 여러 분야 이론, 계산 및 분석에 등장한다. 격리해제 시점은 시기와 나라마다 다르다. 2020년 상반기 한국은 그림처럼 격리해제 시점이 확진에서 상당히 멀리 떨어져 있지만, 이후 격리 해제 조건이 완화되면서 확진 시점과 상당히 가까워졌다.
사망하는 사람은 사후 확진이라는 특별한 경우를 제외하고 확진된 이후에 일어난다. 사망 시점도 치료를 잘 받는 경우와 잘 받지 못하는 경우에 따라 달라질 수 있고, 나이와 건강 상태에 따라 달라질 수 있다. 이 때문에 감염과 사망 사이 또는 확진과 사망 사이의 시차도 시간대에 퍼져 있는 분포로 나타난다.
격리를 해제하는 시점도 확진 이후다. 확진된 사람들은 격리되고 이들 중 사망한 사람을 제외한 나머지 사람들은 시차를 두고 격리에서 해제된다. 특정 시점에 확진된 ‘확진자’ 대부분은 ‘격리 해제자’가 되고 일부는 사망하면서 ‘사망자’가 된다.
최종적으로 확진자수는 격리 해제자수에 사망자수를 더한 값이다. 하지만 확진된 지 얼마 안된 시점에서는 격리가 해제되지 않은 사람도 있고 앞으로 사망하는 사람도 있어서, 확진자수는 격리 해제자수와 사망자수를 더한 값보다 크다. 감염 또는 확진과 격리해제 사이의 시차도 격리 해제 조건에 따라 일정하지 않고 여러 시차가 나타나는 분포를 지닐 수도 있다.
윤복원/미국 조지아공대 연구원(전산재료과학센터·물리학) bwyoon@gmail.com
필자 소개
서울대 물리학과를 졸업하고 프랑스 파리11대(현 파리-사클레대)에서 석사와 박사 학위 과정을 마친 물리학자다. ‘사이언스’, ‘네이처’, ‘피지컬 리뷰 레터스’, ‘미국화학회지(JACS)’ 등 권위있는 과학저널에 50여편의 논문을 발표했고, 발표한 논문은 다른 과학자들의 논문에 7천여회 인용됐다. 2014년부터 <한겨레>에 일반 독자들을 위한 물리학·데이터 관련 글을 기고하고 있다.
--------------------------
주)
[1] 질병관리본부 코로나바이러스감염증-19(COVID-19) http://ncov.mohw.go.kr/
[2] 질병관리본부 보도자료 https://www.cdc.go.kr/board/board.es?mid=a20501000000&bid=0015