"충성! 미스터리 '1번 확진자' 찾으러 파견 나왔습니다"
"충성! 미스터리 '1번 확진자' 찾으러 파견 나왔습니다"
김지온 경찰대 치안데이터과학연구센터장과 함께 질병청 파견 나간 경찰들
역학조사에 '지능형 수사정보분석' 접목⋯'감염경로 불명' 사건 해결

지난 7월까지 1년간 질병관리청에서 파견근무하며 역학조사 방식을 한 차원 높게 '업그레이드' 한 김지온 경찰대 치안데이터과학연구센터장. 그는 자신이 만든 지능형 수사정보분석을 접목해 '감염경로 불명' 사건을 해결했다. /안세연 기자
<지난해 6월. 질병관리청(당시 질병관리본부)의 업무 풍경>
확진자 1명의 역학조사에 꼬박 24시간 이상이 걸렸다. 한 번에 100명이 넘는 확진자가 발생하면 업무가 마비됐다. 데이터는 엑셀에 일일이 입력해야 했고, 동선은 수첩에 손으로 직접 그려가며 파악해야 했다. 컴퓨터로 동선을 파악하려고 해도, '1명 단위', '1일 단위' 로만 분석이 가능했기 때문에 쏟아지는 확진자들을 도무지 감당할 수 없었다.
<현재. 달라진 질병관리청의 업무 풍경>
같은 업무에 필요했던 시간이 1440분(24시간)에서 20분으로 줄었다. 100명 이상의 집단감염이 터져도 이제는 무리 없이 분석이 가능하다. 엑셀과 수기 대신 전문 분석 프로그램을 사용하는 덕분이다. 수만, 수십 만명의 데이터를 한꺼번에 분석했더니 이제는 감염경로의 '미싱링크(Missing Link)'도 찾아낼 수 있었다.
김지온 경찰대 치안데이터과학연구센터장이 이끈 경찰관 7인조 태스크포스(TF)의 업적이다. 이들은 지난 7월까지 1년간 질병관리청에서 파견근무하며 역학조사 방식을 한 차원 높게 '업그레이드' 했다. 경찰서가 아닌 질병관리청에서, 미제 사건이 아니라 '감염경로 불명' 사건을 해결했다.
전국에서 동시다발적으로 터졌던 방문판매업체발(發) 집단감염 사태의 미스터리를 풀었다. 3개월 동안 최초 확진자를 찾지 못했던 해양수산부 집단감염 사태도 5일 만에 해결했다. 이태원 클럽발 집단감염 사태가 터졌을 땐 클럽 방문의심자에 대한 데이터를 100분의 9로 압축했다. 확인 전화를 돌려야 할 대상을 9%로 확 줄였다는 말이다.
정식 명함조차 없는 조직이었지만 이들이 방역에 크게 기여했다는 점에선 모두가 엄지손가락을 치켜세웠다. 김 센터장은 "우리는 정규 부대가 아니라 의병대와 같았다"고 표현했다. '위에서 아래로' 상부의 지시에 따라 만들어진 조직이 아니라 '아래에서 위로' 자발적으로 만든 조직이었기 때문이다.

김 센터장이 몸을 담았던 TF가 지난 1년 3개월간 분석한 데이터는 1억 8000만 건에 이른다. 이런 성과를 보였지만, 사실 조직 상부는 김 센터장이 처음 "역학조사 현장에 보내 달라"고 했을 때 난색을 표했다. "괜히 갔다가 창피만 당하고 오면 어떡하냐"는 우려가 컸기 때문이었다. 이렇게 무거운 부담을 짊어진 채 성과를 보인 김 센터장. 그는 "작은 기적이었다"고 소회를 밝혔다.
이들은 어째서 자발적으로 질병관리청으로 건너갔던 걸까. 충남 아산시 경찰대에서 그와 일문일답을 나눴다.
"그렇다. 당시 경찰청 과장님께서 반 농담으로 '야, 자신 있어? 괜히 가서 창피만 당하고 오는 거 아니야?'라고 했다. 그래도 PPT(프레젠테이션)까지 준비해가면서 상부를 설득했다.
장담할 순 없지만 분명히 도움이 될 수 있다고. 창피 안 사고 꼭 '고맙다'는 말을 듣고 오겠다고. 경찰이 그동안 쌓아온 전문성을 후회 없이 발휘하고 오겠다고 했던 것 같다."
"다른 팀원들까지 모두 사명감이 있었기 때문에 가능했다. 팀원 중에선 1000만원에 달하는 워크스테이션(고성능 컴퓨터)을 자비로 구입한 사람도 있다. 광주 남부경찰서의 김광진 경위다.
이분이 제일 처음 저에게 '우리가 질병청으로 가야 하는 것 아니냐'며 '우리가 해왔던 업무가 감염경로 추적에 딱 맞아떨어진다'고 했다. 그때 저는 부끄럽게도 '이 관료사회에서 우리가 제안한다고 해서 되겠냐'는 입장이었다. 그런데 이분이 계속 저를 설득한 끝에 결국 저도 '우리가 해봅시다!' 이렇게 됐다."
"당연히 못 받았다(웃음). 본인 사비 쓰셨다. 정말 승진시켜줘야 하는 분이라고 생각한다."
"파견 근무는 마쳤지만, 지금도 꾸준히 제안하고 있는 게 하나 있다. 확진자가 나왔을 때 우선순위를 정해 역학조사를 해야 한다.
예를 들어 평소에 '집-직장'만 오간 확진자가 있을 수 있고. 그보다 활발하게 문화⋅체육생활을 한 사람도 있지 않겠나. 나아가 평소에 서울-대구 등 여러 지역을 왔다 갔다 하는 사람도 있을 수 있고.
그렇다면 당연히 후자에 대한 역학조사를 먼저 해야 한다. 이 사람들의 감염경로를 먼저 확인하고 차단해야 지역 간 감염 등을 최소화 할 수 있기 때문이다. 이게 되려면 데이터를 지금보다 총체적으로 관리해야 하는데 현재 그렇게 되고 있진 않은 것 같다. 지금도 이 점이 아쉽다."

"범인 검거에 활용하는 데이터 분석 기법이 확진자의 감염 경로 추적에 그대로 적용 가능했다. 각각 이들의 주변 관계에 대해 분석한다는 점에서다. 범죄수사에서는 프로그램을 통해 범인의 주변 인물 등에 대해 관계도를 그렸고, 역학조사에서는 확진자의 감염 경로에 대해 관계도를 그렸다.
"예를 들어 '기자님이 범인 또는 수배자가 됐다'고 가정해보자.
기자님은 아마 대포폰을 사용할 거고, 우리는 이걸 찾으려고 할 거다. 이때 기자님의 가족, 고향 친구, 대학 동창 등 친한 관계에 대한 정보를 수사에 활용할 수 있다. 이들은 기자님이 연락을 해볼 법한 사람들이지 않나. 이 사람들의 통화 내역 중에 겹치는 번호가 있다면, 우리는 그게 기자님일 것이라고 추측할 수 있다."
"횟수는 중요하지 않다. 단 한 번이라도 연결이 있다면, 우리는 기자님을 찾아낼 수 있다. 사실 수배자들은 자주 모습을 드러내지 않는다. 다들 숨고 싶은 사람들이지 않나. 명절 또는 가족 행사가 있을 때 1년에 한두 번 정도 연락을 하곤 하는데, 이것만으로도 검거가 가능하다.
또 지금은 하나의 방법만 예로 들었을 뿐이다. 사실 엄청나게 다양한 추론 방법을 지능형 수사정보분석에서 활용하고 있다. 경찰에서 5~6년 동안 다양한 사례를 쌓아오면서 기반을 다진 결과다."
"그렇다. 이렇게 누가, 어디서, 어떻게 감염됐는지 가설을 세운 뒤 휴대전화 교신 정보, 신용카드 등의 데이터를 통해 검증하는 식이다. 이러한 접근법을 '지능형 수사정보분석' 체계라고 부른다."

김 센터장은 경찰의 '지능형 수사정보분석' 체계를 최초로 만들어 낸 당사자다. 약 5년 전부터 해외 경찰에서 쓰이던 데이터 분석 프로그램을 국내에 도입했고, 더 정확한 가설을 세우는 원리를 고안해냈다.
현재 전국 일선 경찰관들이 김 센터장이 정착시킨 이 체계를 활용해 마약, 보이스피싱범 등을 검거하고 있다. 지금은 코로나19 확진자의 경로추적에도 활용되고 있는 것.
"그렇다. 처음 질병관리청에 갔을 때만 해도 전문적인 분석 원리나 도구가 부족했다. 분석을 수행해낼 수 있는 전문가 역시 없었다. 일일이 엑셀 작업을 하고, 수첩 등에 감염경로를 직접 그려가면서 분석을 하고 있었다. 당장 현안 처리에도 급급한 상황이었다.
"물론 질병관리청에서도 지난해 6월에 개발한 분석 프로그램(EISS)이 있긴 했다. 하지만 당시 개발 기간이 불과 6개월로 짧았기 때문에 데이터 분석 관점에서는 미흡할 수밖에 없었다.
우리는 경찰에서 수사에 사용하던 i1(데이터 표준화 시스템), i2(사회관계망 분석 시스템) 등을 역학조사에 활용했다. 이런 프로그램을 사용하면 방대한 데이터를 엑셀 등으로 일일이 입력할 필요 없이 한 번에 표준화, 시각화하는 게 가능하다. 쉽게 표현하면 식탁에 음식 재료를 차려주는 것이라고 이해하면 된다."
"당시 질병관리청에서는 '신천지 접촉'을 가장 유력한 최초의 감염 원인으로 보고 있었다.
당시 단장님께서 "출장 중에 신천지와 우연히 동선이 겹친 이분이 1번 확진자인 것 같은데, 데이터를 봤을 때 맞는지 확인해달라'고 했었다. 그런데 사실 이렇게 접근하는 건 잘못된 방법이다. 제공되는 정보가 휴대폰 교신 정보 등 굉장히 제한적이기 때문에 이렇게 '직접증명' 하는 건 현실적으로 불가능하다."
"'간접증명' 방식으로 접근해야 한다고 말씀을 드렸다. 간접증명이란 셜록 홈즈식 추리법이랑 비슷하다고 보면 된다. 가장 유력한 원인(A)을 하나 채택한 뒤, 정말 이게 원인이 맞는지 검증해 나가는 식이다. A가 아닐 수 있는 다른 원인(B)을 기각해나가는 식으로 접근한다.
질병관리청에서는 신천지 접촉(A)을 가장 유력한 원인으로 판단했으니, 우린 다른 원인(B)을 기각해 A가 정답일 개연성을 높이려고 했다. 그런데 분석해봤더니 해수부 직원 중에 천안 줌바댄스 학원(B)과 접점을 가진 분들이 많았다. 이 학원에서 감염된 분들의 남편, 아내 중에 해수부 직원이 많았기 때문이다.

물론 '신천지 접촉(A)'이 정답일 수도 있다. 신이 아닌 이상 우리가 100% 확신할 순 없다. 하지만 해수부 직원이 출장 중 우연히 신천지 교인과 마주친 것만으로 감염됐다고 보기엔 되게 가능성이 희박했고, 합리적으로 봤을 때 '천안 줌바댄스(B)'를 최초의 감염 경로로 보는 게 맞다고 판단했다."
"당시 질병관리청에서 굉장히 난감해했다. 왜냐면 클럽발 집단감염 사태는 터졌는데, 방문자가 출입 명부를 허위로 기재한 경우가 많았기 때문이다. 결국 휴대전화 기지국 교신 내역을 분석해 일일이 방문자를 특정하려고 했는데 이게 또 문제였다. 건수가 무려 719만 건이었기 때문이다. 이걸 역학조사관이 어떻게 다 조사하나.
719만 건이 나온 이유는 기지국 정보가 사실 그렇게 정확한 정보가 아니기 때문이다. GPS 정보와 달리 기지국 정보는 반경 범위가 되게 넓게 잡힌다. 결국 질병관리청에서 우리에게 '이 건수를 좀 줄여줄 수 있겠느냐'고 요청했고, 우리가 '아크GIS (ArcGIS)'라는 프로그램을 돌린 결과 도움을 줄 수 있었다.
이 프로그램을 돌리면 반경 범위를 확 좁힐 수 있다. 실제 클럽과 그 주변에 있었던 사람들에 대한 더 정확한 정보를 제공할 수 있는 것이다. 그렇게 69만 건, 약 9%로 데이터를 압축했고, 역학조사관들이 이것만 조사하면 되도록 도왔다."

"지난해 6월 서울, 대전, 광주 등 전국에서 동시다발적으로 '방문판매' 관련 집단감염이 터졌다. 이때 질병관리청에서는 각 사례의 연관성을 찾지 못하고, 그 지역 내에서만 발생한 것으로 파악했다.
그런데 우리가 분석해봤더니 그게 아니었다. 처음엔 관련이 없어 보였지만, '방문 판매'라는 공통분모가 있었기 때문에 각 지역별 감염사례가 서로 연관이 있을 수 있다는 가설을 세웠다. 이어서 각종 프로그램을 통해 가설을 검증한 결과. 서울에서 대전으로, 대전에서 광주로 이어지는 감염경로가 보이더라.
이렇게 미확인 감염경로를 찾아서 '지역 간 전파가 맞는다'는 점을 밝힌 게 기억에 남는다."
"해당 지역에서 발견된 파편적인 정보만 분석했을 뿐, 종합해서 분석하지 못했기 때문이다. 이렇게 베일에 가려져 있거나, 미싱링크를 파악하기 위해선 전체 데이터를 조망해서 분석하는 작업이 필요하다."
"현재와 미래를 대비하려면 반드시 과거를 복기해야 하기 때문이다. 역사가 반복되는 것과 비슷하다. 과거의 감염 경로를 최대한 정확하게 재구성해야 무엇이 문제였고, 어디서 경로를 차단했을 때 집단감염을 분리시킬 수 있는지. 앞으로 어떤 예방 정책을 세워야 하는지 파악할 수 있다."

김 센터장은 경찰대에서 치안데이터과학 연구센터를 이끌고 있다. 다음 달이면 설립 2주년을 맞는다. '어떤 곳인지'를 물었다. 김 센터장은 자부심이 묻어나는 목소리로 설명을 이어갔다. "지금까지 경찰대가 법⋅행정 위주로 가르쳐왔다면, 이제는 공공안전⋅치안 데이터 전문가를 양성해야 하는 상황이 됐다"고 하면서다.
"데이터 분석이 상당히 중요해진 시대가 왔다. 4차 산업혁명, 코로나19를 계기로 강력 범죄에서 지능 범죄로 범행 양상이 옮겨가고 있기 때문이다. 그런데 늘어나는 범죄에 비해 현장에서는 데이터과학자가 없어서 난리다.
치안데이터과학연구센터는 현장에 필요한 전문가를 양성하고 있다. 또한 각종 연구와 교육, 현장 지원 등 3박자가 다 이뤄지는 것을 목표로 달리고 있다."
"개인적으로 많이 뿌듯하다. 처음엔 이 연구를 거의 혼자 시작했는데, 이제 다음 달이면 우리의 랩(lab⋅실험실)도 만들어진다. 이제 확실하게 데이터분석을 지원하고, 여러 실험도 할 수 있게 됐다."
"먼 미래의 이야기가 아니다. 이미 미국의 뉴욕시 등에는 '리얼타임 크라임 센터(RTCC⋅Real Time Crime Center)'가 설치돼 있다. 지금도 미국에서는 비슷한 원리로 수사가 이뤄진다.
예를 들면 '주말이고, 날씨가 흐리므로, 특정 편의점에서 강도가 발생할 확률이 70% 이상'이라는 정보가 경찰에게 제공된다. 그러면 미리 그곳에서 예방 근무를 서는 게 가능하다. 지금까지 경찰은 늘 범죄가 발생하고 난 뒤 사후에 대응했다. 하지만 데이터 분석을 하면 거의 실시간으로 그 격차를 좁힐 수 있다.
지난 2019년에 뉴욕 경찰국(NYPD)을 다녀왔을 때 들은 이야기다. 이곳에선 경찰이 '상황 정보' 없이 출동하는 건 상상할 수도 없다고 한다. 예를 들어 가정 폭력 신고가 들어왔을 때 '데이터에 따르면 단순한 가정 폭력 사건이 아니라 마약 사건일 수도 있으니 2개 팀 정도가 함께 출동하라'는 정보를 주는 식이다."
"기술적으로는 사실 많이 뒤처져 있다고 생각하지 않는다. 1년이면 거의 유사한 수준의 체계를 만들 수 있다고 본다. 다만 우리는 현재 제도적인 규제, 법적인 규제 등의 문제가 있기 때문에 이렇게 할 수 없다."
"맞는다. 사실 흑과 백의 문제다. 공공의 안전⋅범인 검거를 위해서는 필요한 시스템인데, 반대로 그만큼 프라이버시가 위협을 받는다. 국가도 하나의 권력이고, 해킹을 당할 수 있기 때문에 위험 요소는 분명히 존재한다.
하지만 그렇다고 해서 앞으로 가야 할 길을 가지 않을 순 없다고 생각한다. 절차적으로 투명하게 운영하고, 독립된 감시기구를 만드는 것 등으로 보완해서 개선할 필요가 있다고 본다."

"경찰의 수사 역량 강화에 큰 도움이 될 수 있을 것이라고 생각한다. 수사역량 강화의 핵심은 '전문성'이다. '디지털 정보를 분석할 수 있느냐, 없느냐'가 수사의 성패를 좌우하는 시대가 됐다.
예전엔 사람이 어떤 집에서 살고 있는지 확인하려면 직접 수도 계량기 같은 걸 봐야 했다. 이제는 그럴 필요가 없다. 뭐든지 디지털화되는 시대이기 때문에 얼마든지 데이터만 가지고 분석이 가능하다. 어떤 가설을 검증할 때 데이터 분석 능력이 수사 역량과 직결되는 것이다.
이런 걸 할 수 있는 전문가를 키워서 수사의 품질을 올리는 게 목표다. 탁상행정이 아니라 정말 좋은 정책을 만들겠다. 현장의 수많은 경찰들이 제대로 법 집행을 할 수 있도록."
