정부가 카카오에 인증(이용자 본인 확인 등)과 메시지 수발신 등 핵심 기능 서버(서비스 제공 및 데이터 관리에 사용되는 컴퓨터)의 분산 운영 및 다중화 수준을 높일 것을 요구했다.
과학기술정보통신부·방송통신위원회·소방청 등은 6일 오후 서울 종로구 정부서울청사에서 기자회견을 열고, 지난 10월15일 발생한 에스케이씨앤씨(SK C&C) 판교데이터센터 화재 및 그에 따른 카카오·네이버 서비스 장애 원인과 과정에 대한 조사 결과를 발표했다. 또 에스케이씨앤씨·카카오·네이버에 한 달 안에 주요 사고 원인에 대한 개선 조치를 하거나 향후 계획을 수립해 보고하도록 했다고 밝혔다.
이종호 과학기술정보통신부 장관이 6일 서울 종로구 정부서울청사서 에스케이씨앤씨 판교데이터센터 화재 및 카카오·네이버 서비스 장애 원인에 대한 조사 결과를 발표하고 있다. 연합뉴스
이종호 과기정통부 장관은 데이터센터 화재 원인과 관련해 “이중화된 형태로 전원을 공급하는 체계가 갖춰져 있었으나, 방화수 살수로 인한 2차 피해가 우려되는 특정 구역 및 차단 스위치를 짧은 시간 안에 식별하기가 어려워 전체 전력 차단이 불가피했던 것으로 조사됐다”고 밝혔다. 이어 “에스케이씨앤씨가 화재 대비 매뉴얼을 갖추고 있었으나 살수 상황이나 발화 구역 등 실제 화재 상황을 반영한 세부 대응 계획을 갖추고 있진 않았다”고 덧붙였다.
정부는 판교데이터센터에 입주한 카카오와 네이버 중 카카오 서비스 피해 범위가 유독 넓고 복구도 늦어진 데 대해서는 “이중화 조치 미흡 탓”이라고 결론 내렸다. 과기정통부 설명에 따르면, 네이버는 데이터센터 간 이중화 조치를 해 둬 서비스 장애 범위가 적고 장애 시간도 짧았다. 다른 데이터센터 서버로 전환하는 과정에서 일부 기능에 오류가 발생했으나, 대부분 20분∼12시간 안에 정상화됐다.
카카오는 서비스를 기능별로 다섯 개 층으로 구분하고, 판교데이터센터와 다른 데이터센터 사이에 ‘동작-대기 체계’로 이중화를 해 뒀으나, 이번 사태 때는 ‘대기’ 시스템이 제대로 작동되지 않았다. 대기 서버를 동작 서버로 만들기 위한 권한 관리 기능의 이중화가 판교데이터센터 서버끼리 돼 있을 뿐 다른 데이터센터 서버와는 이중화가 안돼 있었던 것도 장애 복구가 늦어지게 만든 요인이었다. 정부는 카카오톡과 다음 등 카카오 서비스 대부분의 핵심 기능이 판교데이터센터에 집중돼 있었던 점도 문제라고 지적했다. 이종호 장관은 “특히 여러 서비스를 구동하는 초기 단계에서 필요한 ‘카카오인증’ 같은 핵심 기능까지 판교데이터센터에 집중돼 있어, 여러 서비스 전반에 광범위한 피해가 간 것으로 나타났다”고 말했다.
정부는 ‘서비스 먹통 사태’ 재발을 막기 위해 에스케이씨앤씨·카카오·네이버에 한 달 안에 주요 원인을 개선하거나 향후 조치 계획을 세워 방송통신재난대책본부에 보고하라고 행정지도를 내리기로 했다. 특히 카카오에는 복구 지연의 핵심 요인으로 꼽힌 ‘운영 및 관리 도구’를 데이터센터 간에 ‘동작-대기’ 상태가 아닌 ‘동작-동작’ 형태로 이중화할 것을 요구했다. 똑같은 기능의 서버 2대를 동시에 가동해, 한쪽에서 장애가 발생해도 서비스에 문제가 없도록 하라는 것이다. 또 애플리케이션 간 상호 의존도가 높은 인증 기능과, 메신저의 메시지 수발신 등 개별 서비스의 핵심 기능들에 대해서는, 우선순위와 중요도를 고려해 지금보다 높은 수준의 분산 및 다중화를 적용할 방법을 세우라고 주문했다.
이종호 장관은 “데이터센터와 디지털 서비스의 장애가 국민 일상의 불편을 넘어 경제·사회 전반을 마비시키는 등 지대한 영향을 주는 만큼, 사고 원인을 제공한 사업자들이 피해 복구와 재발 방지를 위해 최선의 노력을 다해 신뢰를 회복하길 바란다”고 말했다. 이어 “정부도 이번 사고를 계기로 주요 디지털서비스에 대한 재난 대응 체계를 원점에서 재검토하고, 각 사업자들이 내놓는 개선 방안과 점검 결과 등을 종합해 디지털 시대에 맞는 안정성 강화 방안을 마련하겠다”고 밝혔다.
정인선 기자
ren@hani.co.kr