지난 10월 15일 발생했던 카카오 먹통 사태는 SK C&C 판교 데이터센터의 부실한 화재대응시스템에 원인이 있는 것으로 밝혀졌다. 배터리모니터링시스템(BMS)이 갖춰져 있지만 화재 발생 직전까지도 이상한 징후를 확인하지 못했다.
이번 SK C&C 데이터센터 화재로 서비스 장애 및 이용자 피해가 가장 광범위했던 카카오의 경우, 주요 서비스 핵심 기능을 순차적으로 복구하고 일부 서버를 이전하는 등 조치를 통해 20일 23시경 정상화돼 장애 복구에 127시간 33분이 소요됐다. 또 네이버는 일부 기사 댓글 이용불가 현상 등 일부 기능에만 오류가 발생했으며 주요 서비스 및 기능 대부분은 약 10분~12시간 내 정상화됐다.
◆SK C&C, BMS 화재 발생 전까지 이상징후 보이지 않아
과학기술정보통신부는 방송통신위원회, 소방청과 함께 6일 지난 10월 15일 있었던 SK C&C 판교 데이터센터 화재 및 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표하고 각 3사에 시정을 요구했다.
정부 조사 결과, SK C&C 판교 데이터센터가 배터리 온도 등을 모니터링하는 시스템(BMS)를 갖추고 있는데, 당초 발화로 인해 온도가 올라가면 BMS 센서가 달라진 온도를 인지하고 징후를 보여야만 한다. 하지만 이 BMS가 화재 발생 직전까지 아무 이상징후를 보이지 않았고 지하 3층 내 배터리실에서 발화가 시작됐다.
리튬이온 배터리에서 불이나 데이터센터 전원 공급이 끊어지더라도 무정전전원장치(UPS)가 작동되면 서버 가동을 이어갈 수 있지만, 판교 데이터센터에선 화재 열기 등으로 UPS 작동이 중지됐다. 배터리 상단에 포설되어 있던 전력선이 화재로 인해 손상됐고, 화재 진압을 위한 살수 시 누전 등 2차 피해 우려로 전체 전력을 차단했다.
각 UPS 그룹이 정해진 서버에 이중화된 형태로 전원을 공급하는 체계가 갖춰져 있지만, 화재 등으로 특정 공간의 UPS에 동시 장애 발생 시에는 그 UPS들로부터 전력을 공급받는 서버에 대한 전력 중단이 불가피한 구조이다.
카카오는 서비스 기능을 5개의 레이어로 구분하고 판교 데이터센터(Active 역할)와 기타 센터 간 동작(Active)-대기(Standby) 체계로 이중화했으나, 이번 사고 시 대기(Standby) 시스템이 제대로 동작하지 못 했다. 대기 서버를 액티브로 만들기 위한 권한관리 기능인 '운영 및 관리도구'가 판교 데이터센터에서만 이중화돼 있을 뿐, 데이터센터에 이중화되지 않아 판교 데이터센터 액티브 서버 작동 불능시 서비스 장애 복구가 지연됐다.
또한,'애플리케이션', '서비스 플랫폼' 레이어에서도 이미지·동영상 송수신 시스템 등 일부 서비스 구성 요소가 데이터센터 간 이중화되어 있지 않아 복구에 상당 시간이 걸렸다. 카카오톡, 다음 등 카카오 서비스 대부분의 핵심기능이 판교 데이터센터에 집중돼 있어 판교 데이터센터 사고 발생시 대부분 서비스가 즉각 영향을 받는다. 또 여러 서비스의 구동 초기단계부터 필요한 '카카오인증'과 같은 핵심기능도 판교 센터에 집중돼 있다.
카카오는 장애 탐지·전파·복구 전반에 걸쳐 기본 프로세스를 정의하기는 하지만, 각 단계별 체계화 및 자동화가 미흡했다. 먹통사고로 카카오에는 현재 10만5116건의 피해가 접수됐으며, 유료 서비스 피해는 1만4918명건에 달했다.
네이버는 데이터센터 간 이중화 조치를 해 서비스 중단은 없었으나, 타 데이터센터로 서비스 전환 과정 등에서 일부 기능에 오류가 발생했다. 대부분 기능 오류의 경우, 다른 기능에 비해 상대적으로 낮은 복구 우선순위, 복구하는 데이터의 무결성 확인 등 이유로 복구에 상당 시간이 소요됐다.
◆정부, 3사에 1개월 이내로 주요 원인 개선 조치 내려
정부는 이번 사고로 국민이 입은 피해의 신속한 복구와 재발 방지를 위해 각 사업자의 선제적인 조치가 필요하다고 분석했다. 또 SK C&C와 카카오, 네이버 3사에게 1개월 이내로 주요 원인에 대해 개선 조치하거나 향후 조치계획을 수립해 방송통신재난 대책본부에 보고하도록 행정지도를 추진하기로 했다.
과기정통부는 카카오에 대해 장애 복구 지연의 핵심 원인인 '운영 및 관리도구'에 대해 데이터센터 간 액티브(Active)-(Active) 등 매우 높은 수준의 다중화를 적용할 것을 요구했다. 애플리케이션 간 상호의존도가 높은 기능, 서비스의 핵심적 기능인 메신저의 메시지 수발신 등 핵심 기능에 대해 우선순위, 중요도 등을 고려해 현재보다 높은 분산 및 다중화를 적용하는 방안을 수립하라고 지시했다. 또한 재난대비 훈련 등 조치를 요구했는데 데이터센터 전소, 네트워크 마비 등 최악의 상황을 대비한 훈련 계획을 수립하고 모의 훈련을 실시할 것을 요구했다. 또 신속한 장애 복구를 위해 서비스별 복구목표 설정, 상시 대응조직 구성, 장애 시나리오별 복구방안 수립 등과 장애 탐지-전파-복구 전 단계의 복구체계를 재검검해 자동화 기능 요소 발굴 등 개선방안을 수립토록 했다.
이와 함께 정부는 SK C&C에 대해 배터리모니터팅시스템 계측정보 등 관리 강화 방안 및 현 배터리모니터링시스템 외의 다양한 화재감지 시스템 구축 방안을 설계하도록 했다. 또 배터리와 전기설비 간 물리적 공간을 분리하고 배터리실 내 위치한 전력선을 재배치해 구조적 안정성을 확보해간다는 방침이다.
Copyright ⓒ 메트로신문 & metroseoul.co.kr
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성