메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 CEO와칭 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>IT/인터넷

카카오, 5년간 서비스 안정화 투자 3배 이상 확대...'재해복귀원회' 신설, IT 엔지니어링 전담 조직 운영할 것

남궁훈 카카오 상대책위원회 재발방지 대책 공동 소위원장이 7일 온라인에서 개막된 개발자 콘퍼런스인 '이프 카카오 2022'에서 서비스 장애에 대해 설명하고 있다. /행사 캡처

카카오는 지난 10월 15일부터 발생한 '카카오 먹통 사태'는 시스템 관점에서 철저한 이중화가 부족했기 때문이라며 전체 시스템 레이어에서 철저하게 이중화를 실행하겠다고 밝혔다. 또 향후 5년간 서비스 안정화 투자를 기존 대비 3배 이상으로 확대하기로 했다. 또한 '재해복귀위원회'를 신설하고 IT 엔지니어링 전담 조직도 운영하기로 했다. 이외에 메인 백본 센터를 현재의 2곳에서 3곳으로 확대하겠다는 계획도 밝혔다.

 

카카오는 7일 온라인에서 개막된 개발자 콘퍼런스인 '이프 카카오 2022'에서 판교 SK C&C 데이터센터 화재로 인해 발생한 서비스 장애 원인을 분석하고 재발방지대책을 공개했다.

 

고우찬 비상대책위원회 재발방지대책 공동소위원장은 "카카오가 서비스 안정화를 위해 향후 5년간 인재 확보, 기술 개발, 삼중화 이상 재난복구 구현 등을 위해 지난 5년간 투자한 금액의 3배 가량의 투자하겠다"는 계획을 밝혔다.

 

고 위원장은 "안산 데이터센터는 2024년 사용하는 것을 목표로 4600억원을 투입해 시공 중"이라며 "24시간 무중단 운영을 위한 이중화 인프라 구축은 전력, 냉방, 통신까지 적용해 모두 이중화했다"고 밝혔다. 그는 "이번 판교데이터센터 화재에서 이슈가 된 UPS실과 배터리실은 방화격벽으로 분리 시공돼 배터리시설에서 화재가 나더라도 나머지 시설 작동에 영향을 주지 않게끔 설계됐고, 4개의 섹터로 전력 안정성도 극대화했다"고 설명했다.

 

고 위원장은 또한 현재 카카오의 IT엔지니어링 조직은 개발조직 산하에 있는데, 카카오 CEO 직할로 IT 엔지니어링 전담 조직을 확대 편성하는 방안을 검토하고 있다고 밝혔다. 국내 최고의 IT 엔지니어링 전문가들도 적극 영입하겠다고 말했다.

 

고 원장은 이와 함께 "대규모 장애에 대비한 재해복구위원회를 신설하도록 하겠다"며 "책임 있는 인력으로 구성된 위원회에서 즉각적으로 대규모 장애에 대응하겠다"고 밝혔다.

 

카카오는 재난복구 시스템을 데이터센터 3개가 연동될 수 있도록 삼중화 이상으로 고도화할 계획이라고 밝혔다. 카카오는 데이터 삼중화가 구현된다면 데이터 한 곳이 무력화되어도 이중화가 담보돼 안정성을 갖추게 된다고 설명했다. 카카오톡의 핵심 서비스인 메시지 전송 기능을 담당하는 원격지 재난복구(DR) 데이터센터를 구축하는 방안도 검토하기로 했다.

 

이채영 카카오 재발방지대책소위원회 부위원장은 "데이터센터 이중화, 데이터 및 서비스 이중화, 플랫폼과 운영도구 이중화 등 전체 레이어 관점에서 더 철저하게 이중화가 돼 있었다면 화재 진압과 별도로 더 빠르게 서비스를 복구할 수 있었을 것"이라며 "데이터센터 전체에 장애가 발생해도 모니터링과 장애탐지가 잘 될 수 있도록 모니터링 시스템을 다중화할 계획"이라고 밝혔다.

 

카카오 비상대책위원회 원인조사 소위원장인 이확영 그렙 대표는 이번 장애의 이유로 가장 먼저 '데이터센터 간 이중화 문제'를 꼽았다. 그는 "데이터센터 전체에 문제가 생기더라도 다른 데이터센터에 모든 시스템이 이중화돼 있었다면 빠른 복구가 됐을 텐데 일부 시스템이 판교 데이터센터에서만 이중화가 돼 장애 복구가 늦어졌다. 캐시 서버, 오프젝트 스토리가 판교 센터에만 설치돼 있어 카카오 로그인, 카카오톡 사진 전송 기능 등 복구가 늦어진 것"이라고 진단했다.

 

이 대표는 또 "하나의 데이터센터에서 장애가 발생하면 다른 데이터센터로 자동 전환해주는 시스템이 작동되어야 하는데 이 기능 조차 판교 데이터센터에만 설치돼 있었다"며 "수동으로 전환 작업을 진행해 복구가 지연된 것"이라고 설명했다. 그는 또한 "서비스 개발과 관리를 위한 운영 관리 도구 이중화도 부족했다"며 "컨테이너 이미지를 저장, 관리하는 시스템이나 일부 모니터링 도구 등을 화재 여파로 사용할 수 없게 되면서 복구에 상당한 어려움을 겪었다"고 말했다.

 

이 대표는 또한 "1개 데이터센터 전체 장애에 대응한 인력과 자원히 충분치 않다는 점"도 들었다. 그는 "운영 관리 도구의 복구 인력이 부족해던 것이나 이중화에 필요한 상면 부족은 치명적이었다"며 "판교 데이터센터 전체를 대신할만큼 가용 자원이 확보돼 있지 않았기 때문에, 데이터센터 전원이 들어와 모든 시스템이 정상화되기 전까지는 복구를 완료할 수 없었다"고 진단했다.

 

그는 또 '사고 초기 컨트롤타워 부재'를 짚었는데 "카카오와 공동체, 개별 조직이 동시다발적으로 장애에 대응했는데 전체적인 조율과 협업을 지원할 전사 조직이 세팅돼 있지 않아 서비스별로 개발자들이 최선을 다했지만 부족했다"고 설명했다.

 

남궁훈 비상대책위원회 재발방지 대책 공동 소위원장은 이 행사에서 "카카오는 새로운 기술을 통해 미래를 개척하고 이해관계자들과 함께 성장해 ESG 과제를 수행하는 것에 집중했다"며 "우리 서비스를 안정적으로 제고하는 것 자체를 놓쳤다. 이중화는 완성되지 않은 다리와 같았다. 앞으로 카카오 서비스의 안정화가 최우선 과제이며 사회적 책임이라는 사실을 명심하겠다"고 밝혔다.

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr