[미래 먹거리, AI를 살려라] ②데이터 3법 통과해도 규정 모호, 정부 데이터 사업 투자 금액 대비 효율 낮아
인공지능(AI)은 가공된 데이터를 학습해 AI가 상황을 예측하거나 분석하기 때문에, AI가 자동차라면 자동차를 작동시키는 원유(原油)가 바로 데이터라 불릴 정도로 큰 중요성을 갖는다. 하지만 우리나라의 AI 기술력이 최근 세계 8위로 평가될 정도로 경쟁국들 대비 낮은데, 세계 최강자들과 비교해 AI에 학습시키는 데이터의 양이 현저히 적은 것이 가장 큰 원인으로 꼽힌다. ◆국내 AI 기업들 데이터 극히 부족, 미국 AI 강자 따라잡을 수 없어 미국 IT 공룡기업인 구글·아마존·페이스북·MS(마이크로소프트) 등이 글로벌 시장 강자로 꼽히는 것도 이 기업들이 보유하고 있는 엄청난 데이터의 양에 기인한다. 최홍섭 마인즈랩 대표(기술 부문)는 "음성인식 분야만 해도 구글은 몇 억 시간씩 AI를 학습시키는 것에 반해, 우리나라는 정부에서 개방한 데이터 등을 활용해 최대 몇 천 시간 학습시키기 때문에 구글 AI의 성능을 따라 잡을 수 없다"고 지적한다. 또 AI의 성능 고도화를 위해서는 계속 새로운 데이터를 AI에 학습시켜야 하기 때문에 데이터의 중요성은 더욱 커지고 있다. 국내에서 그동안 AI 학습용 데이터를 구하기 어려웠던 가장 큰 이유는 개인정보보호법, 신용정보법, 정보통신망법 등 데이터 3법 규제가 큰 걸림돌이 됐기 때문이다. 이에 따라 이를 해결하기 위해 데이터 3법 개정안이 올해 초 국회에서 통과돼 이달 발효됐다. 데이터 3법 개정의 주요 내용으로는 가명정보를 통한 개인정보 활용성 증대, 개인정보 규제 일원화, 마이데이터를 꼽을 수 있다. ◆데이터 3법 시행에도 가명정보 등 개념 불확실, 기업들 "데이터 제대로 활용 어렵다" 하지만 AI 업계에서는 아직도 데이터 3법에 모호한 규정이 많아 데이터 활용이 매우 조심스럽고 아직 변화를 크게 체감하지 못한다는 의견이 지배적이다. AI 기업에서 근무하는 한 변호사는 "개정 데이터 3법에서 영상·음성·비디오 데이터를 개인을 알아볼 수 없을 정도로 가명처리를 해야 하는 데 난점이 있다"며 "사람의 얼굴을 못 알아보게 블러링(흐리게 함) 처리를 하면 과연 가명화됐다고 볼 수 있는 지, 강호동이라면 블러링이 되도 뒷모습만 봐도 강호동인 지 식별할 수 있는데 어디까지가 가명 정보인 지 불확실하다"는 문제를 지적했다. 또 한 데이터 기업 대표는 "가명화된 데이터를 AI에 사용하도록 했는데, 블러링 처리를 할 때 조금만 해도 되는 건지, 심하게 하면 데이터로서의 가치가 떨어지는 문제가 있는데 얼마만큼 해야 가명정보인 지 모호하다"며 "주민등록 등본을 스캔해 이름만 바꾸면 가명정보라고 할 수 있는 지 등 문제와 사진을 블러처리 해도 저작권 문제는 여전이 발생한다는 점도 있다"고 말했다. 그는 결국 인터넷서 떠도는 사진을 임의로 사용하는 것은 문제가 될 수 밖에 없어, 데이터를 자체 제작하거나 정부의 데이터를 활용해야 한다고 설명했다. ◆AI 데이터 제작비용 스타트업 감당할 수 없어, 정부의 AI 데이터 구축 사업 활용가치 크지 않아 데이터 제작에 막대한 비용이 지출된다는 것도 AI 기업들의 어려움을 가중시키고 있다. 데이터 제작 비용은 영상 한 장당 몇 십원부터 몇 만원까지 편차가 큰 데, 예를 들어 도로 사거리에서 보행자들을 관찰하는 CCTV 영상이 필요하다고 하면 엄청난 비용이 소요된다고 한 관계자는 설명했다. 또 AI 학습을 위해 사진 300만장이 필요하고, 장당 2만원 주고 찍는다면 무려 600억원의 비용이 소요되는 것. 국내 대다수 AI 전문업체들이 2016년 알파고 대국 이후 생겨난 스타트업들임을 감안할 때 이 같은 데이터 비용은 당연히 감당하지 못할 수준이다. 이 같은 어려움을 고려해 정부는 AI 데이터를 구축해 개방하는 데 수천억원의 투자를 단행하고 있다. 정부가 최근 발표한 '디지털 뉴딜 사업'의 핵심은 '데이터 댐'인 데, 올해는 댐 안에 담을 데이터 확보를 우선으로 사업을 진행해 AI 학습용 데이터 구축 사업에 3473억9000만원과 공공데이터 개방 사업에 1160억7000만원을 배정했고, 올해 150종의 AI 데이터를 구축하기로 했다. AI 업계에서는 이 같은 정부의 데이터 구축 계획에 대해서는 환영하면서도, 투자 금액 대비 효과는 높지 않은 것으로 평가하고 있다. 한 AI 기업 대표는 "모든 데이터는 인공지능이 풀고자 하는 산업계 문제가 핵심이 되어야 하고 사업 현장의 목소리가 모여 먼저 문제가 식별한 후 데이터를 모아야 한다"며 "정부의 데이터 사업은 데이터를 잔뜩 모아놓으면 AI 기업에 도움이 될 것이라는 생각으로 문제 식별 전 선제적으로 진행하는데, 데이터를 위해 엄청나게 많은 비용을 투자함에도 막 모아놓은 데이터여서 활용가치가 떨어진다"는 문제를 지적했다. 정부의 데이터는 AI를 사전에 학습시키는 용도 정도로만 활용된다는 것. 한 AI 업계 관계자도 "AI 기업 중 통신 이용자들의 소비 패턴이 필요한 곳이 많더라도 이 같은 데이터는 공개되지 않아 기업 입장에서는 '알맹이가 빠진 데이터'라는 느낌을 받는다"며 "유용한 데이터가 많지 않고 사용 제한이 있는 데이터가 많다 보니 널리 활용하지 못하고 있다"고 설명했다.