인공지능(AI) 기술 고도화를 목적으로 데이터 라벨링을 진행한 국내 IT 기업들은 프로젝트당 평균 8만5000개의 데이터를 수집했거나 가공한 것으로 나타났다.
크라우드소싱 기반 인공지능 데이터 수집·가공 플랫폼 기업 크라우드웍스는 6일 '2020 산업별 데이터 활용 수요 현황 분석 보고서'를 발간하고 이같이 밝혔다.
보고서는 지난 1월 1일부터 8월 31일까지 크라우드웍스에서 진행된 271건의 데이터 라벨링 프로젝트를 분석해 '4차 산업혁명 시대'를 맞아 IT, 제조, 의료, 유통, 금융, 공공, 연구 등 다양한 산업군의 데이터 활용 수요 현황을 담고 있다. 데이터 라벨링은 AI 기술 고도화에 필요한 데이터를 수집하고 가공하는 작업을 뜻한다.
조사 결과, 데이터 라벨링에 가장 적극적인 산업군은 IT였다. 전체 프로젝트의 68.3%에 해당하는 185건이 IT 관련 산업이었으며, 수집 또는 가공된 데이터량만 1576만개 이상으로 집계됐다. IT산업군 중에서도 가장 많은 데이터 라벨링을 진행한 분야는 AI로 전체 프로젝트의 44.9%(83건)을 차지했다.
IT산업군의 데이터 수요는 수집보다 가공이 더 높은 것으로 나타났다. 전체 프로젝트의 절반이 넘는 56.2%(104건)가 데이터 가공이었으며 나머지 43.8%(81건)이 데이터 수집으로 조사됐다.
프로젝트별 데이터 유형에서는 전체 49.7%(92건)을 차지한 이미지가 가장 높았으며, 이어 텍스트 19.5%(36건), 음성 15.7%(29건), 동영상 9.2%(17건), 설문조사 5.4%(10건), 기타 0.5%(1건) 순이었다.
비 IT산업군에서 가장 많은 데이터 라벨링을 진행한 분야는 제조업이었다. 전체 58건의 프로젝트 가운데 32.8%(19건)를 기록했으며 의료 29.3%(17건), 유통 19%(11건), 스포츠 6.9%(4건), 금융 5.2%(3건) 등이 뒤를 이었다.
프로젝트 당 데이터 라벨링 수치가 가장 높은 곳은 공공기관으로 나타났다. 공공기관은 프로젝트 당 평균 20만개 이상의 데이터를 수집 또는 가공하며 국내 산업의 전체 평균치인 8만7500개보다 134% 높은 수치를 기록했다. 이는 정부가 적극 추진하고 있는 AI 학습용 데이터 구축 사업의 결과가 반영된 것으로 보인다.
박민우 크라우드웍스 대표는 "데이터의 가치와 활용도를 높이기 위해 어떻게 수집하고 어떠한 방법으로 가공하느냐가 중요하다"며 "크라우드웍스는 16만 데이터 라벨러와 함께 데이터의 새로운 가치를 창출하고 디지털 뉴딜 시대를 선도할 수 있는 기반 마련에 최선의 노력을 다하겠다"고 말했다.
한편, 크라우드웍스의 '2020 산업별 데이터 활용 수요 현황 분석 보고서'는 홈페이지에서 다운로드 할 수 있다.
Copyright ⓒ 메트로신문 & metroseoul.co.kr
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성