메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 CEO와칭 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>IT/인터넷

IT 기업들, 데이터 라벨링 프로젝트 당 평균 8만5000개 데이터 수집·가공

IT 산업군의 데이터 라벨링 유형. /크라우드웍스

인공지능(AI) 기술 고도화를 목적으로 데이터 라벨링을 진행한 국내 IT 기업들은 프로젝트당 평균 8만5000개의 데이터를 수집했거나 가공한 것으로 나타났다.

 

크라우드소싱 기반 인공지능 데이터 수집·가공 플랫폼 기업 크라우드웍스는 6일 '2020 산업별 데이터 활용 수요 현황 분석 보고서'를 발간하고 이같이 밝혔다.

 

보고서는 지난 1월 1일부터 8월 31일까지 크라우드웍스에서 진행된 271건의 데이터 라벨링 프로젝트를 분석해 '4차 산업혁명 시대'를 맞아 IT, 제조, 의료, 유통, 금융, 공공, 연구 등 다양한 산업군의 데이터 활용 수요 현황을 담고 있다. 데이터 라벨링은 AI 기술 고도화에 필요한 데이터를 수집하고 가공하는 작업을 뜻한다.

 

조사 결과, 데이터 라벨링에 가장 적극적인 산업군은 IT였다. 전체 프로젝트의 68.3%에 해당하는 185건이 IT 관련 산업이었으며, 수집 또는 가공된 데이터량만 1576만개 이상으로 집계됐다. IT산업군 중에서도 가장 많은 데이터 라벨링을 진행한 분야는 AI로 전체 프로젝트의 44.9%(83건)을 차지했다.

 

IT산업군의 데이터 수요는 수집보다 가공이 더 높은 것으로 나타났다. 전체 프로젝트의 절반이 넘는 56.2%(104건)가 데이터 가공이었으며 나머지 43.8%(81건)이 데이터 수집으로 조사됐다.

 

프로젝트별 데이터 유형에서는 전체 49.7%(92건)을 차지한 이미지가 가장 높았으며, 이어 텍스트 19.5%(36건), 음성 15.7%(29건), 동영상 9.2%(17건), 설문조사 5.4%(10건), 기타 0.5%(1건) 순이었다.

 

비 IT산업군에서 가장 많은 데이터 라벨링을 진행한 분야는 제조업이었다. 전체 58건의 프로젝트 가운데 32.8%(19건)를 기록했으며 의료 29.3%(17건), 유통 19%(11건), 스포츠 6.9%(4건), 금융 5.2%(3건) 등이 뒤를 이었다.

 

프로젝트 당 데이터 라벨링 수치가 가장 높은 곳은 공공기관으로 나타났다. 공공기관은 프로젝트 당 평균 20만개 이상의 데이터를 수집 또는 가공하며 국내 산업의 전체 평균치인 8만7500개보다 134% 높은 수치를 기록했다. 이는 정부가 적극 추진하고 있는 AI 학습용 데이터 구축 사업의 결과가 반영된 것으로 보인다.

 

박민우 크라우드웍스 대표는 "데이터의 가치와 활용도를 높이기 위해 어떻게 수집하고 어떠한 방법으로 가공하느냐가 중요하다"며 "크라우드웍스는 16만 데이터 라벨러와 함께 데이터의 새로운 가치를 창출하고 디지털 뉴딜 시대를 선도할 수 있는 기반 마련에 최선의 노력을 다하겠다"고 말했다.

 

한편, 크라우드웍스의 '2020 산업별 데이터 활용 수요 현황 분석 보고서'는 홈페이지에서 다운로드 할 수 있다.

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr