메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>IT/인터넷

사투리, 아이 말까지 알아듣는 AI 개발 위한 '말뭉치 데이터' 구축 사업 박차

국립국어원은 지난 8월 말 공개한 AI 한국어 처리 능력 향상에 필수적인 한국어 학습 자료를 제공하는 '모두의 말뭉치' 사이트. /국립국어원

AI 스피커에 말을 하면 표준어를 쓰는 성인의 목소리는 잘 알아듣는 반면, 사투리를 쓰거나 어린아이의 목소리를 잘 못 받아듣는 문제가 제기돼 왔다.

 

AI 기업들은 AI 스피커·챗봇 등의 AI가 방언이나 아이의 목소리도 잘 알아들을 수 있도록 성능 개선에 나서면서, AI 학습용 데이터로 쓰일 언어 빅데이터인 '말뭉치' 구축 사업이 활기를 띄고 있다.

 

22일 관련업계에 따르면 크라우드웍스·솔트룩스·플리토 등 데이터 및 AI 기업들은 정부나 기업이 진행하는 말뭉치 데이터 구축 사업을 잇따라 수주해 프로젝트를 진행하고 있으며, 국립국어원은 최근 한국어 학습자료 13종, 18억 어절 분량의 '모두의 말뭉치'를 공개했다.

 

말뭉치란 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료로, 챗봇·AI 비서가 한국어를 자연스럽게 알아듣고 분석해 말하려면 반드시 다양한 한국어 말뭉치로 학습해야 해 그 중요성은 더 커지고 있다.

 

박민우 크라우드웍스 대표는 말뭉치 데이터 구축 사업이 활기를 띄는 이유에 대해 "AI 스피커가 대중화됐지만 AI 개발자가 자기 목소리 위주로 학습을 시키면서 30대 남자 목소리를 잘 알아듣는 반면, 사투리·미취학 아동의 목소리는 단어가 맞더라도 억양이 달라 알아듣지 못하는 문제가 있었다"고 설명했다.

 

그는 또 "이전에도 말뭉치 데이터가 있었지만 기업이 각자 수집하거나 표준화되지 않아 AI 성능을 높이는 데 한계가 있었다"며 "국립국어원이나 정부에서 표준화된 언어 데이터 가공 수집에 나서면서, 말뭉치 데이터 구축이 더 활기를 띄고 있다"고 덧붙였다.

 

크라우드웍스는 일반인을 작업에 참여시키는 크라우드소싱 기반으로 올해 3분기 동안 46개의 말뭉치 관련 프로젝트를 수행해 100만개 이상 데이터를 수집하고 가공하는 성과를 거뒀다.

 

크라우드웍스에서 진행한 프로젝트의 78%인 36개 과제가 AI 학습을 위한 데이터였다. 그동안 수집 가공된 말뭉치 데이터는 자동 번역, 대화 분석, 챗봇 등 AI 기반 솔루션 기술 고도화 및 각종 언어 연구에 활용되고 있다.

 

특히 크라우드웍스는 프로젝트와 유관한 어학 자격증 보유 데이터 라벨러를 우선적으로 선별해 프로젝트에 참여시키며, 데이터의 전문성 강화에 노력하고 있다. 실제 크라우드웍스에 등록된 데이터 라벨러 회원 16만명 가운데 33%에 해당하는 5만명 이상이 토익, 일본어 능력 시험(JPT), 한어수평고시 등 어학 관련 자격증을 보유한 것으로 알려졌다.

 

솔트룩스는 올해 상반기부터 국립국어원과 지역 방언까지 알아들을 수 있는 AI 개발을 위해 '일상대화 말뭉치 구축 사업'을 진행한 데 이어, 최근 정부의 '데이터 댐' 사업 중 한국정보화진흥원이 주관하는 AI 학습용 데이터 구축 사업에서 말뭉치 사업을 수주했다.

 

솔트룩스가 자회사와 함께 참여하는 사업은 118억원 규모의 '한국어 방언 AI 데이터', '한국어-영어 번역 말뭉치 AI 데이터(25억원)', '한국어-중국어·일본어 번역 말뭉치 AI 데이터(71억원)' 사업 등이다. 특히 한국어 방언 AI 데이터는 솔트룩스가 15년 이상 학습용 데이터 구축 전문성을 바탕으로 주관사를 맡았고, 각 부문별 전문성을 보유한 16개 기관이 컨소시엄으로 사업을 진행한다

 

솔트룩스는 이에 앞서 지난 5월부터 국립국어원과 사투리를 포함한 일상 대화를 빅데이터로 만드는 '일상대화 말뭉치 구축' 사업을 진행했다. 500시간의 대화로, 솔트룩스는 약 2000명의 대화를 수집했으며, 표준어보다 지역색이 묻은 대화를 수집하는 데 높은 비중을 뒀다.

 

국립국어원은 이 같이 기업들의 도움을 받아 지난 8월 말 AI 한국어 처리 능력 향상에 필수적인 한국어 학습 자료를 '모두의 말뭉치'에서 공개했다. 실제로 말뭉치 데이터는 기업에서 AI 언어모델 'GPT-3' 등 최신 기술을 실험하는 데 사용되기도 했다.

 

플리토도 최근 정부의 '2차 인공지능 학습용 데이터 구축 사업'에서 주관기업으로 참여해, 중국어 기술과학 및 사회과학, 일본어 문화 등 3개 분야에서 세부 데이터 구축을 진행하고 있다. 총 사업비는 71억 2500만원이다. 대규모 번역 말뭉치 데이터 구축을 위해 플리토는 플랫폼을 활용해 크라우드 소싱 방식으로 사업에 나서고 있다.

 

플리토 관계자는 "양질의 번역 데이터는 AI 번역 품질 향상과 더불어 금융, 증권, 경제, 법률 등 분야에서 지역적, 언어적 특성으로 발생하는 정보의 비대칭성 해소에 도움이 될 것"으로 기대했다.

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr