메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>과학

발전하는 번역 서비스, 기계는 어떻게 글을 인식할까

한컴인터프리가 최근 출시한 음성인식 통번역 애플리케이션 지니톡이 일기예보를 하는 아나운서의 음성을 인식해 영어로 통역하고 있다. 현재 무료 애플리케이션으로 출시된 지니톡은 향후 데이터 접속 없이도 사용할 수 있는 잔말기 형태의 제품으로도 출시될 예정이다. /한글과컴퓨터



그간 기술의 발달에도 불구하고 사람의 영역으로 남아있던 통·번역에 인공지능이 도입되고 있다.

정보기술(IT)은 인간의 삶을 풍요롭게 하지만 모든 사람이 혜택을 누릴 수 있는 것은 아니다. 문화권·국가에 따라 사용하는 언어가 다르면 아무리 좋은 기술도 빛을 잃고 만다. 언어의 장벽은 생각보다 높다. 우리는 간단한 전자기기의 사용설명서조차 제대로 번역돼 있지 않은 경우를 종종 발견하곤 한다.

24일 관련 업계에 따르면 통·번역 기술이 발전하며 이러한 불편을 줄여주고 있다. 세계적으로 가장 널리 쓰이는 번역 서비스를 제공하는 구글은 최근 자사 서비스에 인공지능 알고리즘인 딥러닝을 도입했다.

기존 구글번역은 빅데이터를 학습해 만든 문구기반 기계번역(PBMT: Phrase Based Machine Translation)과 통계기반의 기계번역(SMT: Statistical Machine Translation)을 사용해왔다. PBMT는 입력되는 문장을 단어와 구절로 분해해 각기 대응하는 외국어 단어와 구절을 찾고 합성해 문장을 만드는 방식이다. 대응하는 단어와 구절은 SMT 방식으로 가장 많이 선택·사용됐던 것을 골라 적용한다. 언어 규칙이 아닌 빅데이터를 활용하기에 다양한 언어를 지원하더라도 사용 사례가 많은 언어에서만 준수한 품질의 번역을 제공했다. 사용빈도가 낮은 한국어의 경우 엉뚱한 번역을 제공하는 일이 많았다.

대표적인 사례가 음식점 메뉴판의 잘못된 영어표기다. 구글번역에 의존한 음식점들은 '육회비빔밥'을 'Six membership fees pip rice'로, 선지국밥을 'Blood rice served in soup'로 표기해 외국인 관광객들의 비웃음을 사기도 했다. 일부 구글번역 사용자들 사이에서는 번역 품질을 높이기 위해 사용 빈도가 높은 일본어를 경유하는 영어-일본어-한국어 순서 번역도 유행했다.

최근 구글은 번역 정확도를 높이기 위해 번역 서비스에 딥러닝 기술인 '구글 인공신경망 기계번역(GNMT: Google Neural Machine Translation)'을 적용했다. 사람이 입력한 것을 빅데이터로 기억하는 것이 아니라 스스로 학습하고 문제를 해결하게 된 것이다. 이 방식에서는 입력된 문장을 통째로 읽어 번역한다. 입력된 문장에 대응하는 외국어 단어·문장을 모두 찾은 뒤 문맥과 연관 없는 것을 지우는 방식으로 번역이 이뤄지는 것이다. 구글은 GNMT가 기존 PBMT에 비해 오류가 영어-중국어는 58%, 영어-스페인어는 87% 줄였다고 밝혔다.

각 언어쌍에 따른 번역 수준. 사람의 번역 능력이 가장 뛰어나지만 일부 언어쌍에서는 기계번역이 사람에 근접한 수준을 제공한다. /구글



국내 기업들도 한국어에 특화된 통번역 애플리케이션을 속속 내놓고 있다. 네이버는 최근 모바일 통역앱 '파파고'에 인공신경망 기계번역(NMT) 방식을 도입했다. GNMT와 마찬가지로 문장을 통째로 이해하고 번역하기에 단어의 순서와 의미, 문맥에서의 의미 차이 등을 반영한다.

가령 '나는 아침 일찍 아침 준비를 했다'는 문장을 SMT 방식에서는 'I prepared early in the morning the morning'으로 '아침'을 둘 다 'morning'으로 번역한다. 하지만 NMT 방식에서는 'I prepared breakfast early in the morning'로 문맥을 고려해 앞의 아침은 morning, 뒤의 아침은 breakfast로 번역했다. 네이버는 데이터 축적에 따라 파파고가 번역 방법을 학습해가도록 한다는 방침이다.

한컴인터프리는 규칙기반 기계번역(RBMT: Rule based Machine Translation)과 통계기반 기계번역(SMT: Statistical Machine Translation)을 조합한 통·번역앱 '지니톡'을 내놨다. 빅데이터가 축적될수록 높은 번역 품질을 제공하지만, 사용빈도가 적으면 정확도가 떨어진다는 문제를 극복하기 위해 언어별 사전을 기반으로 한 번역 방식 RBMT를 도입한 것이다. 번역 일관성은 보장되지만 관용적 표현 등을 제대로 인식하지 못하는 RBMT의 단점도 SMT가 보완해준다. 지니톡은 평창동계올림픽 공식 서비스 앱이기도 하다.

왼쪽부터 네이버, 구글, 한글과컴퓨터의 번역 서비스를 사용해 '저녁 같이 먹을 사람 있어요?'를 영어로 번역해봤다. 번역 품질은 모두 사람에 미치지 못하지만 번역 방식에 따라 흥미로운 차이를 보여준다. /각사



업계 관계자는 "예전부터 사용되어 온 SMT부터 최신 기술인 NMT까지 통번역 기술도 꾸준히 발전하고 있다"며 "초기 단계 기술인 NMT가 어떻게 안정화를 이루면서 서비스 품질을 높일 수 있을지가 앞으로의 관건"이라고 내다봤다.
트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr