'20~30분 음성 데이터 만으로도 AI 목소리 만들어요'...짧은 시간 데이터 만으로 AI 제작 '뚝딱'

라이언로켓이 AI영상합성 기술을 보여주기 위해 유튜브에 공개한 동영상. /라이언로켓 유튜브 캡처

인공지능(AI) 솔루션이 고도화되면서 짧은 분량의 음성·영상 데이터만으로 '진짜 사람 같은' AI 제작이 가능해졌다.

20분 분량의 음성 데이터만 있으면 내 영상에 AI로 연예인의 목소리를 합성할 수 있고, 1시간 영상 데이터만 있다면 AI 버추얼휴먼(가상인간) 영상도 뚝딱 만들 수 있다. 특히, 사람처럼 자연스러운 목소리와 움직임이 필요한 AI 아나운서조차도 5시간 만에 영상 제작이 가능해졌다.

AI 음성 분야의 대표기업인 라이언로켓과 휴멜로는 20~30분의 짧은 음성 데이터로 AI 목소리를 생성할 수 있는 음성합성 기술을 선보였으며, AI 아나운서 솔루션 기업인 머니브레인과 이스트소프트는 5시간 분량의 데이터 만으로 AI 아나운서 영상을 제작해 초기에 제작한 AI 아나운서와 비교해 시간을 반으로 줄였다.

이들 AI 기업들은 앞으로 AI 아나운서 영상을 1시간 만에 제작하고, AI 영상 합성 시간도 더 단축시킬 수 있도록 기술 고도화에 지속적인 투자를 단행할 계획이다.

라이언로켓은 딥러닝 기반의 음성합성·영상합성 기술을 보유한 스타트업으로, 적은 데이터로 AI 모델 제작이 가능하다는 점에서 기술력을 인정받고 있다.

라이언로켓측은 "목소리의 경우, 20분 분량 음성 데이터만 있으면 AI를 만들 수 있으며, 인물 영상은 1시간의 영상 데이터만 있다면 실제 인물과 동일하게 표현하는 AI 강사를 만들 수 있다"며 "특히, 만들어진 AI가 실제 사람이 촬영한 것만큼 자연스러움(MOS)이 높다고 평가된다"고 설명했다.

이 같은 기술력으로 라이언로켓을 설립한 정승환·박준형·문형준 공동 창업자는 최근 미국 경제잡지 포브스(Forbes)가 발표한 '2021년 아시아 30세 이하 리더 30인' 중 '기술 사업' 부분 수상자로 선정되기도 했다.

라이언로켓은 또 기술력을 높게 평가받아 최근 우리은행과 AI 버추얼 휴먼의 은행원(뱅커)를 개발하기로 하는 업무협약도 체결했다. AI뱅커는 딥러닝 기술을 기반으로 영상과 음성 합성을 통해 특정인물의 외모, 자세 및 목소리를 반영해 가상의 은행원을 구현하는 것으로, 고객의 음성을 분석하고 이해해 실제 은행원이 상담하는 것과 같은 역할을 수행하게 된다.

휴멜로의 AI 성우 서비스 '프로소디'. 사이트에서 원하는 감정을 선택하고 텍스트를 입력하면 그 감정에 맞는 목소리로 텍스트를 읽어준다. /휴멜로

음성합성 AI 전문기업인 휴멜로도 기존 음성합성 기술의 경우, 최소 3시간 이상 녹음이 필요했지만, 녹음시간을 30분으로 크게 단축시킨 AI 성우 서비스를 최근 선보였다. 이에 따라 일정이 바쁜 유명인들도 짧은 시간 만 내면 AI 기술로 오디오북 녹음이나 더빙에 참여할 수 있게 된다.

휴멜로의 '프로소디'는 감정연기가 가능한 AI 성우로, 기존 TTS(텍스트투스피치) 기술은 억양이 없는 어색한 기계음으로 사용이 제한적이었지만, 화냄, 흥분, 즐거움, 차분함, 두려움, 슬픔 등 감정을 선택하면 실제 성우와 같이 감정을 살려 텍스트를 읽어줄 수 있다. 프로소디는 이미 SM엔터테인먼트에서 래퍼 슬리피와 함께 '엠 아이 포 리어'라는 노래의 랩을 하는 데 활용되기도 했다.

이 회사는 '프로소디'를 시범 삼아 사용해볼 수 있도록 월 4000자 이내에서는 무료로 서비스를 제공하고, 월 2만4000자 이내 개인영상 크리에이터 등을 대상으로 하는 기본 서비스에 대해 월 2만4900원을, 월 12만자 이내 프로 서비스에 대해 9만9000원을 책정했으며, 런칭 기념 반 값 특별 프로모션 행사도 진행하고 있다.

이와 함께 최근 서비스가 점차 확대되는 AI 아나운서도 1년 만에 제작 시간을 대폭 단축시켰다.

이지애(사진 오른쪽) 아나운서가 자신의 모습을 한 AI 아나운서를 바라보고 있다. /LG헬로비전

AI 아나운서 대표기업인 머니브레인은 2019년 말 영상 및 음성데이터를 학습시켜 AI를 제작하는 데 소요되는 시간이 10시간 걸리던 것을 현재는 더 짧은 분량의 데이터 만으로 AI를 개발할 수 있도록 기술을 고도화해 5시간으로 줄였다고 밝혔다. 또 영상 해상도를 개선해 사람 크기의 대화면 키오스크에서도 구현이 가능해졌으며, AI 모델이 대기상태에서 제스처나 표정, 몸 흔들림 등 자연스러운 동작이 가능해졌다고 설명했다.

머니브레인 관계자는 "향후 1~2시간 내로 촬영 가능한 수준으로 기술을 고도화시키는 것이 목표"라며 "별도 표식이 없다면 인간과 구분할 수 없는 수준으로 실시간 대화가 가능한 AI 버추얼 휴먼을 제작하는 것이 최종 목표"라고 밝혔다.

지난 4월 YTN을 통해 처음 AI 아나운서를 선보인 이스트소프트는 AI 아나운서 얼굴 및 브리핑 영상이 전처리된 데이터 기준 약 5시간 분량이 필요하다고 밝혔다. 또 텍스트 기사를 AI 아나운서를 활용해 뉴스 동영상을 생성하는 데 걸리는 시간은 텍스트 길이와 같아, 30초 길이의 텍스트라면 바로 30초 후에 뉴스 동영상으로 만들어낼 수 있다.

이처럼 전 세계적으로도 적은 데이터 만을 학습시켜 AI를 개발해 제작시간을 단축하려는 연구·개발이 활발하다.

딥러닝이 대표적인 기계 학습 방식으로 많은 양의 학습용 데이터를 필요로 하는 데 비해, 최근 주목받는 뉴로 심볼릭 방식은 기계학습 방식보다 더 적은 데이터 만으로 AI를 개발할 수 있어 개발에 소요되는 시간과 비용도 절감할 수 있다. 뉴로-심볼릭 기술에 의존한다면 영상·음성 등 데이터를 만드는 데 많은 시간을 할애하지 않아도 되고, 학습은 물론 논리까지 결합해 딥러닝 방식 AI 기술이 '설명 가능하지 않은 블랙박스'라는 한계도 극복할 수 있게 된다.

국내 AI 기업들도 빠르면 1분 만에 AI로 가상얼굴을 만들어주거나 단 몇 분 만에 목소리를 합성하는 기술 개발에 앞다퉈 나서고 있어, 향후에는 더 짧은 분량의 데이터 만으로 빠르게 AI를 개발할 수 있을 것으로 기대된다.

메트로人

머니

산업

IT·과학

정치＆정책

생활경제

사회

에듀＆JOB

기획연재

오피니언

라이프

플러스

독자서비스

포럼＆컨퍼런스

'20~30분 음성 데이터 만으로도 AI 목소리 만들어요'...짧은 시간 데이터 만으로 AI 제작 '뚝딱'

관련기사