메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 AI영상 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>IT/인터넷

[AI 기업人] AI 음성합성 기술력으로 주목받는 라이언로켓 정승환 대표 "내년 AI 영상합성 기술 선보여 시너지 낼 것"

정승환 라이언로켓 대표가 서울 중구 본사에서 메트로신문과 가진 인터뷰에서 AI 음성합성 기술과 영상제작 프로그램인 '브레스' 서비스에 대해 소개하고 있다. /손진영기자 son

지난해 7월 '국제 인공지능대전'에서 인공지능(AI)으로 합성한 문재인 대통령이 등장한 영상이 큰 화제를 모았다. 하지만 이에 앞서 이미 지난해 2월 AI 딥러닝 기반 음성합성 기술을 이용해 이름을 입력하면 문 대통령 목소리를 합성해 동영상으로 "사랑하는 영희님, 새해 복 많이 받으십시오"라고 인사를 전해주는 '콜미프레지던트'를 선보인 기업이 있었다.

 

깜짝 서비스를 선보인 곳은 라이언로켓으로, 한양대학교 정보시스템학과에 재학 중이던 학부생 3명이 2018년부터 개발 중이던 AI 음성합성 기술로 선보인 첫 결과물이었다.

 

정승환 라이언로켓 대표는 "이벤트를 페이스북 개발자 커뮤니티에 올렸는데 재밌다고 생각하신 분들이 다른 사이트에 퍼나르면서 3일 만에 24만명이 이용했다"며 "새해 인사를 보고 우신 분들도 있었는데, 영상을 진짜로 느낀 분들이셨다"고 말했다.

 

그는 이 이벤트로 사업 가능성을 확신했고 다음 달 정식으로 법인을 설립했다.

 

라이언로켓이 법인 설립 전인 지난해 2월 진행한 '콜미프레지던트' 이벤트. 이름을 입력하면 문 대통령 목소리를 합성해 동영상으로 새해 인사를 전해준다. /라이언로켓

"음성합성 기술 개발 후 테스트를 위해 고성능 그래픽처리장치(GPU)가 필요했는데, 학부생들이다 보니 돈이 없어 만원씩 걷어 3만원으로 아마존 클라우드 서비스를 하루 몇 시간 임대해 사용하기도 했어요. 이후 상금을 받기 위해 공모전에 계속 나갔는데 10개 대회를 나가 9개에서 수상하면서 장비를 구입할 수 있었어요."

 

막 시작한 스타트업인 데도 설립 1달 만에 엔젤 투자와 8월에는 매쉬업엔젤스로부터 시드 투자도 받을 수 있었다. 설립 8개월 만에 어렵다는 TIPS 프로그램에도 선정된 것. 지금까지 프리A 등으로 투자받은 금액이 정부 자금을 포함해 20억원 이상이다. 창업 후 얼마 되지 않아 높은 평가를 받을 수 있었던 것은 돋보이는 기술력 덕분이었다.

 

"이 분야에서도 늦게 만들어진 회사다 보니 다른 업체를 먼저 컨택하다 마지막에 연락이 와요. 하지만 비딩을 해보면 '음질이나 발음이 뛰어나다', '자연스럽다'는 좋은 평가를 받았고 최종 선정된 경우가 많았어요. 음성합성 기술이 현실세계에 녹아들려면 시간을 줄이는 게 중요하다고 생각했고 오디오북 1권을 3분 이내로 만드는 것을 목표로 하고 있어요."

 

성우가 참여해 오디오북 한권을 만들려면 30시간을 읽어야 하는데, 조금씩 나눠 읽다 보니 3~4주가 소요되기 마련인 데, AI를 활용해 사람의 한계를 극복한 것. 그는 "오디오북 한권을 만들 때 비용과 시간을 1/10로 줄이는 것이 목표"라고 강조했다.

 

미디어 창비의 오디오북 발간에 참여했고, 유명 유튜버인 박막례 할머니가 발간한 '박막레시피' 북도 AI 스피커에서 들을 수 있게 했다. 그는 "10개 정도의 오디오북을 발간했는데, 업계에서 오디오북 제작에 가장 많이 참여한 기업"이라고 설명했다.

 

"음성합성 사업을 시작한 이유가 시각장애인 아이가 '동화책을 듣고 싶은데 책이 없다'고 말하는 것을 보고 책을 만들어주고 싶었어요. 제가 가진 재능으로 사회 문제를 해결하고 싶어 오래 전부터 창업을 꿈꿔왔어요." 하지만 책 한권을 만드는 데 1달이 걸리고 비용도 1000만원이 들기 때문에 쉽지는 않았다.

 

"자연스러운 목소리를 가진 인공지능이 만든다면 하루에 천권, 만권이라도 책을 만들 수 있겠다 생각했어요. 시각장애인을 위한 오디오북 제작을 위해 한국점자도서관과 협력하고 있는데, 오디오북을 많이 선보일 계획이에요."

 

지난 10월에는 파워포인트 파일만 업로드하면 슬라이드 노트에 적힌 메모를 음성합성 기술로 더빙해 동영상으로 제작해주고 자막도 자동으로 달아주는 영상제작 프로그램인 '브레스(Vresss)'를 베타 서비스로 선보였다.

 

"PPT 파일에 이미지들이 있으면 동영상으로 바꿔주고 성우 등의 목소리가 합성된 영상이 나와요. 보통 10분짜리 영상 하나를 만드는 데 4시간이 걸리는데, AI로 10분 만에 뚝딱 만들 수 있어요. 기자가 20분을 시간 내 400 문장만 읽으면 AI가 기사와 사진만 가지고 그 기자 음성으로 뉴스를 읽어줄 수 있어요." 이 서비스는 코로나로 비대면 예배를 진행하는 교회, 성당, 법당에 많이 활용되고 있으며, 유튜브 크리에이터나 선생님이 수업용 영상을 만들기 위해서도 종종 사용한다.

 

"기업들 중 영상 마케팅을 하고 싶어 하는 곳이 많은데 장비가 없어 못하는 경우가 많아요. 저희가 툴을 제공해 이 같은 허들을 없애려고 해요." 정 대표는 이번 베타 서비스를 통해 10배 좋은 서비스로 만드는 것을 목표로 하고 있다. "직접 고객과 통화해 무엇이 불편한 지 물어봐요. 회의실로 이용자들을 초청해 사용하는 모습을 관찰하기도 하구요. '정말 신세계'라는 칭찬도 들어요." 내년에는 이 서비스에 자기 목소리로 영상을 만드는 서비스를 제공하는 것이 목표이다. 그는 '전 국민의 목소리를 올리겠다'며 웃었다.

 

이외에도 인터넷 방송 플랫폼 트위치에 기술을 제공해 시청자가 후원금을 기부할 때 한 때 유명세를 탄 '롤러코스터' 성우 등 방송인 목소리로 인사를 하는 서비스도 선보였다. "4월 총선의 MBC 개표방송에서는 이낙연, 황교안, 심상정, 안철수 등 각 정당 대표들이 촬영한 동영상에 목소리를 합성해 지역별 후보자, 정당 득표율을 이들 목소리로 소개했어요. SK C&C와 협약을 맺고 시각장애인용 활자책을 음성으로 변환하는 작업에도 참여했어요. 책에 소리펜을 대면 이병헌·한지민 배우 목소리로 책을 읽어줘요." 최근에는 인강 강사나 쇼호스트, 엔터테인먼트 회사에서도 문의가 들어온다고 했다.

 

정승환 라이언로켓 대표. /라이언로켓

"음성 기술로 인정을 받고 있지만 영상 기술과 시너지가 큰 만큼 최근 개발한 AI 영상합성 기술을 내년에 정식 선보일 계획이에요. 브레스 서비스를 B2C로 진행하고, 음성합성 위에 영상합성 기술까지 올려 B2B 사업을 본격화할 생각이에요."

 

그는 라이언로켓을 생성기술을 기반으로 업계 패러다임을 주도하는 회사로 키울 생각이다. "인공지능의 규모가 커지면서 IT 공룡 등 대기업들의 전유물이 돼 가는 것 같아 안타까워요. 인공지능 기술을 개발해 대중들에게 돌려주고, 그들의 창의성을 끌어내는 '콘텐츠 플랫폼' 기업이 되고 싶어요."

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr