울산과학기술원, 음성만으로 영상 속 표정 바꾸는 AI 기술 개발

메트로신문 부산취재본부=이도식 기자 ㅣ2026-06-18 15:07:07

같은 말이라도 어조에 따라 칭찬이 되기도, 비꼼이 되기도 한다. 이처럼 음성에 담긴 미묘한 감정 차이를 읽어내 영상 속 화자의 표정을 바꾸는 AI 기술이 개발됐다.

울산과학기술원(UNIST) 인공지능대학원 김태환 교수 연구팀은 음성 신호에서 감정을 추출해 영상 속 화자의 표정을 원하는 감정으로 변환하는 AI 모듈 'C-MET(Cross-Modal Emotion Transfer)'을 개발했다고 18일 밝혔다.

기존 방식은 크게 세 가지로 나뉜다. '슬픔', '기쁨' 같은 이름표를 붙여 학습시키는 방법, 감정이 담긴 참조 이미지를 활용하는 방법, 음성을 입력으로 쓰는 방법이다.

그러나 레이블 기반 방법은 이산적 범주로 감정을 표현하기 때문에 다양한 감정을 포착하기 어렵고, 이미지 기반 방법은 고품질 정면 사진이 필요하며, 기존 음성 기반 방법은 음성 안에 말의 내용과 감정이 뒤섞여 있어 목표 감정을 제대로 표현하지 못하는 한계가 있었다.

C-MET은 감정의 '변화량'에 주목해 이 문제를 풀었다. 중립적 음성과 감정이 실린 음성의 차이를 벡터로 계산하고, 이 벡터가 얼굴에서 어떤 표정 변화로 나타나는지를 학습하는 방식이다.

이에 음성 안에서 말의 내용과 감정이 섞여 있어도, 표정 변화에 필요한 감정 신호만 분리해 읽어낼 수 있다. 같은 문장이라도 어조가 달라지면 입꼬리, 눈썹, 눈 주변 움직임이 다르게 나타난다.

C-MET은 개별 감정에 이름표를 붙이지 않고 두 감정 사이의 변화량을 보기 때문에 비꼼, 공감, 카리스마처럼 학습 과정에서 직접 보지 못한 감정도 표현할 수 있다. 감정이 담긴 고품질 정면 사진 같은 참조 이미지도 필요 없다.

성능도 검증됐다. 최신 말하는 얼굴 표정 편집 기술인 '이디톡(EDTalk)'의 표정 인코더를 C-MET으로 대체한 결과, MEAD 데이터셋 기준 감정 정확도가 41.99%에서 55.91%로 올랐다. 또 다른 얼굴 생성 모델 'PD-FGC'에 적용했을 때도 33.36%에서 36.82%로 향상됐다.

김태환 교수는 "참조 이미지 없이 음성만으로 얼굴 영상의 감정을 바꿀 수 있다는 점에서 기존 방식들의 한계를 실질적으로 해결했다"며 "가상 인간 제작, 영화·콘텐츠 후반 작업, 감정 인식 AI 등 다양한 분야에 폭넓게 활용될 수 있는 기반 기술"이라고 말했다.

이번 연구에는 최찬혁 UNIST 인공지능대학원 석사과정생이 제1저자로 참여했다. 연구 성과는 컴퓨터 비전 분야 최우수 국제 학회인 'CVPR 2026'에 채택됐으며 올해 학회는 미국 덴버에서 개최된다.

메트로人

머니

산업

IT·과학

정치＆정책

생활경제

사회

에듀＆JOB

기획연재

오피니언

라이프

플러스

독자서비스

포럼＆컨퍼런스

울산과학기술원, 음성만으로 영상 속 표정 바꾸는 AI 기술 개발

기사이력코드