울산과학기술원, AI 학습 데이터 언어화로 블랙박스 규명

메트로신문 부산취재본부=이도식 기자 ㅣ2025-12-28 21:46:42

김태환 울산과학기술원(UNIST) 인공지능대학원 교수팀이 AI 학습 데이터를 사람의 언어로 변환해 블랙박스를 설명하는 새로운 방법론을 내놨다.

UNIST는 28일 AI 학습 데이터를 자연어로 바꿔 인공지능의 의사 결정 과정을 규명하는 학습 방법론을 제안했다고 밝혔다.

딥러닝 모델은 결과는 정확하게 맞히면서도 어떤 근거로 판단했는지 알기 어려운 블랙박스로 불린다. 기존 설명 가능한 인공지능(XAI) 연구는 학습이 끝난 모델의 내부 연산이나 예측 결과를 사후 분석하는 방식이었다.

연구팀은 모델이 아닌 학습의 원천인 데이터에 집중했다. 데이터 특징을 설명문으로 만들고 이를 분석해 모델의 판단 과정을 밝히는 방식이다.

먼저 챗GPT 같은 LLM 모델로 사진 속 사물 특징을 여러 문장으로 설명하게 했다. 환각 현상 없는 고품질 설명문을 위해 인터넷 백과사전 등 외부 지식도 참고하도록 했다.

LLM이 만든 수십 개 설명 문장이 모두 유효한 건 아니다. 연구팀은 AI 모델이 정답을 맞추는 데 실제 참고한 설명문을 가려내기 위해 'IFT'라는 정량 분석 지표를 개발했다.

IFT는 특정 설명 문장을 학습 데이터에서 뺐을 때 모델 예측 오차 변화로 학습 기여도를 재는 영향력 점수와 텍스트 설명이 실제 이미지 시각 정보와 의미적으로 일치하는 정도를 나타내는 CLIP 점수를 합산해 계산된다.

조류 분류 모델에서 배경 색상 설명보다 '부리의 형태'나 '깃털의 무늬' 설명문이 높은 IFT 점수를 기록했다면, 해당 모델은 부리와 깃털 특징을 학습해 대상을 식별했다고 해석할 수 있다.

연구팀은 영향력 큰 설명문이 실제 성능 향상에도 도움 되는지 확인하기 위해 교차 모달 전이 실험을 진행했다. 영향력 높은 설명문을 모델 학습에 제공하고 새 데이터 세트에서 분류 작업을 수행한 결과, 기존 방식보다 안정적으로 높은 성능을 보였다.

김태환 교수는 "AI가 스스로 학습 데이터를 설명하는 방식은 딥러닝의 복잡한 의사 결정 과정을 본질적으로 드러내는 방법이 될 수 있다"며 "앞으로 블랙박스 AI 시스템을 투명하게 이해하는 기반이 될 것"이라고 말했다.

이 연구는 자연어 처리 분야 대표 국제학회인 EMNLP 정식 논문으로 채택됐다. 올해 EMNLP는 11월 5일부터 9일까지 중국 쑤저우에서 열렸다.

메트로人