울산과학기술원(UNIST) 인공지능대학원과 포스텍(POSTECH) 연구팀이 손글씨로 작성한 수학 답안을 채점하는 인공지능 모델 베미(VEHME, Vision-Language Model for Evaluating Handwritten Mathematics Expressions)를 개발했다고 17일 밝혔다.
주관식 수학 문제 채점은 교육 현장에서 시간이 많이 드는 업무지만 자동화에는 한계가 있었다. 수식과 그래프, 도형이 혼재돼 있고 학생마다 필체와 답안 배치가 달라 AI가 정확히 인식하고 오류를 찾기 어려웠기 때문이다.
반면, 베미는 사람이 문제 풀이 흐름을 따라가듯 수식의 위치와 문맥을 읽고 틀린 풀이를 찾아낸다. 미적분부터 초등 산수 수준의 다양한 문제 풀이를 채점한 결과, 경량 모델임에도 거대 모델인 GPT-4o, 제미나이 2.0 Flash와 대등한 정확도를 보였다.
특히 답안이 심하게 회전됐거나 글씨가 엉망인 고난도 평가에서는 베미가 상용 모델보다 오류 위치를 더 정확하게 찾아냈다. 베미는 70억 개의 매개변수를 사용하는 반면 GPT나 제미나이는 수천억 개 이상의 매개변수를 가진 것으로 알려졌다.
연구팀은 수식 인식 시각 프롬프트(EVPM)와 이중 학습 기법으로 베미를 만들었다. EVPM은 복잡하게 나열된 수식에 가상의 박스를 쳐서 풀이 순서를 파악하게 한다. 2단계 강화학습은 정답 여부뿐 아니라 풀이 과정 중 어느 부분이 왜 틀렸는지까지 설명할 수 있게 한다.
AI가 학습할 수 있는 손글씨와 첨삭 데이터가 부족해 거대 언어 모델(QwQ-32B)로 합성 데이터를 만들어 활용했다.
베미는 오픈소스 모델로 제작돼 학교나 학원 같은 교육 기관에서 무료로 사용할 수 있다.
김태환 교수는 "손글씨 수학 채점은 에듀테크 AI의 난제이자 멀티모달 AI의 대표적 적용 분야"라며 "베미는 복잡한 풀이 구조를 사람처럼 단계별로 따라가며 판단하는 모델로, 실제 교육 현장에서 활용할 수 있을 정도의 안정성과 효율성을 확보했다"고 말했다.
이어 "자체 개발한 EVPM 모듈은 교육 분야뿐 아니라 문서 인식, 설계 도면 분석, 수기 기록물 디지털화 등 다양한 산업 분야의 멀티모달 추론 모델에도 쓸 수 있을 것"이라고 덧붙였다.
이번 연구는 과학기술정보통신부 한국연구재단, 정보통신기획평가원 등의 지원을 받았으며 자연어 처리 분야 국제학회인 EMNLP(Empirical Methods in Natural Language Processing)의 정식 논문으로 채택됐다. 올해 EMNLP는 11월 5일부터 9일까지 중국 쑤저우에서 열렸다.
Copyright ⓒ 메트로신문 & metroseoul.co.kr
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성