국내에서 '국가대표 인공지능(AI)'을 표방해 개발된 대형언어모델(LLM)들이 대학수학능력시험 수학과 논술 문제를 풀지 못하고 낙제 수준의 점수를 받았다는 연구 결과가 공개됐다. 해외 주요 AI 모델들이 70~90점대의 성적을 기록한 것과 달리, 국내 모델은 대부분 20점대 이하에 머물며 추론 능력에서 큰 격차를 보였다는 분석이다.
김종락 서강대 수학과 교수 연구팀은 국내 5개 AI 모델과 해외 5개 모델을 대상으로 수능 수학과 해외 입시에 활용되는 수학·논술 문제 총 50문제를 풀게 한 결과를 15일 공개했다. 연구팀은 수능 수학 공통과목과 확률과 통계, 미적분, 기하 영역에서 가장 난도가 높은 문항 5개씩 총 20문항을 선별했다. 여기에 국내 주요 대학 논술 기출 10문제와 인도·일본 입시 수학 문제 각 10문제씩을 더해 평가를 진행했다.
테스트 결과 최고점은 구글의 '제미나이 3 프로 프리뷰'로 92점을 기록했다. 앤트로픽의 '클로드 오푸스 4.5'는 84점, xAI의 '그록 4.1 패스트'는 82점, 오픈AI의 'GPT 5.1'은 80점, 딥시크의 '딥시크 V3.2'는 76점을 받았다.
반면 국내 모델의 성적은 상대적으로 저조했다. 업스테이지의 '솔라 프로2'가 58점으로 가장 높았고, LG AI연구원의 '엑사원 4.0.1', SK텔레콤의 '에이닷 엑스(A.X 4.0)', 네이버의 '하이퍼클로바X(HCX-007)'는 모두 20점대에 그쳤다. 엔씨소프트의 '라마 바르코(8B 인스트럭트)'는 2점으로 최저점을 기록했다.
김 교수는 "국내 모델들이 복잡한 수학적 추론과 논리 전개에서 해외 모델에 비해 부족한 모습을 보였다"며 "다만 국내 기업들이 최신 모델을 잇따라 개발 중인 만큼, 새 버전이 출시되면 재평가할 계획"이라고 밝혔다.
업계에서는 수능 문제를 기준으로 AI 성능을 단정하는 것은 무리가 있다는 반론도 나온다. 한 AI 업계 관계자는 "이번 평가에 사용된 모델들은 이미 이전 버전"이라며 "추론 모드 활성화 여부나 문제 형식에 따라 결과가 크게 달라질 수 있다"고 말했다.
LG AI연구원 역시 자체 반박 자료를 내놓았다. 연구팀이 사용한 수능 수학 고난도 문항 20개를 자체 테스트한 결과 평균 88.75점이 나왔다는 것이다. 연구원 측은 "모델 특성과 사용 환경을 고려하지 않은 평가 방식이 낮은 점수의 원인"이라고 주장했다.
이번 연구 결과를 두고 국내 AI의 실제 경쟁력과 평가 방식의 적절성을 둘러싼 논쟁이 당분간 이어질 전망이다.
Copyright ⓒ 메트로신문 & metroseoul.co.kr
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성