'GPT-4' 사람 수준의 능력 보여줘...'할루시네이션' 문제 여전, 미래 전망 대응 못 해

오픈에이아이(Open AI)가 만든 인공지능 챗봇 챗GPT의 화면. /뉴시스

오픈AI가 새롭게 출시한 'GPT-4'는 냉장고 안의 재료 사진을 입력하니 바로 그 재료로 만들 수 있는 음식 몇 개를 보여줬다. 이미지나 영상을 입력하는 것 만으로 그에 걸맞는 대답을 보여주는 것이다. 또 각종 주요 시험에서 상위 10%에 해당하는 놀라운 수준을 보여주고 있다. 이는 '사람 수준의 능력'을 보여준 것으로 평가된다. 한국어 성능을 높인 것도 특징이다.

미국 뉴욕타임스(NYT) 등에 따르면 GPT-4는 현재 전 세계적으로 선풍을 일으키고 있는 챗GPT에 적용됐던 'GPT-3.5'의 업그레이드 버전으로, 4개월 만에 출시돼 놀라운 성능 향상을 보여주고 있다.

GPT-4는 오픈AI가 월 20달러를 책정한 챗GPT의 유료 구독 서비스인 '챗GPT 플러스'와 마이크로소프트의 빙 검색엔진에서 이용이 가능하다.

◆사람의 손글씨, 사진 및 영상 인식해

GPT-4는 사람의 손글씨를 인식하고, 스마트폰을 통해 찍은 사진도 인식할 수 있다. GPT-4는 다중모드 기능을 가지고 있으며, 텍스트와 이미지는 물론 영상까지 입력할 수 있어, 문장으로 물어볼 필요가 없이 그림을 넣어도 답변을 내놓는다.

그레그 브록맨 오픈AI 시장은 GPT-4의 새로운 활용법을 보여줬다. 우선 시연을 통해 허블 우주망원경이 촬영한 영상을 6개 문단으로 상세하게 설명하는 것을 보여줬다. 또 스마트폰으로 냉장고 안을 찍어 입력하니 AI는 냉장고 속 재료를 사용해 만들 수 있는 음식 몇 가지를 소개했다.

오픈AI 관계자는 "기존에도 사진, 영상이 무엇을 파는 지 파악하는 AI 기술은 있었지만, GPT-4는 인간은 물론 컴퓨터의 언어까지 자유롭게 구사하며 원하는 답을 제시하는 수준까지 올라온 것"이라고 평가한다.

오픈AI는 GPT-4를 활용해 인터넷에 올라온 영상이나 촬영된 영상에 대한 상세한 설명 기능을 선보이기 위해 덴마크 스타트업 비 마이 아이즈(Be My Eyes)와 협력을 통해 GPT-4 기반 가상 자원봉사자를 만들고 있다. 가상의 자원 봉사자는 맹인이나 부분적으로만 볼 수 있는 시각장애인에게 길 안내의 도움을 줄 수 있게 된다.

특히, GPT-3.5를 적용한 챗GPT가 텍스트 기반 질문만 가능했지만 GPT-4는 시각적 자료를 사용하기 때문에 지능도 사람과 비슷해질 수 있다. 이는 오픈AI가 강력하게 내세운 GPT-4의 '다중모드' 기능이기도 하다.

또 GPT-4는 약간의 유머감각도 탑재했다고 평가된다. 가수 마돈나에 대해 새로운 농담을 만들라고 주문을 하자 웃음을 터뜨릴 수 있는 답변을 제시한 것이다. GPT-4는 "마돈나가 기하학을 배우는 이유는"이라는 질문에 "다양한 각도로 포즈를 취하는 방법을 알고 싶어서"라고 답변했다. 이는 GPT-3.5가 "마돈나가 은행에 간 이유는"이라는 질문에 대해 "실제 돈을 빌리려고"라고 답변했던 것과 비교하면 성능이 '껑충' 올라선 것이다.

GPT-4는 요약 능력이 탁월한 것으로 평가됐다. NYT 기사를 요약하라는 주문에 정확하게 답변했으며, 요약문에 문장을 추가해 다시 물어도 추가된 문장을 정확하게 찾아냈다. 평가를 진행한 에치오니 박사가 "뛰어난 지능의 형태"라고 표현했을 정도다.

또 회계 분야 등 여러 분야에서 전문성을 발취하는 것으로도 평가된다.

◆주요 시험에서 상위 10% 차지...GPT-3.5 60~90%에서 크게 개선

각종 주요 시험에서 상위 10%에 해당하는 수준을 보여준 것도 놀라운 성과다. GPT-3.5는 미국 로스쿨 입학시험에서 상위 60% 수준에 그쳤는데 놀라울 정도로 성과 개선을 보여줬다.

오픈AI는 미국 내 객관식 시험 40개를 GPT-4 와 GPT-3.5에 제공하고 시험을 치게 했다. GPT-4는 미국 로스쿨 입학시험(LSAT)에서 상위 10%를 기록했다. 또 미국 모의 변호사 시험에서도 GPT-4는 400점 만점에 298점을 기록하며 상위 10% 수준의 성적을 기록했다. 이는 기존의 GPT-3.5가 400점 중 213점을 맞아 하위 10% 해당하는 성적을 낸 것과 비교된다. 미국 대학수학능력시험(SAT) 읽기, 쓰기 시험과 수학 시험에서도 성적이 가장 높은 사람이 100점을 맞는다고 할 때, GPT-4는 백분위 93과 89를 기록해 10%에 해당하는 수준이다. 특히 2020년에 나온 미국 생물 올림피아드 준결승 문제에서 GPT-4는 무려 상위 1%에 해당되는 성적을 냈다.

또 GPT-4는 한국어 정확도가 무려 77%까지 개선됐다. 이는 GPT-3.5의 영어 이해도인 70%와 유사한 수준이다. GPT-4는 무려 26개 언어를 지원하고 있다. 또 GPT-4의 영어에 대한 정확도는 85.5로, GPT-3.5가 70.1%를 기록한 것에 비해 15.4%가 높았다.

답변 채택률도 높아졌다. 오픈AI의 명령어로 실험을 진행한 결과, 총 5214개 중 3660개인 70.2%가 GPT-4의 답변을 채택했다.

데이터 처리량도 늘어나 GPT-3.5는 1회에 3000개의 단어를 만들 수 있었는 데, GPT-4는 무려 2만 5000개의 단어를 생성할 수 있다. 챗GPT에 적용된 GPT-3.5가 짧은 문서를 만들어냈다면, GPT-4는 긴 글까지 혼자서 완성할 수 있게 된 것이다.

창의력도 향상돼 알파벳 순으로 각 단어가 시작하는 문장으로 신데렐라 줄거리를 설명하라고 제대로 작문이 가능했다.

아직도 잘못된 대답을 하는 등 문제가 있기는 하지만, 오픈AI는 "사실에 입각한 답변을 할 가능성이 40% 높아졌다"고 평가했다.

◆할루시네이션 현상 줄기는 했지만 문제는 여전

오픈AI는 GPT-3.5의 고질적 문제였던 '할루시네이션(환각) 현상'도 줄었다고 설명했다. 할루시네이션은 AI가 오류가 있는 데이터를 학습해 틀린 답변을 맞는 말처럼 제시하는 현상을 의미한다.

GPT-4가 탑재된 챗GPT 유료 버전을 구동해봤더니 과거 챗GPT가 자주 했던 거짓말을 더 이상 하지 않았다. 예컨대 '소의 알이 닭의 알보다 큰 이유는?'이라고 물으니 "소는 새끼를 낳는 포유류고, 난소에서 나오는 난자가 알"이라고 답변했다.GPT-3.5는 "일반적으로 닭의 알이 소의 알보다 크다"고 잘못 답변하고 있다.

또 아예 모르는 정보는 '그런 정보는 없다'며 억지로 답을 지어내는 오류도 감소했다.

하지만 할루시네이션이라는 문제를 아직 극복하지 못했다.

NYT는 "시스템이 무엇이 진실이고 무엇이 거짓인지 이해하지 못 해 완전히 거짓인 텍스트를 생성할 수 있었다"며 "최신 암 연구를 소개하는 웹사이트 주소를 요청하니 존재하지 않는 인터넷 주소를 생성하기도 했다"고 설명했다.

오픈AI는 'GPT-4가 답을 지어내며 틀렸을 때도 옳다고 주장하는 경향에 있다'는 문제에 대해 인정했다.

또 GPT-4는 미래 전망을 제시하라는 질문에는 제대로 대응하지 못했다. 독창적인 추론을 만들어내는 데 실패했고 다른 사람들이 제기한 전망을 종합하는 듯한 느낌을 준다. "향후 10년 내 자연어 처리 연구에서 중요한 과제가 무엇이냐"는 질문에 독창적인 아이디어를 제시하지 못 했다.

하지만 아직까지 GPT-4가 인간에 못지 않은 판단력을 지닌 범용 인공지능(AGI) 수준에는 미치지 못 하고 있다. 문장 능력에 제한적이며, 온라인에 정보가 없거나 사람들이 많이 물어보지 않은 질문에는 제대로 답변을 못 하고 있다. 추론형 질문에도 약한 모습을 보인다. 오픈AI는 "GPT-4에 대한 맹신을 경계하고 얻은 답변은 신중하게 다뤄야 한다"고 설명했다.

박은정 업스테이지 최고과학책임자(CSO는 "GPT-4는 엄청난 혁신으로 놀라운 문제풀이 능력을 보여주고, 많은 언어적, 수리적, 논리적 문제를 능숙하게 해결할 수 있다"며 "하지만 여전히 일부 이해가 떨어지거나 오류가 발생한다. 롱테일 질문이나 추론형 질문을 물어보면 단점을 확인할 수 있다"고 밝혔다. 그는 "업스테이지에 AI 엔지니어는 누가누가 있어?"라는 질문에 사람은 검색해서 사이트 등을 조사해 AI 엔지니어들을 리스팅할 수 있지만 GPT-4는 그렇게 하지 못한다"고 설명했다.

박 CSO는 또한 GPT-4 등장 이후 나타나는 우려에 대해 "많은 분야가 '파괴적 자동화'가 될 것이며, 검색은 그 시작일 뿐"이라며 "인터페이스가 바뀔 뿐 아니라 검색하게 되는 콘텐츠의 생성자가 대부분 기계가 될 것"이라고 말했다.

메트로人

머니

산업

IT·과학

정치＆정책

생활경제

사회

에듀＆JOB

기획연재

오피니언

라이프

AI영상

플러스

독자서비스

포럼＆컨퍼런스

'GPT-4' 사람 수준의 능력 보여줘...'할루시네이션' 문제 여전, 미래 전망 대응 못 해

기사이력코드