“LLM 추론 비용 90%↓”…토큰값 내려도 총비용은 늘 수 있어

메트로신문 김서현 기자 ㅣ2026-03-30 09:35:38

가트너가 2030년까지 1조 파라미터 규모의 거대언어모델(LLM)의 추론 비용이 2025년 대비 90% 이상 감소할 것으로 전망하는 내용의 보고서를 30일 공개했다.

가트너는 생성형 AI 모델이 처리하는 기본 단위인 토큰을 약 3.5바이트(약 4자) 수준의 데이터로 정의하고, 반도체와 인프라 효율성 개선, 모델 설계 혁신, 칩 활용도 증가, 추론 특화 반도체 확대, 엣지 디바이스 적용 확대 등을 비용 하락 요인으로 제시했다.

윌 소머 가트너 시니어 디렉터 애널리스트는 "이러한 비용 절감은 반도체 및 인프라 효율성 개선, 모델 설계 혁신, 칩 활용도 증가, 추론 특화 반도체 확대, 그리고 특정 활용 사례에서의 엣지 디바이스 적용 확대 등에 의해 가능해질 것"이라고 설명했다.

가트너는 2030년 기준 LLM의 비용 효율성이 2022년 초기 동일 규모 모델 대비 최대 100배까지 개선될 것으로 내다봤다.

이번 분석은 ▲프런티어 시나리오(최첨단 반도체 기반) ▲레거시 혼합 시나리오(기존 반도체 혼합 활용) 두 가지를 기준으로 진행됐다. 혼합 시나리오는 연산 성능이 낮아 비용이 더 높은 것으로 나타났다.

다만 토큰 단가 하락이 기업의 전체 AI 비용 절감으로 이어지지는 않을 것으로 분석됐다. 고도화된 AI 기능일수록 더 많은 토큰을 요구하기 때문이다. 예를 들어 AI 에이전트는 기존 챗봇 대비 작업당 5배에서 최대 30배 많은 토큰을 사용하는 것으로 나타났다.

소머 애널리스트는 "제품 총괄 책임자(CPO)는 범용 토큰 가격 하락을 고급 추론 역량의 대중화로 오해해서는 안 된다"며, "기본적인 AI 기능은 사실상 제로 비용에 가까워지고 있지만, 고급 추론을 뒷받침하는 컴퓨팅 자원과 시스템은 여전히 희소하다"고 말했다. 이어 "현재 저렴한 토큰 비용으로 아키텍처 비효율을 가리는 기업은, 향후 에이전트 기반 AI 확장 단계에서 한계에 직면하게 될 것"이라고 덧붙였다.

가트너는 향후 다양한 모델을 조합해 워크로드를 분산하는 운영 전략의 중요성이 커질 것으로 전망했다. 반복 업무는 소형 모델이나 도메인 특화 모델로 처리하고, 고비용 프런티어 모델은 복잡한 고부가가치 작업에 선택적으로 활용해야 한다고 제시했다.

메트로人

머니

산업

IT·과학

정치＆정책

생활경제

사회

에듀＆JOB

기획연재

오피니언

라이프

플러스

독자서비스

포럼＆컨퍼런스

“LLM 추론 비용 90%↓”…토큰값 내려도 총비용은 늘 수 있어

기사이력코드