메트로人 머니 산업 IT·과학 정치&정책 생활경제 사회 에듀&JOB 기획연재 오피니언 라이프 CEO와칭 플러스
글로벌 메트로신문
로그인
회원가입

    머니

  • 증권
  • 은행
  • 보험
  • 카드
  • 부동산
  • 경제일반

    산업

  • 재계
  • 자동차
  • 전기전자
  • 물류항공
  • 산업일반

    IT·과학

  • 인터넷
  • 게임
  • 방송통신
  • IT·과학일반

    사회

  • 지방행정
  • 국제
  • 사회일반

    플러스

  • 한줄뉴스
  • 포토
  • 영상
  • 운세/사주
IT/과학>IT/인터넷

네이버 초대규모 AI '하이퍼클로바' 10개 이상 서비스 적용...검색·대화·글쓰기·요약 등 활용

성낙호 네이버 클로바 CIC 비즈(Biz) AI 책임리더가 25일 네이버가 온라인으로 개최한 'NAVER AI NOW' 콘퍼런스에서 '새로운 AI의 시작, 하이퍼클로바'라는 주제로 발표를 하고 있다. /네이버TV 캡처

네이버가 국내 최초로 개발한 초대 규모 AI 언어모델인 '하이퍼클로바'는 올해 안에 실제 서비스에 적용돼, 네이버의 10개 이상 서비스에 적용될 예정이다. 자연스러운 대화 구현과 창작 보조 수단인 글쓰기를 위해, 원하는 정보를 찾거나 요약해주는 용도 등으로 활용될 전망이다.

 

네이버는 또 대용량 AI 언어모델 구축을 위해 신뢰할 수 있는 오픈 소스인 '모두의 말뭉치'는 물론 뉴스, 블로그, 지식인, 카페, 일상 글 등 검색이 허용된 문서와 전문지식 등 데이터를 더해 품질이 좋은 순서 대로 가져와 사용했다고 밝혔다.

 

성낙호 네이버 클로바 CIC 비즈(Biz) AI 책임리더가 25일 네이버가 온라인으로 개최한 'NAVER AI NOW' 콘퍼런스에서 "하이퍼클로바 개발은 사람이 알려준 데이터 없이도 큰 모델 개발이 가능한 '비지도학습방법'에 기반하고 있다"며 "기존의 지도학습방법은 사람이 일일이 데이터를 만들어줘야만 AI에 학습시킬 수 있었는데, 비지도학습에 기반해 이 같은 한계를 뛰어넘었다"고 강조했다.

 

그는 "하이퍼클로버를 개발하면서 AI 최 앞단 연구에서도 매우 놀랄 정도의 능력을 확인했는데, 기존 AI 개발 방법론으로 수개월이 걸리던 것이 몇 분 만에 가능해졌다"며 "2040억개 파라미터(매개변수) 규모로 개발됐으며, 5600억의 토큰을 추출해 3000억 토큰을 사용했다"고 밝혔다.

 

5600억 토근은 한국어 위키피디아의 2900배, 뉴스 50년치, 네이버 블로그 9년치의 데이터 양으로, 우리말을 가장 잘 구현하는 최초의 언어모델이다. 성 리더는 "인공지능의 성능은 무한히 성장 가능한 것으로 확인됐으며, 큰 모델일수록 더 효과적이고 경제적"이라고 설명했다.

 

◆하이퍼클로바, 어떻게 서비스에 활용되나

 

하이퍼클로바를 적용한 실제 대화 구현 사례. /네이버

하이퍼클로바를 활용하면 맥락을 이해하는 대화가 가능한 데, '음악의 아버지가 누구야?'는 질문에 '바흐입니다'라고 대답하고 '바흐가 왜 음악의 아버지야?'라고 물으면 '바로크 시대를 대표하는 작곡가이기 때문입니다'라고 답한다. 또 '근데 왜 아버지라고 부르지?'라고 물으면 '바흐의 음악에서 풍기는 분위기가 마치 아버지처럼 온화하면서 무게감이 있다'고 답변할 수 있다는 것이다.

 

성 리더는 "인공지능이라고 하면 딱딱하고 기계적인 이미지를 연상하는 데, 적합한 호응과 디테일한 요소를 포함시켜 끊김 없는 연결된 대화가 가능하고, 모든 문장을 완벽하게 얘기할 필요가 없어 사용자 만족감을 높일 수 있다"며 "특히, 별도의 데이터 셋을 구축할 필요가 없다는 장점이 있다"고 소개했다.

 

또 글쓰기에서도 다양한 예시를 통해 문장을 만들거나 이미 써놓은 글의 스타일을 변화시킬 뿐 아니라 '댕냥이'와 같은 축약어, 신조어를 사용해 수려한 문장을 만들 수 있다고 설명했다. 내부 품질 테스트 결과, 99% 정도의 높은 수준 완성도를 보였다고 강조했다.

 

또한, 문서를 빠르게 요약하도록 도와주는데, '초등학생 선행학습이 필요한가'라는 주제에 대해 필요 의견으로 '초등학생 저학년이 이미 선행학습을 하고 있다는 사실에 주의할 필요가 있으며, 이를 통해 아이들은 수학에 흥미를 가지게 되고, 큰 어려움도 겪지 않을 것이다'와 같은 자연스러운 요약이 가능하다는 것.

 

또 '클로바 AI 콜'과 같은 기존 AI의 개발 프로세스를 가속화할 수 있으며, 데이터 제작 과정도 지도방법론을 사용할 필요가 없어 비용과 시간을 비약적으로 줄여준다고 강조했다.

 

성 리더는 "올해 내로 하이퍼클로바를 다양한 서비스 영역에 적용할 계획인 데, 간단한 설명과 예시를 보여주면 동작 가능하고, 사람이 발화문을 직접 작성하지 않고 AI가 필터링하는 것 만으로 만들 수 있어, 대화 시나리오 구축 생산성이 크게 개선됐다"며 "AI 개발자가 아닌 기획자가 스스로 AI의 사례를 만들 수 있다는 것을 확인해, 누구나 AI 모델을 만들 수 있다"고 말했다.

 

◆대용량 데이터 데이터 품질 순 적용, 개인정보 비식별 처리

 

이어 강인호 네이버 NLP조직 책임리더는 "하이퍼클로바를 위한 대용량 데이터를 준비하며 한 유형에 치우치지 않고 일상생활에서 접하는 다양한 내용을 포함하며, 양질을 구현하기 위해 데이터 품질 순으로 가져왔다"며 "다양한 내용을 담기 위해 유사한 경우, 중복된 부분을 제거했다"고 설명했다.

 

특히, 사용자들의 개인정보 수집은 지양해 사용자들이 전체 공개로 검색을 허용한 글 중 개인정보는 비식별처리해 진행했다고 강조했다,

 

그는 또 "지식인과 같은 문서는 여러 답변이 아닌 질문과 답변 구성으로 재배치했으며, 문서 양식의 상당 부분을 유지하고, 단락을 구분해 정보를 살릴 뿐 아니라 의미 있는 정보는 화면에 보이는 기능이 유지되도록 했다"며 "메타 정보를 추가했는데 검색 로그와 서비스 로고를 통해 어느 문서가 정보 제공처로 유용한 지 파악해 신뢰성 있는 공식 사이트를 상위에 포함했으며, 상위 품질 문서에서도 정보 가치에 따른 선별 작업을 진행했다"고 설명했다.

 

또 핵심 영역 만 판정하는 기계학습 모델을 활용했고, 정부 기관, 공식 사이트 정보 등 정보 가치가 일정 수준 이상인 것만 포함시켰으며, 검색 서비스는 스템필터를 더욱 강하게 해 의미 없는 단어 나열 등은 제거했다고 밝혔다.

트위터 페이스북 카카오스토리 Copyright ⓒ 메트로신문 & metroseoul.co.kr