TOP

대학원 소식

한국어 생성 능력이 대폭 향상된 한국어 특화 LLM ‘구름3’ 공개

2024.04.12 Views 16

한국어 생성 능력이 대폭 향상된 한국어 특화 LLM ‘구름3’ 공개
AI 상담 챗봇, RAG 기반 질의응답시스템 등 다양한 분야에서 활용 기대
NLP&AI 연구실-HIAI 연구소 협력하여 개발

 

 

임희석 컴퓨터학과 교수

▲ 임희석 컴퓨터학과 교수

 

 

NLP&AI 연구실과 HIAI 연구소가 협력하여 개발한 한국어 특화 LLM인 ‘구름3(KULLM3)’가 공개됐다.

임희석 컴퓨터학과 교수가 이끄는 NLP&AI 연구실과 HIAI 연구소는 2023년 6월 ‘KULLM(구름)’을 처음 공개하며, 지금까지 실제 활용할 수 있는 수준으로 한국어 생성 능력을 향상하는 것을 목표로 했다.

이를 위해 고품질의 한국어 지시어(instruction) 데이터 셋을 제작하는 데 공을 들였고, 이를 활용해 한국어 지시를 따르는(instruction-following) 능력을 대폭 향상했다. 연구팀은 여러 가지 데스크에 관한 다양한 한국어 데이터 셋을 제작했으며, ‘구름3(KULLM3)’ 모델만을 위한 특수 데이터도 제작했다. 이러한 고품질의 데이터는 Upstage의 SOLAR-10.7B 모델에 적용되어 지시 튜닝(instruction-tuning) 학습을 통해 ‘구름3(KULLM3)’이 탄생했다.

연구팀이 GPT-4-Turbo를 활용하여 분석한 결과 ‘구름3(KULLM3)’의 생성 답변은 기존의 한국어 모델보다 매우 우수했으며, GPT-3.5 Turbo와 GPT-4 Turbo에 준하는 능력을 보였다. 연구팀이 제시한 성능에 따르면 모델이 생성한 답변의 ‘유창성(Fluency)’, ‘응집성(Coherence)’, ‘정확도(Accuracy)’, ‘완결성(Completeness)’, ‘총점(Overall Quality)’ 평가에서 우수한 성능을 보였다.

연구팀은 ‘구름3(KULLM3)’ 모델이 한국어로 된 지시 사항을 이해하고 실행하는 능력이 뛰어남을 강조했고, 이를 활용해 AI 상담 챗봇과 RAG 기반 질의응답시스템 등 다양한 분야에서 활용할 것으로 기대했다.

임희석 컴퓨터학과 교수는 “요즘 한국어 private LLM과 On-premise 방식의 LLM 구축에 관심이 많다.”라며 “실질적인 한국어 생성 성능이 월등한 ‘구름3(KULLM3)’가 좋은 대안이 될 수 있을 것이라 기대한다.”라고 밝혔다.

NLP&AI 연구실과 HIAI 연구소는 매년 자연어처리 분야의 최우수 학술대회에서 국내 최고 수준의 논문을 발표하고, LLM을 이용한 일상의 AI를 위한 연구에 매진하는 등. 국내 인공지능 분야의 선도그룹이다.

 

 

<그림 1>

다방면에서 우수한 성능을 보이는 ‘구름3(KULLM3)’

▲ 다방면에서 우수한 성능을 보이는 ‘구름3(KULLM3)’

 

 

<그림 2>

‘구름3(KULLM3)’ 의 성능

▲ ‘구름3(KULLM3)’ 의 성능

 

 

<그림 3>

‘구름3(KULLM3)’ 의 성능

▲ ‘구름3(KULLM3)’ 의 성능

file