TOP

대학원 소식

기밀 유출 걱정 없는 LLM 구축 및 활용…프라이버시 보존 대규모언어모델 기술 개발

2026.05.18 Views 77

기밀 유출 걱정 없는 LLM 구축 및 활용 기술…프라이버시 보존 대규모언어모델 기술 개발

 

△ 기존 LLM과 새로 제안한 PPFT(Privacy-Preserving Fine-Tuning) 비교

 

생성형 AI는 단순한 업무 보조를 넘어 방대한 데이터 분석, 전략 수립 지원 등 기업 생산성을 혁신하는 도구로 확고히 자리 잡고 있다. 하지만 공공기관 및 기업들은 내부 기밀, 고객 정보 등이 외부에 노출될 수 있다는 우려 때문에 도입과 확산에 신중할 수밖에 없다.

 

민감 정보를 보호하고 보안을 유지하면서도 실무에 활용할 수 있는 생성형 AI의 필요성이 대두되는 가운데, 고려대학교(총장 김동원) 컴퓨터학과 임희석 교수가 이끄는 NLP&AI 연구실이 대규모언어모델(LLM)의 학습과 추론 과정에서 정보 유출 위험을 구조적으로 낮출 수 있는 ‘프라이버시 보존형 파인튜닝 기술(PPFT: Privacy Preserving Fine Tuning)’을 개발했다.

 

이번 연구는 LLM 특화 모델을 만들고 사용하는 과정에서 사용자의 민감한 프롬프트와 학습 지시문을 서버에 ‘평문’으로 노출하지 않는 것이 핵심이다. 먼저, 원문 텍스트를 그대로 전달하는 대신 AI만 이해할 수 있도록 복잡한 숫자 배열로 변환한다. 이 암호화 과정을 거치면 프롬프트가 프라이버시를 보존하는 형태로 바뀌는데, 이를 기반으로 LLM이 학습과 추론을 수행하는 방식이다.

 

PPFT를 이용하면 정보 유출 위험 없이 공공기관이나 기업들이 자신들의 특화 LLM 개발과 서비스가 가능하다. LLM을 학습하는 단계나 추론 시 민감한 정보는 전혀 노출되지 않으며, 서버 해킹이나 시스템 유출 등의 사고가 발생하더라도 민감한 정보 자산이 노출되는 위협을 보호할 수 있는 획기적인 기술이다.

 

NLP&AI 연구실은 한국어에 특화된 LLM도 꾸준히 연구해 왔다. 앞서 한국어 데이터를 집중적으로 학습한 ‘KULLM3’을 개발했으며, 후속 모델인 ‘KULLM4’에 PPFT 기술을 적용할 계획이다. 이는 한국어 특화 LLM 성능 고도화는 물론, 실제 산업 현장에서 요구하는 데이터 보안성과 실용성을 강화하는 계기가 될 전망이다. 

 

임희석 교수는 “생성형 AI 시대의 핵심 경쟁력은 더 큰 모델을 만드는 데만 있지 않다”며 “누가 더 신뢰할 수 있는 방식으로 학습시키고, 더 안심하고 활용할 수 있는 구조를 제시하느냐에 따라 앞으로의 기술 경쟁에서 우위를 점할 가능성이 크다”고 밝혔다. 이어 “이번 연구는 한국형 LLM 연구가 성능 중심 경쟁을 넘어 프라이버시와 신뢰의 문제까지 본격적으로 다루기 시작했다는 점에서 의미가 크다”고 강조했다. 

 

본 연구 성과는 오는 7월 2일부터 7일까지 미국 샌디에고에서 열리는 자연어처리 분야 세계 최고 권위 학술대회인 ‘ACL 2026’ 메인 컨퍼런스에 채택됐다. 특히 임희석 교수가 이끄는 NLP&AI 연구실은 한 연구실에서 총 12편의 논문이 채택되는 세계적으로도 이례적인 성과를 올렸다. 

*논문명: Towards Privacy-Preserving Large Language Model: Text-free Inference Through Alignment and Adaptation

 

이번 연구는 과학기술정보통신부의 재원으로 과학기술사업화진흥원, 정보통신기획평가원, AI스타펠로우십지원사업의 지원을 받아 수행됐다.

 

[연구진 사진]

△(왼쪽부터) 고려대 컴퓨터학과 임희석 교수(교신저자), 컴퓨터학과 윤정호 석박통합과정(제1저자)

file