대학원 소식
판결문 속 민감한 개인정보, 사람 대신 AI가 자동으로 지운다
2026.04.15 Views 8
판결문 속 민감한 개인정보, 사람 대신 AI가 자동으로 지운다

△ 연구진이 개발한 합성 데이터 생성 및 라벨링 구조도 (Data Generation and BIO labeling). SNS 대화, 법원 판결문 등 다양한 출처의 데이터를 표준화된 비식별화 규칙에 맞추어 통합하고, 인공지능이 학습할 수 있도록 구조화하는 과정을 보여준다.
고려대학교(총장 김동원) 컴퓨터학과 정연돈 교수 연구팀이 인공지능을 이용해 판결문 속 개인정보를 빠르고 정확하게 비식별화하는 기술을 개발했다.
대한민국 헌법 제109조에 따라 재판의 심리와 판결은 공개되어야 하며, 이는 사법적 투명성을 보장하고 국민의 신뢰를 유지하기 위한 필수적인 조치다. 이때 판결문 공개는 개인의 이름, 주민등록번호, 주소 등 민감한 개인식별정보를 보호하는 방식으로 이뤄져야 한다.
기존의 수작업 방식으로는 개인정보를 가리는 데 문서 한 건당 약 2주가 소요됐다. 그 결과, 병목 현상이 발생해 전체 판결문 중 단 5.97%만이 비식별화 처리가 완료되어 공개된 상태다. 법원에서도 자동화를 추진하려 했으나 기존 시스템은 개인정보를 찾아 마스킹하는 정확도가 약 8% 수준에 그쳐 실효성이 떨어졌다.
연구팀은 대규모 벤치마크 데이터셋 ‘K-LegalDeID’과 고성능 인공지능 모델 ‘KLUEBERT-CRF’를 개발해 문제를 해결했다. 39개 법률 분야 2,000건의 판결문과 SNS 대화 데이터 등을 결합해 약 100만 건에 달하는 대규모 학습 데이터를 구축하고, 인공지능이 이를 학습해 비식별화를 수행하는 방식이다. 기존 모델에 조건부 무작위장을 결합해 한국어 특유의 교착어 형태와 법률 문서의 복잡한 문장 구조를 효과적으로 처리하는 게 특징이다.
*벤치마크 데이터셋: AI나 프로그램의 성능을 공정하게 비교하기 위해 사용되는 표준화된 데이터 모음
*조건부 무작위장(CRF, Conditional Random Field): 앞뒤 단어들 사이의 관계를 파악해 조건(문맥)에 가장 알맞은 판단을 내리는 방식
특히 KLUEBERT-CRF 모델은 정확도를 평가하는 지표인 ‘개체 수준 마이크로 F1 점수’에서 세계 최고 수준인 0.9923을 달성했다. 또 파라미터를 기존 타 모델 대비 20배 가벼운 1억 1천만 개 수준으로 설계해, 메모리 사용량을 대폭 절감했다. 법원에서 실제로 활용할 수 있도록 실용성과 효율성을 극대화한 것이다.
*파라미터: 인공지능이 데이터를 학습하면서 저장한 판단 기준의 개수로, 적을수록 모델이 가볍고 빠르게 작동한다
연구팀은 “고품질의 벤치마크 데이터셋을 통해 한국 리걸 테크(Legal Tech) 분야의 고질적인 데이터 부족 문제를 해결했다”며 “판결문 비식별화 업무를 자동화함으로써 판결문 공개를 획기적으로 확대하고 사법 투명성을 높이는 데 기여할 것”이라고 의의를 밝혔다.
본 연구 성과는 3월 26일 모로코 라바트에서 개최된 자연어 처리 분야 세계 최고 권위 학회 중 하나인 ‘EACL 2026’에서 발표됐으며, 국내 특허로도 출원되었다.
*논문명: K-LegalDeID: A Benchmark Dataset and KLUEBERT-CRF for De-identification in Korean Court Judgments
*DOI: 10.18653/v1/2026.eacl-long.103
*URL: https://aclanthology.org/2026.eacl-long.103/
이번 연구는 과학기술정보통신부 및 정보통신기획평가원의 ICT명품인재양성 사업과 한국연구재단 이공분야기초연구사업의 지원을 받아 수행됐다.
[연구진 사진]

△ (왼쪽부터) 고려대 컴퓨터학과 정연돈 교수(교신저자), 최우석 학사과정(제1저자), 김형빈 박사과정(제2저자)

