Kaggle PII 데이터 탐지 경진대회 1위 솔루션: Team Fold Zero의 접근법

학생 에세이에서 개인정보(PII)를 탐지하는 Kaggle 경진대회에서 DeBERTa-v3-large와 정교한 후처리를 통해 1위를 달성한 Team Fold Zero의 기술적 전략을 공유합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

DeBERTa-v3-large 모델을 기반으로 고품질 합성 데이터 활용과 정교한 규칙 기반 후처리를 결합하여 최고 성능을 달성했다. 데이터의 양보다 질이 중요하며, 도메인 특화된 후처리가 최종 순위 결정에 결정적인 역할을 했다.

배경

교육용 데이터셋의 대규모 개방을 위해 학생 에세이 내 개인정보(PII)를 자동으로 식별하고 제거하는 기술이 필요하다.

대상 독자

NLP 모델 성능을 극대화하고 싶은 데이터 과학자 및 Kaggle 참가자

의미 / 영향

이 솔루션은 교육 현장의 대규모 텍스트 데이터를 안전하게 비식별화하는 자동화 파이프라인의 표준을 제시했다. 특히 데이터 부족 상황에서도 고성능을 내는 전략은 다른 도메인의 개인정보 보호 기술 적용에도 즉시 활용 가능하다. 향후 교육 연구를 위한 데이터 개방 비용을 획기적으로 낮출 것으로 기대된다.

챕터별 상세

00:00

문제 정의 및 데이터 부족 문제 해결

학생들이 작성한 에세이 토큰 중 이름, ID, 전화번호, 이메일 등 6가지 유형의 PII를 분류하는 과제이다. 제공된 훈련 데이터 6,807개 중 PII 라벨이 포함된 샘플은 945개에 불과하여 심각한 데이터 불균형 문제가 존재했다. 이를 해결하기 위해 LLM을 활용하여 부족한 라벨을 보충하는 합성 데이터를 생성하고 외부 공개 데이터셋을 적극적으로 활용했다.

•6가지 주요 PII 유형(Name, ID, Phone, URL, Email, Username) 분류
•훈련 데이터 내 PII 라벨 부족으로 인한 LLM 기반 합성 데이터 생성
•데이터 불균형 해결을 위한 외부 데이터셋 통합 전략 수립

PII(Personally Identifiable Information)는 개인을 식별할 수 있는 정보를 의미하며, 이를 자동으로 탐지하는 것은 개인정보 보호의 핵심 기술이다.

01:50

모델 아키텍처 및 데이터셋 구성

메인 백본으로 DeBERTa-v3-large를 채택했으며, Longformer나 LLM 계열 모델도 테스트했으나 추론 속도 대비 성능 이점이 적어 최종 제외했다. 총 5개의 데이터셋을 사용했으며, 그중 Nicholas Broad의 공개 데이터셋이 가장 높은 품질을 보였다. 데이터의 양보다 질이 성능에 더 큰 영향을 미쳤으며, 500개의 고품질 샘플이 5,000개의 일반 샘플보다 우수한 결과를 냈다.

•DeBERTa-v3-large를 핵심 모델 아키텍처로 선정
•데이터의 양보다 질(Quality over Quantity)이 성능 향상의 핵심임을 확인
•Nicholas Broad 데이터셋이 가장 유효한 외부 리소스로 작용

DeBERTa(Decoding-enhanced BERT with disentangled attention)는 BERT의 성능을 개선한 모델로, 특히 NER 과제에서 뛰어난 성능을 보인다.

03:21

훈련 전략 및 주요 기술적 챌린지

외부 데이터셋에서 먼저 사전 학습(Pre-train)한 후 경진대회 데이터로 미세 조정(Fine-tuning)하는 2단계 학습 전략을 사용했다. 훈련 중 F5 Score가 수렴하지 않거나 노이즈 섞인 라벨로 인해 성능이 요동치는 문제가 발생했다. 이를 해결하기 위해 'O'(비PII) 토큰의 가중치를 0.05로 대폭 낮추어 모델이 PII 토큰 예측에 더 집중하도록 손실 함수를 수정했다.

•외부 데이터와 대회 데이터를 결합한 2단계 훈련 파이프라인 구축
•비PII 토큰 가중치 조절을 통한 모델 예측 편향성 개선
•훈련 안정성을 확보하기 위해 Multi-sample Dropout 적용

F5 Score는 정밀도(Precision)와 재현율(Recall)의 가중 조화 평균으로, 이 대회에서는 재현율에 더 높은 가중치를 둔 지표이다.

08:40

앙상블 및 추론 최적화

7개 그룹, 총 10개의 모델을 결합한 가중 투표(Weighted Voting) 앙상블 방식을 적용했다. 단순 평균 방식보다 Optuna를 통해 최적화된 가중치와 임계값을 사용하는 것이 성능 향상에 효과적이었다. 모델의 다양성을 확보하기 위해 4-fold 모델과 Full-fit 모델을 적절히 혼합하여 최종 제출물을 구성했다.

•10개 모델을 활용한 정교한 가중 투표 앙상블 수행
•Optuna를 이용한 앙상블 임계값 및 가중치 최적화
•다양한 훈련 설정의 모델을 혼합하여 일반화 성능 극대화

앙상블(Ensemble)은 여러 모델의 예측 결과를 결합하여 개별 모델보다 더 나은 성능을 얻는 기법이다.

10:00

규칙 기반 후처리 및 최종 결과

모델이 놓치기 쉬운 패턴을 잡기 위해 강력한 정규표현식(Regex) 기반 후처리를 도입했다. 주소 내 줄바꿈 토큰 복구, 이름의 대소문자 규칙 검사, 특정 패턴의 ID 번호 수정 등을 수행했다. 이러한 후처리만으로 Public LB 점수를 0.009점 향상시켰으며, 최종적으로 Private LB 0.96988로 1위를 차지했다.

•정규표현식을 활용한 주소, 이름, 이메일 패턴 보정
•후처리를 통한 리더보드 점수의 유의미한 상승 달성
•최종 Private LB 0.96988로 경진대회 우승 확정

후처리(Post-processing)는 모델의 출력을 도메인 지식이나 규칙을 바탕으로 수정하여 최종 성능을 보정하는 단계이다.

실무 Takeaway

데이터가 부족한 NER 과제에서는 LLM을 활용한 합성 데이터 생성과 고품질 외부 데이터셋 확보가 성능의 기초가 된다
손실 함수에서 다수 클래스(O 토큰)의 가중치를 낮추는 방식이 희소한 PII 토큰 탐지력을 높이는 데 효과적이다
모델 앙상블 시 단순 평균보다 Optuna 등을 활용한 가중치 최적화가 상위권 순위 결정에 중요하다
정교한 도메인 규칙 기반 후처리는 딥러닝 모델이 놓치는 정형화된 오류를 수정하여 최종 점수를 크게 끌어올린다

언급된 리소스

문서PII Detection Competition Overview

GitHubNicholas Broad's Public Dataset

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 26.수집 2026. 02. 26.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

Kaggle PII 데이터 탐지 경진대회 1위 솔루션: Team Fold Zero의 접근법 | AI Trends