핵심 요약
모델 자체의 성능도 중요하지만, BIO 태그 간소화와 같은 전처리와 이름 전파(Propagation) 및 확률 스케일링 같은 후처리가 최종 성적에 결정적인 역할을 했다.
배경
Learning Agency Lab에서 주최한 학생 작문 내 개인 식별 정보(PII) 탐지 경합의 2위 수상 솔루션이다.
대상 독자
NLP 경진대회 참가자, NER 모델 성능 개선에 관심 있는 데이터 사이언티스트
의미 / 영향
이 솔루션은 교육 데이터의 비식별화 비용을 낮추는 데 기여할 수 있다. 특히 정교한 후처리를 통해 개인정보 누락을 최소화함으로써, 대규모 교육 데이터셋을 연구용으로 안전하게 공개할 수 있는 기술적 토대를 제공한다.
챕터별 상세
01:40
전처리 및 BIO 태그 최적화
BIO(Beginning, Inside, Outside) 형식을 단순화하여 클래스 수를 13개에서 7개로 줄였다. 단어 단위 분할(Word Split)을 활용해 토큰화와 원문 매핑 과정을 간소화했다. 클래스 수 감소는 데이터 희소성 문제를 완화하고 모델의 학습 효율을 높이는 데 기여했다.
- •BIO 형식을 1/0 인코딩으로 변환하여 클래스 수 감소
- •Pre-tokenization을 통한 원문 매핑 복잡도 해결
BIO 태그는 NER에서 개체의 시작(B)과 내부(I)를 구분하는 표준 방식이나, 이 솔루션에서는 이를 통합하여 복잡도를 낮췄다.
04:05
외부 데이터셋 활용 전략
Mixtral-8x7B와 Faker 라이브러리를 사용해 생성한 약 2,000개의 에세이 데이터를 학습에 추가했다. 주소(Address)와 같이 학습 데이터에 매우 적게 포함된 희소 클래스의 예측 성능을 개선하는 데 주력했다. 외부 데이터는 원본 데이터보다 낮은 가중치를 부여하여 학습에 반영했다.
- •Mixtral 생성 데이터를 통한 희소 클래스 보강
- •원본 데이터 대비 낮은 가중치 적용으로 균형 유지
06:10
주소 탐지 및 특수 토큰 처리
학습 데이터 내 주소 형식이 특정 패턴을 따르는 점을 발견하여 이를 후처리에 활용했다. 텍스트 내에서 개행 문자가 나타나는 지점을 주소의 일부로 강제 예측하도록 설정하여 점수를 높였다. 이러한 데이터 생성 과정의 아티팩트를 활용한 것이 리더보드 상승에 효과적이었다.
- •주소 내 개행 문자 패턴을 활용한 규칙 기반 보정
- •데이터 생성 특성을 이용한 성능 최적화
07:45
이름 전파 및 F5 점수 최적화
재현율을 중시하는 F5 점수 특성에 맞춰 한 번 탐지된 이름을 문서 전체로 전파하는 기법을 적용했다. 정밀도 손실을 막기 위해 단일 문자나 특수 기호가 포함된 오탐지는 제거하는 클리닝 과정을 병행했다. 최종적으로 Outside 클래스의 확률을 낮추는 스케일링 파라미터를 튜닝하여 재현율을 극대화했다.
- •문서 내 동일 단어에 대한 이름 태그 전파
- •F5 점수 최적화를 위한 클래스 확률 스케일링
F5 점수는 정밀도보다 재현율에 5배의 가중치를 두는 지표로, 누락을 최소화하는 것이 고득점의 핵심이다.
11:35
모델 아키텍처 및 앙상블
DeBERTa-v3-large를 백본으로 사용했으며, 다양한 최대 길이(512, 1024, 2048)를 가진 모델들을 실험했다. 학습 과정의 불안정성을 해소하기 위해 동일한 설정으로 여러 번 실행한 모델들을 배깅하여 앙상블했다. 최종 모델은 전체 학습 데이터를 사용해 6번 실행한 결과물의 조합으로 구성했다.
- •DeBERTa-v3-large 백본 및 가변 컨텍스트 길이 적용
- •학습 불안정성 극복을 위한 다중 실행 모델 앙상블
실무 Takeaway
- 희소 클래스 해결을 위해 LLM 생성 데이터를 활용하는 것이 효과적이다.
- 평가 지표의 특성을 이해하고 재현율을 높이기 위한 후처리 전략을 수립해야 한다.
- 데이터 생성 과정에서 발생하는 특이 패턴을 파악하여 규칙 기반 보정에 활용할 수 있다.
언급된 리소스
API DocsDeBERTa-v3-large
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료