핵심 요약
모델의 성능뿐만 아니라 시간에 따른 안정성을 확보하기 위해 직접적인 ROC-AUC 최적화 커스텀 손실 함수와 도메인 지식 기반의 피처 통합이 핵심적인 역할을 했다.
배경
전통적인 신용 기록이 부족한 고객의 대출 기본 위험을 예측하는 Home Credit 경진대회에서 우승한 DebtCollectors 팀의 발표 영상이다.
대상 독자
데이터 사이언티스트, 캐글 참가자, 금융권 머신러닝 엔지니어
의미 / 영향
금융권의 신용 평가 모델 구축 시 단순히 정확도만 높이는 것이 아니라, 시간이 지나도 성능이 유지되는 '안정성'을 확보하는 실전적인 방법론을 제시한다. 특히 ROC-AUC를 직접 최적화하는 기법은 불균형 데이터셋이 많은 금융 도메인에서 모델의 신뢰도를 높이는 데 널리 응용될 수 있다.
챕터별 상세
00:00
발표 개요 및 팀 소개
DebtCollectors 팀은 같은 대학 수학과 출신의 데이터 사이언티스트 4명으로 구성되었다. 이번 발표는 경진대회의 핵심 과제인 모델 안정성을 해결하기 위해 개발한 커스텀 손실 함수, 피처 엔지니어링, 그리고 훈련 방법론을 중심으로 진행된다. 특히 안정성 지표를 직접적으로 최적화하기 위한 수학적 접근법이 이번 솔루션의 차별점이다.
- •수학과 출신 4인으로 구성된 DebtCollectors 팀 소개
- •커스텀 손실 함수와 피처 엔지니어링이 우승의 핵심 동력
02:10
안정성 지표 분석 및 커스텀 손실 함수 설계
경진대회의 평가지표인 안정성 메트릭은 평균 Gini 점수, 시간에 따른 성능 감쇠 효과, 그리고 잔차의 세 가지 항으로 정의된다. 팀은 데이터에서 특정 주차 정보가 제거된 후 감쇠 효과를 직접 다루기 어려워지자, 평균 Gini와 잔차 항을 최소화하는 데 집중했다. Gini 점수의 변동성을 줄임으로써 모델이 시간에 관계없이 일관된 성능을 내도록 유도했다.
- •평균 Gini와 잔차 항에 집중한 안정성 최적화 전략
- •Gini 점수의 변동성 최소화를 통한 모델 안정성 확보
Gini 계수는 신용 평가 모델에서 모델의 변별력을 측정하는 대표적인 지표이며, 안정성 메트릭은 이 지표가 시간에 따라 얼마나 일정하게 유지되는지를 평가한다.
04:00
ROC-AUC 직접 최적화의 수학적 원리
표준 머신러닝 라이브러리는 ROC-AUC를 직접 최적화하지 못하므로 Yan 등의 논문을 참고하여 미분 가능한 형태의 손실 함수를 유도했다. 핵심 아이디어는 음성 샘플의 점수가 양성 샘플보다 높게 나타나는 '역전(Inversion)' 현상을 계산하고 이를 최소화하는 것이다. 전체 학습 데이터를 여러 서브셋으로 나누어 각 구간에서의 역전 횟수를 합산하는 방식으로 안정성 손실 함수를 구성했다.
- •미분 불가능한 ROC-AUC를 최적화하기 위한 수학적 우회로 설계
- •샘플 간 점수 역전 현상을 최소화하는 손실 함수 구조
일반적인 손실 함수(Log Loss 등)는 확률 값을 최적화하지만, ROC-AUC 최적화는 샘플 간의 상대적인 순위를 올바르게 정렬하는 데 집중한다.
10:50
커스텀 손실 함수 구현의 기술적 난관
LightGBM과 같은 프레임워크에서 커스텀 손실을 적용하기 위해서는 1차 및 2차 도함수(Hessian)를 해석적으로 유도해야 했다. 고차원 공간에서는 수치 미분이 제대로 작동하지 않아 모든 미분 식을 직접 계산하는 고난도 작업이 필요했다. 또한 캐글의 12시간 실행 제한을 맞추기 위해 커스텀 손실 연산 속도를 수배 이상 최적화하여 실전 적용 가능성을 확보했다.
- •해석적 도함수 유도를 통한 고차원 최적화 문제 해결
- •캐글 환경의 시간 제한을 극복하기 위한 연산 최적화
12:10
피처 엔지니어링 전략: 전처리 및 범주형 변수 처리
데이터 전처리 단계에서 중복 컬럼을 식별하여 제거하고 범주형 변수의 복잡도를 낮췄다. 각 범주형 변수에서 빈도가 높은 상위 20개 카테고리만 유지하고 나머지는 '기타(Others)'로 통합했다. 이러한 과감한 단순화 전략을 통해서도 모델 성능의 하락 없이 과적합을 방지하고 안정성을 높이는 효과를 거두었다.
- •중복 데이터 제거 및 범주형 변수의 카테고리 축소
- •데이터 단순화를 통한 과적합 방지 및 안정성 향상
14:10
피처 엔지니어링 전략: 변수 결합 및 신규 피처 생성
여러 컬럼에 흩어져 있는 동일한 정보(예: 생년월일)를 하나의 신뢰할 수 있는 피처로 통합하는 집계 작업을 수행했다. 트리 기반 모델이 변수 간의 논리적 관계를 스스로 파악하기 어렵다는 점에 착안하여 '수입 대비 부채 비율'과 같은 복합 피처를 직접 생성했다. 이는 모델이 데이터의 도메인 특성을 더 명확하게 학습하도록 돕는 역할을 했다.
- •분산된 동일 정보의 통합 집계(Aggregation) 수행
- •도메인 지식을 반영한 복합 피처(Compound Features) 생성
17:30
피처 선택 및 최종 모델 앙상블
도메인 상식과 초기 모델의 중요도를 바탕으로 50개의 핵심 피처를 먼저 선정했다. 이후 ROC-AUC 점수를 개선하는 피처를 하나씩 추가하는 방식으로 최종 262개의 피처를 확정했다. 최종 예측은 기본 손실 함수를 사용한 LightGBM 및 CatBoost 모델과 커스텀 안정성 손실을 적용한 LightGBM 모델들의 앙상블로 산출했다.
- •ROC-AUC 개선 기여도에 따른 단계적 피처 선택 프로세스
- •기본 모델과 커스텀 손실 모델의 결합을 통한 앙상블 전략
22:00
주요 발견 및 단일 피처 모델의 성능
데이터 분석 과정에서 `refreshdate`와 주차 정보 사이의 강한 상관관계를 발견하여 날짜 정보를 일부 복원할 수 있었다. 특히 흥미로운 점은 팀이 생성한 특정 복합 피처 단 하나만 사용해도 ROC-AUC 0.7 이상의 성능을 낼 수 있었다는 사실이다. 이는 정교하게 설계된 피처 엔지니어링이 복잡한 모델 구조만큼이나 강력할 수 있음을 시사한다.
- •날짜 정보 복원을 통한 데이터 맥락 파악
- •단일 복합 피처만으로도 높은 예측력을 보이는 모델의 효율성
실무 Takeaway
- 경진대회의 특수한 평가지표를 모델의 손실 함수에 직접 반영하는 것이 우승의 결정적 요인이었다.
- 트리 기반 모델의 한계를 극복하기 위해 도메인 지식을 활용한 복합 피처(비율, 차이 등)를 직접 생성해야 한다.
- 고차원 데이터에서 커스텀 손실 함수를 사용하려면 수학적 미분 유도와 연산 최적화 능력이 필수적이다.
- 피처의 개수를 무작정 늘리기보다 안정성과 성능 기여도를 엄격히 평가하여 선택하는 과정이 중요하다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료