Home Credit 신용 위험 모델 안정성 경진대회 우승 솔루션: DebtCollectors 팀의 접근법 | AI Trends

Home Credit 신용 위험 모델 안정성 경진대회 우승 솔루션: DebtCollectors 팀의 접근법

DebtCollectors 팀이 Home Credit 경진대회에서 우승하기 위해 사용한 직접적인 ROC-AUC 최적화 커스텀 손실 함수와 효율적인 피처 엔지니어링 기법을 소개합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

모델의 성능뿐만 아니라 시간에 따른 안정성을 확보하기 위해 직접적인 ROC-AUC 최적화 커스텀 손실 함수와 도메인 지식 기반의 피처 통합이 핵심적인 역할을 했다.

배경

전통적인 신용 기록이 부족한 고객의 대출 기본 위험을 예측하는 Home Credit 경진대회에서 우승한 DebtCollectors 팀의 발표 영상이다.

대상 독자

데이터 사이언티스트, 캐글 참가자, 금융권 머신러닝 엔지니어

의미 / 영향

금융권의 신용 평가 모델 구축 시 단순히 정확도만 높이는 것이 아니라, 시간이 지나도 성능이 유지되는 '안정성'을 확보하는 실전적인 방법론을 제시한다. 특히 ROC-AUC를 직접 최적화하는 기법은 불균형 데이터셋이 많은 금융 도메인에서 모델의 신뢰도를 높이는 데 널리 응용될 수 있다.

챕터별 상세

00:00

발표 개요 및 팀 소개

DebtCollectors 팀은 같은 대학 수학과 출신의 데이터 사이언티스트 4명으로 구성되었다. 이번 발표는 경진대회의 핵심 과제인 모델 안정성을 해결하기 위해 개발한 커스텀 손실 함수, 피처 엔지니어링, 그리고 훈련 방법론을 중심으로 진행된다. 특히 안정성 지표를 직접적으로 최적화하기 위한 수학적 접근법이 이번 솔루션의 차별점이다.

02:10

안정성 지표 분석 및 커스텀 손실 함수 설계

경진대회의 평가지표인 안정성 메트릭은 평균 Gini 점수, 시간에 따른 성능 감쇠 효과, 그리고 잔차의 세 가지 항으로 정의된다. 팀은 데이터에서 특정 주차 정보가 제거된 후 감쇠 효과를 직접 다루기 어려워지자, 평균 Gini와 잔차 항을 최소화하는 데 집중했다. Gini 점수의 변동성을 줄임으로써 모델이 시간에 관계없이 일관된 성능을 내도록 유도했다.

Gini 계수는 신용 평가 모델에서 모델의 변별력을 측정하는 대표적인 지표이며, 안정성 메트릭은 이 지표가 시간에 따라 얼마나 일정하게 유지되는지를 평가한다.

04:00

ROC-AUC 직접 최적화의 수학적 원리

표준 머신러닝 라이브러리는 ROC-AUC를 직접 최적화하지 못하므로 Yan 등의 논문을 참고하여 미분 가능한 형태의 손실 함수를 유도했다. 핵심 아이디어는 음성 샘플의 점수가 양성 샘플보다 높게 나타나는 '역전(Inversion)' 현상을 계산하고 이를 최소화하는 것이다. 전체 학습 데이터를 여러 서브셋으로 나누어 각 구간에서의 역전 횟수를 합산하는 방식으로 안정성 손실 함수를 구성했다.

일반적인 손실 함수(Log Loss 등)는 확률 값을 최적화하지만, ROC-AUC 최적화는 샘플 간의 상대적인 순위를 올바르게 정렬하는 데 집중한다.

10:50

커스텀 손실 함수 구현의 기술적 난관

LightGBM과 같은 프레임워크에서 커스텀 손실을 적용하기 위해서는 1차 및 2차 도함수(Hessian)를 해석적으로 유도해야 했다. 고차원 공간에서는 수치 미분이 제대로 작동하지 않아 모든 미분 식을 직접 계산하는 고난도 작업이 필요했다. 또한 캐글의 12시간 실행 제한을 맞추기 위해 커스텀 손실 연산 속도를 수배 이상 최적화하여 실전 적용 가능성을 확보했다.

12:10

피처 엔지니어링 전략: 전처리 및 범주형 변수 처리

데이터 전처리 단계에서 중복 컬럼을 식별하여 제거하고 범주형 변수의 복잡도를 낮췄다. 각 범주형 변수에서 빈도가 높은 상위 20개 카테고리만 유지하고 나머지는 '기타(Others)'로 통합했다. 이러한 과감한 단순화 전략을 통해서도 모델 성능의 하락 없이 과적합을 방지하고 안정성을 높이는 효과를 거두었다.

14:10

피처 엔지니어링 전략: 변수 결합 및 신규 피처 생성

여러 컬럼에 흩어져 있는 동일한 정보(예: 생년월일)를 하나의 신뢰할 수 있는 피처로 통합하는 집계 작업을 수행했다. 트리 기반 모델이 변수 간의 논리적 관계를 스스로 파악하기 어렵다는 점에 착안하여 '수입 대비 부채 비율'과 같은 복합 피처를 직접 생성했다. 이는 모델이 데이터의 도메인 특성을 더 명확하게 학습하도록 돕는 역할을 했다.

17:30

피처 선택 및 최종 모델 앙상블

도메인 상식과 초기 모델의 중요도를 바탕으로 50개의 핵심 피처를 먼저 선정했다. 이후 ROC-AUC 점수를 개선하는 피처를 하나씩 추가하는 방식으로 최종 262개의 피처를 확정했다. 최종 예측은 기본 손실 함수를 사용한 LightGBM 및 CatBoost 모델과 커스텀 안정성 손실을 적용한 LightGBM 모델들의 앙상블로 산출했다.

22:00

주요 발견 및 단일 피처 모델의 성능

데이터 분석 과정에서 `refreshdate`와 주차 정보 사이의 강한 상관관계를 발견하여 날짜 정보를 일부 복원할 수 있었다. 특히 흥미로운 점은 팀이 생성한 특정 복합 피처 단 하나만 사용해도 ROC-AUC 0.7 이상의 성능을 낼 수 있었다는 사실이다. 이는 정교하게 설계된 피처 엔지니어링이 복잡한 모델 구조만큼이나 강력할 수 있음을 시사한다.

실무 Takeaway

경진대회의 특수한 평가지표를 모델의 손실 함수에 직접 반영하는 것이 우승의 결정적 요인이었다.
트리 기반 모델의 한계를 극복하기 위해 도메인 지식을 활용한 복합 피처(비율, 차이 등)를 직접 생성해야 한다.
고차원 데이터에서 커스텀 손실 함수를 사용하려면 수학적 미분 유도와 연산 최적화 능력이 필수적이다.
피처의 개수를 무작정 늘리기보다 안정성과 성능 기여도를 엄격히 평가하여 선택하는 과정이 중요하다.

언급된 리소스

논문Optimizing Classifier Performance via the Wilcoxon-Mann-Whitney Statistic

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 26.수집 2026. 02. 26.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.