LightGBM 분위수 회귀에서의 타겟 인코딩 누수 문제와 어블레이션 분석

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LightGBM 분위수 회귀 모델에서 타겟 인코딩이 학습 데이터의 노이즈를 과적합하여 실제 테스트 성능을 저하시키는 현상을 어블레이션 테스트로 확인했다.

작성자는 가격 예측 엔진(Flyback)에서 LightGBM 기반 분위수 회귀 모델을 운영하던 중, 타겟 인코딩 기법이 학습 데이터에서는 높은 중요도를 보였으나 테스트 셋에서는 성능이 저하되는 과적합 문제를 발견하고 이를 공유했다.

이 토론은 타겟 인코딩이 학습 데이터의 노이즈를 과도하게 학습하여 실제 환경에서 성능을 저하시킬 수 있음을 시사한다. 실무에서는 모델의 피처 중요도만 신뢰하지 말고, 엄격한 어블레이션 테스트를 통해 일반화 성능을 검증하는 과정이 필수적이다.

LightGBM의 분위수 회귀 모델에서 타겟 인코딩이 학습 시에는 중요도 1위를 기록했으나, 실제 테스트 셋에서는 MAPE가 0.28pp 악화되는 성능 저하가 발생했다.

이 현상은 모델이 타겟 인코딩을 통해 학습한 신호가 실제로는 관측 불가능한 변수(판매자 행동, 상품 상태 등)에 의한 노이즈였기 때문에 발생했다.

4-seed × 3-variant 어블레이션 테스트 결과, 변수 간 차이가 표준 편차의 7배에 달하는 등 일반화 실패가 명확히 확인되었다.

작성자는 이러한 타겟 인코딩 누수(leakage) 문제를 해결하기 위해 아키텍처와 어블레이션 방법론을 재설계했다.

특정 피처가 학습 데이터에서 압도적인 중요도를 보일 경우, 타겟 인코딩 누수(leakage)로 인한 과적합 가능성을 의심해야 한다.
학습 성능과 테스트 성능이 괴리될 때, 엄격한 어블레이션(ablation) 테스트를 통해 모델이 학습한 신호가 실제 일반화 가능한지 검증해야 한다.
분위수 회귀 모델에서는 타겟 인코딩이 관측 불가능한 라벨 분산(irreducible label variance)을 학습하여 성능을 왜곡할 수 있다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

이 현상은 모델이 타겟 인코딩을 통해 학습한 신호가 실제로는 관측 불가능한 변수(판매자 행동, 상품 상태 등)에 의한 노이즈였기 때문에 발생했다.

4-seed × 3-variant 어블레이션 테스트 결과, 변수 간 차이가 표준 편차의 7배에 달하는 등 일반화 실패가 명확히 확인되었다.

작성자는 이러한 타겟 인코딩 누수(leakage) 문제를 해결하기 위해 아키텍처와 어블레이션 방법론을 재설계했다.

특정 피처가 학습 데이터에서 압도적인 중요도를 보일 경우, 타겟 인코딩 누수(leakage)로 인한 과적합 가능성을 의심해야 한다.
학습 성능과 테스트 성능이 괴리될 때, 엄격한 어블레이션(ablation) 테스트를 통해 모델이 학습한 신호가 실제 일반화 가능한지 검증해야 한다.
분위수 회귀 모델에서는 타겟 인코딩이 관측 불가능한 라벨 분산(irreducible label variance)을 학습하여 성능을 왜곡할 수 있다.