핵심 요약
기존의 회귀 분석은 정수 레이블을 연속적인 값으로 간주하고 반올림하는 방식에 의존해 데이터의 이산적 특성을 무시하는 한계가 있었다. 이 논문은 역전파가 가능한 연속적인 파라미터를 유지하면서도 정수 공간에서 직접 확률을 정의하는 새로운 이산 분포들을 제안하여 예측의 정확도와 해석력을 동시에 높였다.
왜 중요한가
기존의 회귀 분석은 정수 레이블을 연속적인 값으로 간주하고 반올림하는 방식에 의존해 데이터의 이산적 특성을 무시하는 한계가 있었다. 이 논문은 역전파가 가능한 연속적인 파라미터를 유지하면서도 정수 공간에서 직접 확률을 정의하는 새로운 이산 분포들을 제안하여 예측의 정확도와 해석력을 동시에 높였다.
핵심 기여
정수 회귀를 위한 새로운 이산 분포 Dalap 및 Danorm 제안
Laplace 분포와 Normal 분포의 이산적 아날로그인 Dalap과 Danorm을 제안했다. 특히 Dalap은 연속적인 위치 파라미터를 허용하도록 확장되어 신경망의 출력층에서 정수 값을 직접 예측하는 데 최적화됐다.
Bitwise 분포의 확률론적 재해석
정수를 비트 문자열로 표현하고 각 비트에 Bernoulli 분포를 적용하는 관행을 정수 공간 위의 유효한 확률 분포로 공식화했다. 이는 고엔트로피 및 고분산 데이터에서 효과적인 대안임을 입증했다.
다양한 도메인에서의 성능 검증
표 형식 데이터(Tabular), 시퀀스 예측(MIDI), 이미지 생성(PixelCNN++) 등 세 가지 영역에서 실험을 수행했다. Dalap은 대부분의 작업에서 음의 로그 가능도(NLL) 기준 기존 방식보다 우수한 성능을 보였다.
핵심 아이디어 이해하기
딥러닝에서 정수 값을 예측할 때 흔히 사용하는 방식은 Softmax를 이용한 Categorical 분포나 연속적인 값으로 가정하고 MSE Loss를 사용하는 것이다. 하지만 Categorical 분포는 정수 사이의 순서(Ordinality)를 무시하며, 연속적 완화 방식은 정수 데이터가 가진 이산적 확률 구조를 정확히 반영하지 못한다.
이 논문은 정수 집합 위에서 직접 정의되면서도 그 형태를 결정하는 파라미터(평균, 분산 등)는 연속적인 값을 가져 역전파(Backpropagation)가 가능한 분포를 설계했다. 핵심 아이디어는 연속 확률 분포의 특성을 유지하면서 정수 지점에서만 확률 질량을 갖도록 재구성하는 것이다.
특히 Dalap 분포는 Laplace 분포의 기하학적 감쇠 특성을 정수 그리드에 적용했다. 이를 통해 모델이 예측값과 실제 정수값 사이의 절대 거리(|μ - n|)를 최소화하도록 유도하면서도, 확률론적으로 유효한 비트(Bits) 단위의 손실 함수를 계산할 수 있게 한다. 결과적으로 모델은 정수 데이터의 불확실성을 더 정확하게 학습하게 된다.
방법론
제안된 Dalap 분포는 p(n | μ, γ) ∝ γ^|n-μ| 형태를 취한다. 여기서 μ는 연속적인 위치 파라미터이고 γ는 0과 1 사이의 산포 파라미터이다. [연속적인 μ와 γ를 입력으로] → [정수 n과의 거리에 따른 지수 연산을 수행해] → [정수 지점에서의 확률 질량을 계산하고] → [이를 전체 정수 집합에 대해 정규화하여 확률 분포를 얻는다].
Danorm 분포는 p(n | μ, γ) ∝ γ^(n-μ)² 형태를 가지며 Normal 분포의 제곱 지수 감쇠 특성을 모방한다. [μ와 n 사이의 거리 제곱을 계산하고] → [γ를 밑으로 하는 지수 연산을 거쳐] → [수치적 근사를 통해 파티션 함수 z를 계산하여] → [정규화된 확률을 출력한다]. 이 방식은 오차의 제곱을 최소화하려는 목적에 부합한다.
Bitwise 분포는 정수를 부호-크기(Signed-magnitude) 비트 표현으로 변환한다. [정수 n을 k개의 비트로 인코딩하여 입력으로] → [각 비트 위치 i에 대해 독립적인 Bernoulli 분포 π_i를 학습하고] → [각 비트의 로그 가능도를 합산하여] → [전체 정수의 확률을 정의한다]. 학습 시에는 상위 비트의 오류에 더 큰 가중치를 두는 Positional Weighting 기법을 적용했다.
관련 Figure

연속 파라미터 μ의 위치에 따라 좌우 인접 정수 ⌊μ⌋와 ⌈μ⌉에 할당되는 확률 질량의 가중치를 보여준다. γ가 0에 가까워질수록 기댓값이 가장 가까운 정수 r(μ)로 수렴하는 과정을 통해 정수 예측에 대한 유도 편향(Inductive bias)을 설명한다.
Dalap 분포의 기댓값 계산 원리를 시각화한 다이어그램
주요 결과
표 형식 데이터 회귀 실험에서 Dalap은 Bicycles 및 Upvotes 데이터셋에 대해 각각 6.78 bits와 6.74 bits의 음의 로그 가능도를 기록하며 가장 우수한 성능을 보였다. 반면 RMSE 기준으로는 연속적 완화 방식이 여전히 경쟁력이 있었으나, 이산 분포 중에서는 Danorm이 가장 낮은 오차를 기록했다.
MIDI 시퀀스 예측(MAESTRO)에서는 Poisson 분포가 4.91 bits로 가장 우수했는데, 이는 데이터가 0 이상의 정수이며 분산이 크지 않은 특성 때문으로 분석됐다. 하지만 분산이 극도로 큰 Migration 데이터셋에서는 Bitwise 분포가 혼합 모델(Mixture Model) 설정에서 18.0 bits를 기록하며 압도적인 성능을 보였다.
이미지 생성 작업에서 Dalap 기반 PixelCNN++ 모델은 MNIST(0.61 bits/dim)와 FashionMNIST(1.23 bits/dim)에서 기존의 Discretized Logistic 방식보다 우수하거나 대등한 성능을 보였으며, 생성된 이미지의 품질(FID) 측면에서도 높은 경쟁력을 입증했다.
기술 상세
Dalap 분포의 연속 파라미터 μ 확장을 위해 파티션 함수 z를 μ의 소수 부분(f = μ - ⌊μ⌋)에 따라 동적으로 변하는 함수로 정의했다. 이를 통해 μ가 정수 경계를 넘을 때 확률 질량이 부드럽게 이동하며 기울기(Gradient)가 잘 정의되도록 설계했다. Danorm의 경우 파티션 함수의 닫힌 형태(Closed-form)가 존재하지 않아 수치적 합산을 통해 근사하며, 계산 효율성을 위해 꼬리 부분이 빠르게 감쇠하는 특성을 이용해 합산 범위를 제한한다. 실험에서는 혼합 모델(Mixture of K distributions)을 적용하여 다봉성(Multimodality)과 과분산(Overdispersion) 문제를 해결했다.
한계점
Danorm 분포는 파티션 함수 계산을 위해 수치적 근사가 필요하므로 고차원 데이터(고해상도 이미지 등)에서 연산 비용이 크게 증가하는 한계가 있다. 또한 Discrete Weibull(Dweib) 분포는 유계 구간(Bounded interval) 모델링 시 수치적 불안정성으로 인해 수렴에 실패하는 경우가 보고됐다.
실무 활용
정수 형태의 레이블을 가진 회귀 문제나 생성 모델에서 확률적인 출력이 필요할 때 직접 활용 가능하다.
- 공유 자전거 대여 수나 소셜 미디어 추천 수와 같은 카운트 데이터 예측
- 이미지 픽셀 값(0-255)을 예측하는 자동 회귀 생성 모델의 출력층
- 음악 MIDI 데이터의 틱(Tick) 단위 시간 간격 예측
- 국가 간 순 이동 인구와 같이 음수를 포함하는 정수 회귀 작업
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.