낭비되는 비트 찾기: LLM 가중치는 얼마나 많은 정보를 담고 있는가?

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

LLM 가중치가 실제 저장 포맷의 비트 용량을 얼마나 효율적으로 사용하는지 정보 이론의 섀넌 엔트로피를 통해 분석했다. BF16 포맷은 16비트 중 약 10.6비트의 엔트로피만 가져 예산의 1/3이 낭비되고 있으며, 이는 주로 가중치 크기가 특정 범위에 집중되어 지수(Exponent) 필드가 비효율적으로 사용되기 때문이다. FP8로 줄이면 효율이 80%까지 상승하고, MXFP4나 INT4 같은 4비트 포맷에 도달해서야 비트 사용률이 93%에 육박하며 포맷이 모델의 분포를 강제로 성형하기 시작한다. 결국 메모리 대역폭 병목을 해결하기 위해 고정 길이 포맷의 한계를 넘어선 추가적인 압축과 연산 최적화가 필요함을 시사한다.

배경

Shannon Entropy (섀넌 엔트로피) 개념, Floating Point (BF16, FP8) 데이터 포맷 구조, Quantization (양자화) 기본 원리

대상 독자

LLM 추론 최적화 및 양자화 알고리즘을 연구하는 ML 엔지니어

의미 / 영향

이 분석은 현재의 고정 비트 포맷이 AI 모델의 실제 정보 밀도를 효율적으로 담지 못하고 있음을 증명합니다. 향후 하드웨어 설계와 소프트웨어 스택이 더 미세한 블록 단위 스케일링이나 가변 길이 압축을 지원하는 방향으로 진화하여 메모리 병목 현상을 획기적으로 개선할 것임을 시사합니다.

섹션별 상세

BF16 포맷으로 저장된 LLM 가중치는 할당된 16비트 중 약 10.6비트의 정보량만 포함하고 있어 전체의 33%가 낭비되는 슬랙(Slack) 상태이다. 분석 결과 부호 비트와 가수부(Mantissa)는 거의 완벽하게 사용되지만, 8비트가 할당된 지수부(Exponent)는 실제 2.6비트 정도의 엔트로피만 운반하고 있다. 이는 모델의 가중치 크기가 2^-7에서 2^-6 사이의 매우 좁은 범위에 집중되어 있어 지수부의 표현력을 다 쓰지 못하기 때문이다.

모델의 크기나 학습 레시피와 상관없이 훈련된 모든 모델의 가중치 크기 분포는 놀라울 정도로 유사한 정규화된 곡선으로 수렴한다. Qwen, DeepSeek, Google 등 다양한 기관의 모델을 평균과 표준편차로 재조정하면 거의 동일한 분포를 보이는데, 이는 BF16 포맷이 실제 모델이 필요로 하는 것보다 훨씬 넓은 범위를 지원하도록 설계되었음을 의미한다. 이러한 보편적인 분포 특성 덕분에 특정 아키텍처에 구애받지 않고 공통적인 양자화 전략을 적용할 수 있다.

8비트 포맷인 FP8로 전환하면 비트 사용 효율이 BF16의 66%에서 80% 수준으로 상승하며 절대적인 낭비량이 줄어든다. FP8은 가수부의 정밀도를 낮춤으로써 전체 비트수를 줄이지만, 여전히 지수부의 슬랙은 완전히 제거하지 못한 채 약 6.5비트의 엔트로피를 유지한다. 이 단계까지는 모델의 가중치 분포가 포맷의 제약에 맞추어 변하지 않고 포맷이 분포를 수용하는 형태를 유지한다.

4비트 이하의 하위 바이트 포맷(MXFP4, INT4, NVFP4)에 도달하면 포맷의 제약이 모델의 가중치 분포를 직접적으로 변화시키기 시작한다. 4비트 포맷의 지수부는 2비트만 제공하는데 이는 모델이 요구하는 2.6비트보다 작기 때문에, 모델은 낮은 손실을 유지하기 위해 가중치 분포를 포맷에 맞춰 더 좁게 변형시킨다. 이 시점에서 비트 사용률은 약 93%까지 올라가며, 남은 미세한 낭비 비트는 대부분 블록 스케일(Scale) 값에 존재하게 된다.

실무 Takeaway

BF16 기반 LLM 서비스에서 지수부의 낭비 비트를 고려할 때, FP8이나 4비트 양자화 도입만으로도 모델 성능 저하를 최소화하면서 메모리 사용량을 50-75% 절감할 수 있다.
4비트 양자화(INT4, NVFP4 등) 적용 시 모델의 가중치 분포가 포맷에 맞춰 강제로 조정되므로, 단순 사후 양자화(PTQ)보다 양자화 인식 학습(QAT)이나 증류(Distillation)를 병행하는 것이 정보 손실을 막는 데 필수적이다.
메모리 대역폭 병목을 극복하기 위해 고정 길이 포맷을 넘어선 가변 길이 압축 기술을 검토하여, 남은 7-30%의 비트 효율을 추가로 확보함으로써 추론 속도를 개선할 수 있다.

언급된 리소스

문서DeepSeek-V3 Model Card

GitHubTurboQuant Implementation