핵심 요약
기존의 바이트 단위 언어 모델은 토크나이저 없이 노이즈에 강하다는 장점이 있지만, 한 바이트씩 생성하는 속도가 매우 느려 실무 적용이 어려웠다. 이 논문은 디퓨전 기법과 자기 추측 디코딩을 도입하여 바이트 모델의 고질적인 속도 문제를 해결하고 메모리 대역폭 비용을 50% 이상 절감했다.
왜 중요한가
기존의 바이트 단위 언어 모델은 토크나이저 없이 노이즈에 강하다는 장점이 있지만, 한 바이트씩 생성하는 속도가 매우 느려 실무 적용이 어려웠다. 이 논문은 디퓨전 기법과 자기 추측 디코딩을 도입하여 바이트 모델의 고질적인 속도 문제를 해결하고 메모리 대역폭 비용을 50% 이상 절감했다.
핵심 기여
BLT Diffusion (BLT-D) 모델 도입
표준적인 차세대 바이트 예측 손실 함수와 함께 보조적인 블록 단위 디퓨전 목적 함수를 학습시켜, 한 번의 디코딩 단계에서 여러 바이트를 병렬로 생성할 수 있는 아키텍처를 구현했다.
BLT Self-speculation (BLT-S) 제안
별도의 드래프트 모델 없이 BLT 내부의 경량 로컬 디코더를 활용해 바이트를 미리 생성하고, 이를 전체 모델로 검증하는 자기 추측 디코딩 방식을 통해 품질 저하 없는 가속을 달성했다.
BLT Diffusion+Verification (BLT-DV) 하이브리드 방식
BLT-D의 빠른 디퓨전 생성 결과물을 자기회귀적 검증 단계와 결합하여, 생성 속도와 결과물의 품질 사이의 최적의 균형점을 확보했다.
관련 Figure

드래프팅 단계에서 생성된 바이트 블록을 전체 모델이 한 번에 검증하고, 일치하지 않는 첫 지점에서 롤백하는 메커니즘을 보여준다. 이는 생성 품질을 유지하면서도 연산량을 줄이는 핵심 기법이다.
BLT-S 및 BLT-DV에서 공유하는 검증 절차 다이어그램
핵심 아이디어 이해하기
기존 Transformer 모델은 텍스트를 '토큰'이라는 단위로 쪼개어 처리하지만, 바이트 모델은 원문 그대로의 바이트를 처리한다. 하지만 바이트 시퀀스는 토큰 시퀀스보다 길이가 훨씬 길어지기 때문에, 한 번에 한 바이트씩 생성하는 방식으로는 추론 속도가 너무 느려지는 한계가 있었다.
이 논문은 BLT의 계층적 구조를 활용한다. 복잡한 연산은 압축된 '잠재 토큰' 영역에서 수행하고, 실제 바이트 생성은 가벼운 로컬 디코더가 담당하게 한다. 여기서 핵심은 로컬 디코더가 한 번에 하나가 아닌, 여러 바이트를 동시에 예측하도록 '디퓨전(Diffusion)' 원리를 적용한 것이다. 마치 안개 속에서 그림이 서서히 나타나듯, 마스킹된 바이트 블록을 한꺼번에 채워 넣는 방식이다.
결과적으로 모델은 한 번의 연산으로 여러 바이트를 동시에 뱉어낼 수 있게 된다. 이는 메모리 대역폭 병목 현상을 획기적으로 줄여주며, 바이트 모델이 가진 노이즈 내성과 유연성을 유지하면서도 토큰 기반 모델에 필적하는 실용적인 속도를 제공한다.
방법론
BLT-D는 BLT의 계층적 아키텍처를 유지하면서 로컬 디코더의 학습 및 추론 방식을 수정한다. 로컬 인코더가 바이트 시퀀스를 가변 길이 패치로 그룹화하여 잠재 표현을 생성하면, 글로벌 Transformer가 이를 처리한다. 로컬 디코더는 이 잠재 표현을 입력받아 고정된 크기의 바이트 블록을 병렬로 생성한다.
학습 시에는 두 가지 손실 함수를 결합한다. 첫째는 표준적인 자기회귀적 차세대 바이트 예측 손실(L_clean)이며, 둘째는 마스킹된 바이트 블록을 복구하는 디퓨전 손실(L_mask)이다. [입력 시퀀스 x와 노이즈가 섞인 블록 x_t를 입력으로] → [로컬 디코더가 마스킹된 위치의 원래 바이트를 예측하는 연산을 수행해] → [예측 확률 분포를 얻고] → [이 값이 실제 바이트와 일치하도록 가중치를 갱신한다].
추론 시에는 '신뢰도 기반 언마스킹(Confidence-based Unmasking)' 또는 '엔트로피 제한 샘플링(Entropy-bounded Sampling)' 전략을 사용한다. [마스킹된 블록에서 시작하여] → [모델이 예측한 확률 중 신뢰도가 높은 위치부터 순차적으로 마스크를 해제하는 과정을 반복해] → [최종 바이트 시퀀스를 완성한다]. 이 과정은 바이트 수보다 훨씬 적은 단계로 완료된다.
관련 Figure

로컬 인코더, 글로벌 모델, 로컬 디코더로 이어지는 계층 구조에서 로컬 디코더가 마스크 토큰을 병렬로 채워나가는 과정을 설명한다. 기존 BLT와 달리 모든 컴포넌트의 호출 횟수를 줄여 추론 효율을 높이는 원리를 시각화했다.
BLT-D의 추론 과정을 보여주는 다이어그램
주요 결과
3B 파라미터 모델 실험 결과, BLT-D는 번역 및 코드 생성 작업에서 기존 BLT 대비 메모리 대역폭 비용을 50% 이상 절감했다. 특히 블록 크기를 키울 경우 최대 92%까지 비용을 줄일 수 있었으나, 이 경우 작업 성능의 일부 저하가 관찰되었다.
BLT-S(자기 추측 디코딩)는 성능 저하 없이 메모리 대역폭을 최대 77% 절감하는 성과를 보였다. BLT-DV(디퓨전+검증) 방식은 순수 디퓨전 방식보다 속도는 약간 느리지만, 성능 저하를 효과적으로 방어하며 BLT 대비 81%의 비용 절감을 달성했다. HumanEval 벤치마크에서 BLT 3B가 22.56점을 기록할 때, BLT-D-4는 18.90점을 기록하며 속도와 성능의 트레이드오프를 보여주었다.
관련 Figure

BLT-D 변체들이 기존 BLT 및 BPE 기반 모델 대비 훨씬 적은 메모리 대역폭과 NFE로 유사한 성능을 내고 있음을 보여준다. 특히 번역 작업에서 효율성 개선이 두드러진다.
3B 모델의 성능, NFE, 메모리 대역폭 간의 상관관계 그래프
기술 상세
BLT-D의 핵심 차별점은 로컬 디코더의 Cross-Attention 및 Self-Attention 마스크 설계에 있다. 클린 프리픽스 영역에는 Causal Mask를 적용하고, 생성해야 할 마스킹 블록 내에서는 Bidirectional Attention을 허용하여 디퓨전 메커니즘이 작동하게 한다. 모든 바이트는 원래의 위치 인덱스를 유지하며 RoPE(Rotary Positional Embedding)를 통해 위치 정보를 보존한다.
학습 데이터 전처리 과정에서 각 패치를 고정 크기 B의 블록으로 확장하여 패치 경계를 넘어서는 미래 바이트까지 예측하도록 유도한다. 이는 모델이 로컬 패치 구조에 얽매이지 않고 더 긴 문맥을 병렬로 생성할 수 있게 돕는다. 검증 단계(Verify)에서는 드래프트된 바이트와 모델의 Greedy 예측값이 일치하는 지점까지만 수용하는 방식을 채택하여 출력의 신뢰성을 보장한다.
한계점
본 연구의 평가는 실제 하드웨어 구현 속도가 아닌 네트워크 함수 평가 횟수(NFE)와 추정 메모리 대역폭을 대리 지표로 사용했다는 한계가 있다. 실제 커널 최적화나 하드웨어 활용도에 따라 실측 성능은 달라질 수 있다. 또한 블록 크기가 커질수록 생성 품질이 저하되는 경향이 있어, 품질과 효율성 사이의 정교한 튜닝이 필요하다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.