TL;DR
HRM-Text는 듀얼 타임스케일 재귀와 MagicNorm, warmup deep credit assignment를 통해 긴 순환에서의 학습 안정성을 확보한다. 또한 task-completion objective와 PrefixLM masking을 결합해 Instruction-Response 데이터로부터 효율적으로 학습하며, 소규모 예산으로도 오픈형 모델과 경쟁 가능한 성능을 달성한다. 이로써 아키텍처와 학습 목표의 공동 설계가 compute-대-성능 비율을 크게 낮출 수 있음을 시사한다.
왜 중요한가
HRM-Text는 듀얼 타임스케일 재귀와 MagicNorm, warmup deep credit assignment를 통해 긴 순환에서의 학습 안정성을 확보한다. 또한 task-completion objective와 PrefixLM masking을 결합해 Instruction-Response 데이터로부터 효율적으로 학습하며, 소규모 예산으로도 오픈형 모델과 경쟁 가능한 성능을 달성한다. 이로써 아키텍처와 학습 목표의 공동 설계가 compute-대-성능 비율을 크게 낮출 수 있음을 시사한다.
핵심 기여
HRM-Text 아키텍처 및 안정화 기법
듀얼 타임스케일의 L 모듈(빠른 업데이트)과 H 모듈(느린 맥락 유지)을 활용하는 Hierarchical Recurrent Model 기반 HRM-Text를 제안하고, MagicNorm와 warmup deep credit assignment를 통해 언어 모델 규모에서의 깊은 순환 학습의 수렴성과 안정성을 확보한다.
Task-completion 목표와 PrefixLM 마스킹
전통적 전제 텍스트 예측이 아닌 instruction-response 쌍에서 응답 토큰에 대해서만 손실을 계산하는 −log P(xa|xq) objective를 사용하고 PrefixLM 마스크로 인스트럭션 토큰 간 양방향 주의를 허용하여 학습 효율을 높인다.
저자원 설정에서의 실험적 효용성
1B 파라미터의 HRM-Text가 40B 토큰으로 학습되었을 때 60.7% MMLU, 81.9% ARC-C, 82.2% DROP, 84.5% GSM8K, 56.2% MATH를 달성하고, 96–432×의 추정 compute, 100–900×의 토큰 절감으로 2–7B 오픈 모델과 경쟁력을 보인다.
Effective depth 및 안정성 분석
HRM은 깊은 depth에서도 의미 있는 표현 변화를 유지하고, per-layer logit-lens KL 분석에서 깊은 층이 여전히 유의한 정보를 담고 있음을 보이며, gradient stability 실험에서 RIN/Universal Transformer 대비 더 안정적이고 덜 과도하게 거칠지 않은 경향을 보인다.
핵심 아이디어 이해하기
출발점: 현재의 대형 언어 모델 전재가 대규모 데이터/계산에 의존하는 한계가 있다. Transformer의 깊은 구조에서 gradient가 소실되거나 과도하게 커지는 문제를 재귀적으로 해결하는 방법은 존재하나, 긴 종속성을 다루기엔 불안정하다. 해결 원리: HRM은 L 모듈(빠른 업데이트)과 H 모듈(느린 맥락 유지)의 듀얼 타임스케일 재귀로 내부 계산을 다층적으로 처리하고, MagicNorm와 warmup deep credit assignment로 TBPTT 하에서의 활성화 분산과 그래디언트 흐름을 안정화한다. 목표 및 입력 구조의 변화: Broad raw-text pretraining 대신 instruction-response 쌍에 대해 −log P(xa|xq)를 학습하고 PrefixLM 마스크를 적용해 인스트럭션 토큰은 양방향 주의를 허용하되 응답 토큰은 자동회귀로 생성한다. 결과적으로 소량의 데이터와 토큰으로도, HRM-Text는 1B 파라미터에서 40B 토큰의 예산으로 대형 baselines에 근접한 성능을 달성하며, 학습 효율성 측면에서 큰 폭으로 개선된다. 달라지는 점: HRM은 깊은 순환의 효과적 깊이(effective depth)를 증가시키고, 실험적으로 gradient 신호를 유지하는 능력과 출력 분포의 안정화 여부를 개선한다. 이를 통해 아키텍처-목적 연합이 compute-to-performance를 크게 낮출 수 있음을 확인한다.
방법론
- 전체 접근: L 모듈(빠른 업데이트)과 H 모듈(느린 업데이트)로 구성된 HRM-Text를 구성하고, 매 사이클마다 3회 L 모듈 업데이트 + 1회 H 모듈 업데이트를 수행하며, 마지막 H 모듈의 출력으로 로짓을 예측한다. 2) 핵심 메커니즘: MagicNorm는 각 모듈 내부 PreNorm 블록으로 구성되되 출구에서 최종 Norm을 적용한 합산으로 zn을 계산한다. forward에서 활성화 분산을 억제하고 backward에서 K 단계의 경사를 제한하는 TBPTT 효과를 흡수한다. 3) 학습 전략: x = (xq, xa)에서 −log P(xa|xq) 손실을 계산하고 PrefixLM 마스크를 적용해 인스트럭션 토큰은 양방향 주의를 가지며 응답 토큰은 순차적으로 생성한다. 4) 구현 세부: HAB(Hidden) 모듈은 16 layers, hidden size 1536, head size 128, context size 4096, RoPE, RMSNorm 등을 사용한다. 배치 크기 196,608 토큰, 학습률 2.2e-4, EMA 0.9999, 플랫폼은 PyTorch FSDP를 활용한다. 5) 데이터 및 샘플링: 176.5B 토큰 원천에서 40B 고정 토큰으로 stratified 샘플링을 적용하고, 4개의 주 조건 태그를 이용해 인스트럭션 스타일을 제어한다. 6) 평가 절차: 벤치마크 비교는 FLOPs를 고정한 비교와 40B 토큰 budget에서의 성능을 확인한다.
관련 Figure

PrefixLM이 주의 확산(entropy)을 증가시키며, 인스트럭션-프롬프트에서의 글로벌한 상호작용을 촉진한다.
Figure: Task-completion과 PrefixLM이 응답 모델링을 개선하는 방식

사이드-바이사이드 주의 패턴의 차이를 보여주며, PrefixLM이 더 넓은 범위의 토큰 간 상호작용을 가능하게 한다.
Figure: Layer별 주의 맵/분포 차이 비교

HRM의 gradient 안정성과 inference-time 자동가이던스 효과를 보여주며, depth-조정이 테스트 시간에서의 성능-효율성에 미치는 영향을 시사한다.
Appendix: gradient stability 및 auto-guidance
주요 결과
주요 벤치마크에서 HRM-Text 1B가 60.7(MMLU), 81.9(ARC-C), 63.4(Hella) 등의 점수를 기록하고, 2–7B 규모의 오픈 모델과 유사한 성능을 달성하였다. 같은 토큰 예산으로도 40B 토큰 데이터에서의 학습이 가능하며, 96–432×의 compute 절감과 100–900×의 토큰 절감을 달성하였다. ablation 연구에서 task-completion objective, PrefixLM, HRM 아키텍처의 조합이 모든 벤치마크에서 성능 향상을 주도하며, HRM으로의 전환이 최종 성능을 일관되게 상향시킨다. 효과적 깊이 분석은 HRM이 깊은 층에서도 활발한 representational 변화와 안정적 출력을 유지함을 보여주며, logit lens KL 분석에서 깊은 층의 예측이 최종 분포에 여전히 기여함을 확인한다.
관련 Figure

본 그림은 HRM-Text의 compute-대-성능 효율성을 직접 시각화하며, 소규모 예산으로도 대규모 기초 연구의 성과를 달성할 수 있음을 입증한다.
Figure 1: Pretraining efficiency—HRM-Text 1B가 40B 토큰으로 학습했을 때, 2–7B 모델 대비 성능이 유사하고 훨씬 적은 compute/token으로 달성되었음을 보여준다.

HRM-Text의 compute-및 데이터 효율성을 벤치마크별로 비교해 주된 성능-비용 트레이드를 보여준다.
Figure: Training FLOPs vs benchmark average / Tokens vs benchmark average

HRM이 깊은 룹에서 여전히 의미 있는 변화를 보이며, 코사인 유사도 감소로 인해 깊은 층의 표현이 서로 다르게 구성됨을 시사한다.
Figure: Effective depth 분석

깊은 층일수록 최종 분포에 기여하는 비중이 크고, HRM이 더 깊은 층에서 유의한 정보를 유지함을 보여준다.
Figure: KL 기반 로짓 렌즈 비교
기술 상세
HRM-Text는 2-layer 이상의 L 모듈과 H 모듈로 구성된 듀얼 타임스케일 재귀를 채택한다. 각 사이클에는 3회 L 모듈 업데이트 후 1회 H 모듈 업데이트가 수행되며, 최종 H 모듈에서 로그잣을 얻는다. MagicNorm은 N개의 재귀 forward 단계에서 각 단계마다 Norm를 적용한 후 누적 합을 더하는 방식으로 작동한다. backward pass는 TBPTT의 K-단계로 제한되며, K는 초기 2에서 시작해 5로 확장된다. Gradient는 L 내부의 PreNorm 경로를 통해 흐르고, H 블록의 정상화가 forward 경로를 안정화한다. 학습 목표는 −log P(xa|xq)이며 PrefixLM 마스크를 통해 인스트럭션(xq)은 양방향으로, 응답(xa)은 순차적으로 생성된다.
실무 활용
HRM-Text는 제한된 토큰과 예산으로도 연구 커뮤니티가 프리트레이닝을 탐구할 수 있게 한다. 듀얼 타임스케일 재귀와 PrefixLM, task-completion objective의 조합이 데이터 및 컴퓨트 효율성을 크게 높이며, 교육적·연구적 목적의 오픈 모델 개발에 실질적 진입장벽을 낮춘다.
- 저예산 연구 환경에서 새로운 아키텍처를 신속히 평가
- 데이터가 제한된 연구 그룹의 프리트레이닝 재현
- instruction-response 포맷의 비교 연구 및 벤치마킹
- 제한된 하드웨어에서의 대화형 LLM 개발 및 프로토타이핑
코드 공개 여부: 공개
코드 저장소 보기키워드
용어 해설
- Dual-timescale recurrence
- — HRM에서 느린 H 모듈과 빠른 L 모듈이 서로 다른 시간 축에서 작동하는 재귀 구조로, 긴 시퀀스 의존성에서도 안정적이고 효율적인 내부 계산을 가능하게 한다.
- MagicNorm
- — TBPTT의 제한된 역전파 경로(K ≪ N)에서 모듈별 정규화를 적용해 순방향 활성화 분산을 억제하고, 역전파에서의 안정적 학습 경로를 유지하도록 하는 정규화 기법이다.
- Task-Completion Objective
- — x = (xq, xa) 형태의 instruction-response 쌍에서 손실을 xa에 대해서만 −log P(xa|xq)로 계산하는 단일 스테이지 학습 목표이며, PrefixLM 마스크와 함께 인스트럭션 토큰에 대한 양방향 주의를 허용한다.
- PrefixLM
- — PrefixLM은 인스트럭션 토큰에 대해 bidirectional attention을 허용하되 응답 토큰에 대해서는 자동회귀를 유지하는 마스킹 방식으로, encoder-decoder 유사한 구조를 decoder에 구현하게 한다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.