깊이 재귀 트랜스포머
동일한 트랜스포머 블록을 여러 번 반복하여 실행함으로써 모델의 깊이를 늘리는 아키텍처이다. 파라미터 수를 늘리지 않고도 추론 시 연산량을 조절할 수 있어 효율적인 추론과 추론 시간 내 추론(test-time reasoning)에 유리하다.