트리 인과적 어텐션
트리 인과적 어텐션은 트리의 각 노드가 자신과 조상 노드의 토큰만 볼 수 있고 형제나 자손은 볼 수 없게 하는 마스킹 규칙이다. 이 마스크는 각 분기(branch)의 확률 분포가 해당 분기의 선행 토큰들에 조건화되도록 하여 병렬 계산으로도 autoregressive factorization과 유사한 분해를 유지한다. JetSpec은 이 마스크를 사용하여 모든 트리 깊이의 로짓을 병렬로 계산하면서 branch-wise causality를 보존했다.