교차 샘플링 개입
두 모델(베이스 및 RL)의 생성 과정에서 특정 위치의 토큰 선택을 서로 맞바꾸어 시퀀스를 완성하는 실험 기법이다. 특정 토큰의 변화가 전체 추론 성공률에 미치는 인과적 영향력을 측정함으로써, 어떤 토큰이 성능 향상의 결정적 요인인지 식별하는 데 사용된다.