작업 완료 목표
x = (xq, xa) 형태의 instruction-response 쌍에서 손실을 xa에 대해서만 −log P(xa|xq)로 계산하는 단일 스테이지 학습 목표이며, PrefixLM 마스크와 함께 인스트럭션 토큰에 대한 양방향 주의를 허용한다.