마스크드 언어 모델링
MLM은 입력 시퀀스의 임의 위치를 마스킹하고 남은 토큰들로 가려진 위치의 확률 분포를 예측하도록 학습하는 자기지도 학습 방식이다. 도메인 적응에서 encoder를 계속 학습하는 일반적인 접근보다 CLM detour이 더 나은 성능을 보일 수 있다.