LaBSE
LaBSE는 다국어 문장 임베딩을 생성하는 모델로 서로 다른 언어의 문장을 공통 벡터 공간에 정렬하는 목적을 가진다. 입력 문장을 임베딩한 뒤 코사인 유사도로 의미 보존을 평가하는 데 사용되며 번역 기반 데이터 필터링과 생성 후보의 의미 유사도 계산에 활용된다. 본 논문은 러시아어 원문과 타타르어 번역의 유사성 판별에 LaBSE를 사용해 품질 기반 필터링을 수행했다.