가우시안 코퓰라
여러 변수 간의 상관관계를 모델링하기 위해 사용되는 통계적 방법으로, 각 변수의 주변 분포를 결합하여 다변량 분포를 생성한다. 합성 데이터 생성 시 원본 데이터의 통계적 특성을 유지하면서 새로운 샘플을 만드는 데 활용된다.
힌글리시 데이터의 늪, 통계적 합성 방식은 LLM 학습에 유효할까?