합성 데이터셋
실제 세계에서 수집한 데이터가 아닌 알고리즘이나 시뮬레이션을 통해 인위적으로 생성한 데이터이다. 개인정보 보호나 특정 시나리오 테스트를 위해 사용되며 LLM 평가 시 데이터 오염 문제를 방지할 수 있는 중요한 수단이다.
인간은 쉽지만 LLM은 쩔쩔매는 데이터 분석 과제 만들기