파인웹
Hugging Face에서 공개한 대규모 고품질 웹 텍스트 데이터셋으로, LLM 사전 학습을 위해 정제된 데이터를 제공한다. 기존 Common Crawl 데이터를 엄격하게 필터링하여 노이즈를 줄이고 학습 효율을 높였다. 최신 오픈소스 모델들의 성능을 높이는 핵심 데이터 리소스로 평가받는다.