아파치 스파크
대규모 데이터 처리를 위한 오픈소스 분산 컴퓨팅 프레임워크다. 여러 대의 컴퓨터를 연결한 클러스터 환경에서 테라바이트급 데이터를 처리할 때 필수적이다.
데이터 10GB 미만이면 Pandas면 충분합니다: 현실적인 ML 도구 선택 가이드