TL;DR
작성자는 2대의 NVIDIA DGX Spark를 사용해 오픈소스 LLM 인퍼런스와 프로덕션 운영을 수행한 경험을 공유하며 자체 호스팅을 선택한 이유로 프라이버시, 학습 경험, 장기 비용 절감을 들었다. 입력 쿼리는 로컬에서 GPU로 전달되어 모델 파라미터와 활성화를 VRAM에서 로드한 뒤 연산을 거쳐 토큰을 생성하는 흐름으로, Qwen 3.5 122B는 단일 Spark에서 약 40–50 tokens/s, Qwen 3.6 27B는 약 15 tokens/s, Nemotron 3 Super는 약 20–25 tokens/s 정도의 처리량을 보고했다.
하드웨어 비교에서 작성자는 DGX Spark가 M3 Ultra보다 프롬프트 처리에서 빠르지만 RTX Pro 6000보다 느리며, 토큰 생성 속도는 상대적으로 더 느리다고 제시해 성능·비용의 트레이드오프를 명확히 밝혔다. 노드 확장은 메모리 측면에서 거의 1:1 증가하지만 연산 성능은 노드당 약 50–80% 효율로 증가해 2노드 이상부터는 네트워크와 샤딩 오버헤드로 인한 성능 저하와 운영 복잡도가 커진다.
실무적으로는 민감 데이터·지속적 워크로드가 있다면 자체 하드웨어가 경제적일 수 있으나, 전력·냉각 확보와 드라이버·라이브러리 호환성 점검, 확장 시 네트워크 비용 계산이 필수이며 이러한 제약을 고려해야 총소유비용과 안정성을 맞출 수 있다.
실용적 조언
- 프로덕션 이전에 모델별 tokens/sec을 실제 워크로드로 측정해 응답성 요구와 비용을 비교할 것 — 게시자는 Qwen 3.5 122B에서 40–50 tokens/s라는 실측값을 기준으로 판단했다.
- 2노드 이상으로 확장 계획이 있다면 네트워크 장비·샤딩 오버헤드·전력·냉각 예산을 우선 확보하고 소프트웨어 호환성 테스트를 수행할 것, 그렇지 않으면 성능 손실과 안정성 문제가 발생한다.
- 전력·냉각 이슈로 시스템이 불안정하다면 GPU/CPU 언더클럭을 고려해 안정성을 우선 확보한 뒤 최적화 작업을 진행할 것.
섹션별 상세
실무 Takeaway
- 민감한 고객 데이터와 장기적인 비용 관점에서는 자체 하드웨어(DGX Spark 등) 보유가 타당하며, 로컬에서 쿼리를 받아 GPU 메모리에서 파라미터를 로드해 토큰을 생성함으로써 데이터 유출 위험과 API 의존도를 줄일 수 있다.
- 모델별 실제 인퍼런스 처리량(예: Qwen 3.5 122B: 40–50 tokens/s, Qwen 3.6 27B: ~15 tokens/s)을 기준으로 서비스 응답성 요건을 검증하고, 정확도 우선 워크로드와 지연 민감 워크로드의 트레이드오프를 사전에 정해야 한다.
- 노드 추가로 메모리는 거의 1:1로 늘어나지만 연산 성능은 노드당 약 50–80% 효율 상승에 그치므로, 2노드 이상 확장 시 네트워크·샤딩 오버헤드와 비용을 반드시 계산해 총성능 대비 비용을 평가해야 한다.
- 운영 안정성을 위해 전력·냉각 여유를 확보하고, 특정 하드웨어 아키텍처(수정된 Blackwell 등)에 맞는 드라이버·라이브러리 준비와 커뮤니티 버그 대응 계획을 마련해야 한다.
언급된 도구
대규모 로컬 인퍼런스용 NVIDIA 기반 하드웨어 클러스터
단일 머신 소형/중형 인퍼런스 비교용 (작성자는 비교 대상으로 사용)
GPU 기반 로컬 인퍼런스·테스트용 하드웨어 옵션
CPU 플랫폼(서버) 비교용
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.