핵심 요약
Claude Code CLI를 llama.cpp 기반의 Qwen 3.5 27B 모델과 연동하여 텔레메트리 없이 작동하는 고성능 로컬 코딩 환경을 구축하고 벤치마크 결과를 공유했다.
배경
Claude Code CLI를 Anthropic 서버 대신 llama.cpp 기반의 로컬 LLM 서버에 연결하여 완전한 오프라인 코딩 환경을 구축하려는 시도에서 작성됐다. 작성자는 Qwen 3.5 27B 모델을 사용하여 실제 코딩 작업에서의 성능과 설정 최적화 과정을 상세히 기록했다.
의미 / 영향
Claude Code와 같은 고성능 에이전트 도구가 로컬 LLM 생태계와 결합되면서 데이터 유출 걱정 없는 완전 오프라인 개발 환경 구축이 가능해졌다. 이는 기업용 보안 환경이나 인터넷 연결이 제한된 상황에서 AI 코딩 보조 도구를 활용하는 표준 모델이 될 수 있다.
커뮤니티 반응
작성자의 상세한 벤치마크와 설정 공유에 대해 긍정적인 반응이며, 로컬 코딩 에이전트로서의 실용성에 주목하고 있다.
주요 논점
Claude Code는 현존하는 코딩 에이전트 CLI 중 가장 성능이 뛰어나며 로컬 모델과도 잘 작동한다.
합의점 vs 논쟁점
합의점
- Claude Code의 시스템 프롬프트가 매우 크기 때문에 Prefix Caching 없이는 사용이 어렵다.
- Qwen 3.5 27B 모델은 로컬 코딩 작업에 충분한 지능을 갖추고 있다.
논쟁점
- 웹 검색 기능은 Anthropic 서버 없이는 작동하지 않으며, 이를 대체하기 위해 SearXNG와 MCP를 연결하는 대안이 논의 중이다.
실용적 조언
- 환경 변수 대신 ~/.claude/settings.json 파일을 사용하여 설정을 관리하는 것이 더 안정적이다.
- 컨텍스트 압축 기능을 사용하려면 CLAUDE_CODE_MAX_OUTPUT_TOKENS를 16,384 이상으로 설정해야 요약 생성이 실패하지 않는다.
- 비전 기능을 사용하려면 llama-server 실행 시 --mmproj 옵션으로 비전 프로젝터 모델을 함께 로드해야 한다.
언급된 도구
Anthropic에서 개발한 코딩 에이전트 CLI
로컬 LLM 추론 엔진
코딩 및 비전 성능이 뛰어난 오픈소스 LLM
섹션별 상세
export ANTHROPIC_BASE_URL="http://127.0.0.1:8001"
export ANTHROPIC_API_KEY="not-set"
export ANTHROPIC_AUTH_TOKEN="not-set"
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
export CLAUDE_CODE_ENABLE_TELEMETRY=0
export DISABLE_AUTOUPDATER=1
export DISABLE_TELEMETRY=1
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768Claude Code를 로컬 서버에 연결하고 텔레메트리를 비활성화하기 위한 환경 변수 설정 예시
{
"env": {
"ANTHROPIC_BASE_URL": "http://127.0.0.1:8001",
"ANTHROPIC_MODEL": "qwen3.5-27b",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
"CLAUDE_CODE_MAX_OUTPUT_TOKENS": "32768",
"CLAUDE_AUTOCOMPACT_PCT_OVERRIDE": "90",
"DISABLE_TELEMETRY": "1"
}
}환경 변수보다 안정적인 제어가 가능한 claude/settings.json 설정 파일 구성
ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \
--model models/Qwen3.5-27B-Q4_K_M.gguf \
--alias "qwen3.5-27b" \
--port 8001 --ctx-size 65536 --n-gpu-layers 999 \
--flash-attn on --jinja --threads 8 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \
--cache-type-k q8_0 --cache-type-v q8_0Strix Halo 하드웨어에서 Qwen 3.5 모델을 구동하기 위한 llama.cpp 서버 실행 명령어
용어 해설
- Telemetry
- — 소프트웨어 사용 데이터를 개발사 서버로 전송하는 기능이다. 완전한 로컬 및 오프라인 환경을 구축하기 위해서는 이 기능을 명시적으로 비활성화해야 한다.
- Prefix Caching
- — 프롬프트의 공통된 앞부분(시스템 프롬프트 등)에 대한 계산 결과를 저장하여 재사용하는 기술이다. Claude Code처럼 거대한 시스템 프롬프트를 사용하는 도구에서 추론 속도를 높이는 핵심 역할을 한다.
- Quantization
- — 모델의 가중치를 낮은 비트(예: 4비트)로 표현하여 메모리 사용량을 줄이고 실행 속도를 높이는 기법이다. 본문에서는 Q4_K_XL 양자화 모델을 사용하여 27B 모델을 로컬 하드웨어에서 구동했다.
- Context Window
- — 모델이 한 번에 처리할 수 있는 토큰의 최대 범위이다. 본문에서는 65,536 토큰으로 설정했으나, 컨텍스트가 가득 찰수록 생성 속도가 저하되는 현상이 관찰됐다.
실무 Takeaway
- Claude Code CLI는 적절한 설정 변경을 통해 Anthropic 서버 연결 없이 llama.cpp 기반의 로컬 LLM과 완벽하게 연동된다.
- Qwen 3.5 27B 모델은 코딩 작업뿐만 아니라 비전 작업에서도 Claude 3.5 Opus 수준의 뛰어난 성능을 보여 로컬 에이전트용으로 적합하다.
- 로컬 환경에서 대규모 컨텍스트를 다룰 때는 생성 속도 저하와 시스템 프롬프트 점유율을 고려하여 Prefix Caching과 압축 전략을 정밀하게 설정해야 한다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.