llama.cpp의 mmap 취약점을 이용한 로컬 LLM 추론 변조 PoC

핵심 요약

llama.cpp의 기본 mmap 동작을 악용하여 실행 중인 모델의 GGUF 가중치 파일을 직접 수정함으로써 답변을 영구적으로 변조할 수 있는 런타임 무결성 위험이 확인됐다.

배경

로컬 추론 환경에서 모델 파일이 읽기/쓰기 권한이 공유된 볼륨에 저장되어 있을 때 발생할 수 있는 보안 위험을 경고하기 위해 제작된 연구용 PoC이다.

의미 / 영향

로컬 LLM 환경에서 모델 파일의 불변성을 맹신해서는 안 되며, 인프라 수준의 권한 관리가 필수적이다. 특히 다중 사용자가 공유하는 환경에서 GGUF 파일에 대한 쓰기 권한은 심각한 보안 구멍이 될 수 있음이 확인됐다.

커뮤니티 반응

로컬 LLM 보안에 대한 새로운 시각을 제공했다는 평가를 받으며, 특히 공유 볼륨을 사용하는 클라우드/컨테이너 환경에서의 위험성이 주목받았다.

주요 논점

01중립다수

모델 로딩 후 가중치가 불변이라는 가정이 로컬 환경에서는 위험할 수 있음을 지적했다.

합의점 vs 논쟁점

합의점

모델 파일에 대한 쓰기 권한 관리가 인프라 보안의 핵심이다.
mmap은 성능상 이점이 크지만 보안 모델에 따라 선택적으로 사용해야 한다.

실용적 조언

모델이 저장된 디렉토리를 읽기 전용(Read-only)으로 마운트하여 외부 수정을 차단한다.
보안이 중요한 환경에서는 llama.cpp 실행 시 --no-mmap 옵션을 사용하여 파일을 메모리로 완전히 복사한다.
주기적으로 모델 파일의 해시(Hash) 값을 체크하여 무결성을 검증한다.

전문가 의견

모델 로드 후 메모리 상의 가중치가 안전하다는 가정은 mmap 환경에서 성립하지 않으며, 이는 프롬프트 인젝션보다 더 근본적인 인프라 보안 문제이다.

언급된 도구

llama.cpp중립

로컬 LLM 추론 엔진

llm-inference-tampering추천

런타임 가중치 변조 증명 PoC 도구

섹션별 상세

llama.cpp의 기본 설정인 mmap(Memory-mapped file) 방식의 취약점을 이용한다. 운영체제가 디스크의 GGUF 파일을 메모리에 직접 매핑하므로, 외부 프로세스가 디스크의 파일을 수정하면 메모리에 로드된 가중치도 즉시 변경된다.

PoC는 output.weight 텐서 내 특정 토큰 행의 양자화 스케일(Quantization Scale) 값을 수정하는 방식을 취한다. 이를 통해 특정 토큰의 가중치를 비정상적으로 높여 모델이 해당 답변을 출력할 확률을 극대화한다.

PoC 도구인 llm-inference-tampering의 실행 화면 스크린샷이다. — Screenshot가중치 변조 전후의 토큰 확률 변화를 보여주며, 특정 토큰의 가중치가 수정되어 모델 답변이 의도적으로 변경되는 과정을 시각적으로 증명한다.

이 공격은 ptrace나 프로세스 인젝션 같은 복잡한 기법이 필요 없으며, 실행 중인 서버를 재시작할 필요도 없다. 한 번 수정된 가중치는 파일에 직접 기록되므로 이후의 모든 추론에 영구적인 영향을 미친다.

작성자는 이를 방지하기 위해 모델 디렉토리를 읽기 전용(Read-only)으로 마운트하거나, 서비스 프로세스의 권한을 격리하고, --no-mmap 옵션을 사용할 것을 권장한다.

실무 Takeaway

llama.cpp의 mmap 기능을 통해 실행 중인 모델 가중치를 실시간으로 변조할 수 있는 런타임 무결성 위험이 존재한다.
GGUF 파일의 양자화 스케일 값을 조작하여 특정 토큰의 출력 확률을 인위적으로 높이는 것이 가능하다.
보안을 위해 모델 저장소는 반드시 읽기 전용으로 설정하고 프로세스 간 권한 격리를 철저히 해야 한다.

언급된 리소스

GitHubllm-inference-tampering GitHub Repository

핵심 요약

배경

의미 / 영향

커뮤니티 반응

로컬 LLM 보안에 대한 새로운 시각을 제공했다는 평가를 받으며, 특히 공유 볼륨을 사용하는 클라우드/컨테이너 환경에서의 위험성이 주목받았다.

주요 논점

01중립다수

모델 로딩 후 가중치가 불변이라는 가정이 로컬 환경에서는 위험할 수 있음을 지적했다.

합의점 vs 논쟁점

합의점

모델 파일에 대한 쓰기 권한 관리가 인프라 보안의 핵심이다.
mmap은 성능상 이점이 크지만 보안 모델에 따라 선택적으로 사용해야 한다.

실용적 조언

모델이 저장된 디렉토리를 읽기 전용(Read-only)으로 마운트하여 외부 수정을 차단한다.
보안이 중요한 환경에서는 llama.cpp 실행 시 --no-mmap 옵션을 사용하여 파일을 메모리로 완전히 복사한다.
주기적으로 모델 파일의 해시(Hash) 값을 체크하여 무결성을 검증한다.

전문가 의견

모델 로드 후 메모리 상의 가중치가 안전하다는 가정은 mmap 환경에서 성립하지 않으며, 이는 프롬프트 인젝션보다 더 근본적인 인프라 보안 문제이다.

언급된 도구

llama.cpp중립

로컬 LLM 추론 엔진

llm-inference-tampering추천

런타임 가중치 변조 증명 PoC 도구

섹션별 상세

실무 Takeaway

llama.cpp의 mmap 기능을 통해 실행 중인 모델 가중치를 실시간으로 변조할 수 있는 런타임 무결성 위험이 존재한다.
GGUF 파일의 양자화 스케일 값을 조작하여 특정 토큰의 출력 확률을 인위적으로 높이는 것이 가능하다.
보안을 위해 모델 저장소는 반드시 읽기 전용으로 설정하고 프로세스 간 권한 격리를 철저히 해야 한다.

언급된 리소스

GitHubllm-inference-tampering GitHub Repository

llama.cpp의 mmap 취약점을 이용한 로컬 LLM 추론 변조 PoC

핵심 요약

배경

의미 / 영향

커뮤니티 반응

주요 논점

합의점 vs 논쟁점

합의점

실용적 조언

전문가 의견

언급된 도구

섹션별 상세

실무 Takeaway

언급된 리소스

llama.cpp의 mmap 취약점을 이용한 로컬 LLM 추론 변조 PoC

핵심 요약

배경

의미 / 영향

커뮤니티 반응

주요 논점

합의점 vs 논쟁점

합의점

실용적 조언

전문가 의견

언급된 도구

섹션별 상세

실무 Takeaway

언급된 리소스

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글