온프레미스 환경에서 보안이 강화된 저권한 LLM 서버 구축 가이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

클라우드 LLM 사용 시 발생하는 데이터 유출 우려를 해소하기 위해 기업 내부망에 독립된 LLM 서버를 구축하는 상세 과정을 설명한다. NVIDIA RTX Pro 6000 Blackwell GPU와 llama.cpp를 기반으로, Podman의 루트리스 컨테이너와 사용자 네임스페이스를 활용해 프로세스를 격리한다. 특히 보안 취약점이 될 수 있는 NVIDIA UVM 모듈을 배제하기 위해 Vulkan 백엔드를 도입하고, 장치 파일 권한 제어 및 AppArmor 설정을 통해 보안 계층을 강화한다. 최종적으로 네트워크가 완전히 차단된 상태에서 고성능 추론이 가능한 안전한 인프라를 완성한다.

배경

Linux 시스템 관리 실무 지식, Docker 또는 Podman 컨테이너 기초, NVIDIA 드라이버 및 CUDA 아키텍처 이해

대상 독자

기업용 LLM 인프라를 설계하는 시스템 아키텍트 및 보안 엔지니어

의미 / 영향

이 가이드는 클라우드 AI의 보안 한계를 극복하려는 기업들에게 실질적인 하드웨어 및 소프트웨어 보안 강화 방법론을 제시한다. 특히 Vulkan을 활용한 추론이 CUDA의 강력한 대안이 될 수 있음을 보여줌으로써 AI 인프라의 보안 표준을 한 단계 높이는 데 기여한다.

섹션별 상세

하드웨어 선정 및 메모리 계산: gpt-oss-120b 모델(4비트 양자화 시 약 60GiB)과 KV 캐시를 모두 수용하기 위해 96GB vRAM을 갖춘 NVIDIA RTX Pro 6000 Blackwell GPU를 선택했다. KV 캐시 크기는 레이어 수, 헤드 수, 컨텍스트 크기 등을 고려한 공식을 통해 계산하며, 126,000 토큰 기준 4개의 병렬 슬롯을 운영할 수 있는 메모리 설계를 적용했다.

python

import math
from gguf import GGUFReader

shards = (
    "gpt-oss-120b-mxfp4-00001-of-00003.gguf",
    "gpt-oss-120b-mxfp4-00002-of-00003.gguf",
    "gpt-oss-120b-mxfp4-00003-of-00003.gguf",
)
n_parameters = 0
n_bytes = 0
for path in shards:
    reader = GGUFReader(path)
    for tensor in reader.tensors:
        n_parameters += math.prod(tensor.shape)
        n_bytes += tensor.data.nbytes

print(f"{n_parameters=:,}")
print(f"{n_bytes=:,}")

GGUF 모델 파일의 텐서 정보를 읽어 실제 모델 가중치가 차지하는 메모리 크기를 계산하는 코드

KV 캐시 크기를 계산하는 수학적 공식 — DiagramLLM 추론 시 필요한 메모리 용량을 산정하기 위해 레이어 수, 헤드 수, 차원, 컨텍스트 크기를 변수로 하는 수식을 제시한다. 이 수식은 하드웨어 선정 단계에서 vRAM 용량 부족 여부를 판단하는 핵심 근거가 된다.

Dense Attention과 Window Attention의 복잡도 및 성능 비교 다이어그램 — Diagram전체 컨텍스트를 참조하는 방식과 슬라이딩 윈도우 방식을 비교하여 효율성을 설명한다. gpt-oss-120b와 같은 하이브리드 모델이 메모리 사용량을 줄이기 위해 어떤 메커니즘을 사용하는지 시각적으로 보여준다.

모델 가중치와 KV 캐시를 포함한 최종 GPU 메모리 점유량 계산 결과 — Screenshot126,000 토큰의 컨텍스트와 4개의 병렬 슬롯을 운영할 때 약 97.8GB의 메모리가 필요함을 보여준다. 이는 선택한 RTX Pro 6000 GPU의 가용 메모리 범위 내에 있음을 입증하는 수치이다.

구축에 사용된 ASUS ESC4000A-E12 2U GPU 서버의 내부 구조 — Photo4개의 GPU 슬롯을 갖춘 2U 폼팩터 서버의 물리적 구조를 보여준다. 온프레미스 랙 공간 효율성과 확장성을 고려한 하드웨어 선택임을 시각적으로 뒷받침한다.

Podman을 통한 루트리스 컨테이너 격리: 보안을 위해 루트 권한이 없는(rootless) Podman 컨테이너 환경을 구축하고, CDI(Container Device Interface)를 통해 GPU 자원을 할당했다. 사용자 네임스페이스(User Namespace)를 활용해 컨테이너 내부의 루트 사용자를 호스트의 일반 사용자로 매핑함으로써 컨테이너 탈출 시 발생할 수 있는 권한 상승 위험을 최소화했다.

bash

cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_COMPILER=/usr/local/cuda-13/bin/nvcc ./llama.cpp
cmake --build build --config Release
./build/bin/llama-cli --list-devices

CUDA 백엔드를 활성화하여 llama.cpp를 빌드하고 사용 가능한 GPU 장치를 확인하는 과정

Podman의 사용자 네임스페이스 매핑 구조도 — Diagram호스트의 일반 사용자가 컨테이너 내부에서 루트 권한을 가지지만, 실제 호스트 시스템에는 영향을 주지 않는 UID 매핑 원리를 설명한다. 보안 격리의 핵심 기술인 사용자 네임스페이스의 작동 방식을 도식화했다.

네트워크 차단 및 유닉스 소켓 통신: 추론 서버의 데이터 유출 경로를 원천 차단하기 위해 컨테이너의 네트워크 스택을 제거했다. 대신 유닉스 도메인 소켓(UNIX Domain Socket)을 통해 API를 노출하고, Nginx 리버스 프록시를 사용하여 허용된 API 경로만 화이트리스트 방식으로 접근을 허용하는 구조를 채택했다.

text

map "$request_method:$uri" "$whitelist" {
    default 0;
    "GET:/" 1;
    "GET:/health" 1;
    "POST:/chat/completions" 1;
    "POST:/v1/chat/completions" 1;
}

upstream container01 {
    server unix:/var/lib/containers/container01/socks/llama-cpp.sock;
}

server {
    listen 127.0.0.1:80;
    location / {
        if ($whitelist = 0) { return 403; }
        proxy_pass http://container01;
    }
}

Nginx를 사용하여 허용된 API 경로만 화이트리스트 방식으로 접근을 허용하는 리버스 프록시 설정

커널 모듈 및 장치 파일 보안 강화: 불필요한 NVIDIA 커널 모듈을 블랙리스트 처리하고, 공유 메모리 취약점이 우려되는 nvidia-uvm 대신 Vulkan 백엔드를 사용하여 보안성을 높였다. /dev/nvidia* 장치 파일에 대해 POSIX ACL(Access Control Lists)을 적용하여 특정 사용자만 접근할 수 있도록 권한을 엄격히 제한했다.

text

[Container]
Image=ghcr.io/ggml-org/llama.cpp:server-vulkan
AddDevice=nvidia.com/gpu=0
Network=none
Volume=/var/lib/models:/models:ro
User=1000
UserNS=keep-id
NoNewPrivileges=true
Exec=--host "/run/llama-cpp/llama-cpp.sock" --model /models/gpt-oss-120b.gguf --ctx-size 504000 --parallel 4

Podman Quadlet을 사용하여 네트워크가 차단된 고립된 LLM 컨테이너 서비스를 정의하는 설정

CUDA와 Vulkan 성능 비교: 보안상의 이유로 도입한 Vulkan 백엔드가 CUDA 대비 약 2~9% 수준의 미미한 성능 저하만을 보임을 벤치마크를 통해 확인했다. 특히 긴 컨텍스트(131,072 토큰) 환경에서는 성능 차이가 2% 이내로 좁혀져, 보안과 성능 사이의 적절한 타협점임을 입증했다.

실무 Takeaway

데이터 기밀성이 중요한 환경에서는 네트워크가 차단된 온프레미스 서버에 llama.cpp와 Vulkan 백엔드를 조합하여 보안과 성능을 동시에 확보할 수 있다.
Podman의 루트리스 모드와 사용자 네임스페이스 매핑을 적용하면 컨테이너 환경에서도 호스트 시스템에 미치는 보안 영향을 최소화할 수 있다.
NVIDIA UVM 모듈은 보안상 위험 요소가 될 수 있으므로, vRAM이 충분한 환경이라면 이를 비활성화하거나 Vulkan 백엔드로 대체하는 것이 권장된다.

언급된 리소스

GitHubllama.cpp GitHub

문서NVIDIA Driver Installation Guide

DemoOpenAI Tokenizer

import math from gguf import GGUFReader shards = ( "gpt-oss-120b-mxfp4-00001-of-00003.gguf", "gpt-oss-120b-mxfp4-00002-of-00003.gguf", "gpt-oss-120b-mxfp4-00003-of-00003.gguf", ) n_parameters = 0 n_bytes = 0 for path in shards: reader = GGUFReader(path) for tensor in reader.tensors: n_parameters += math.prod(tensor.shape) n_bytes += tensor.data.nbytes print(f"{n_parameters=:,}") print(f"{n_bytes=:,}")

map "$request_method:$uri" "$whitelist" { default 0; "GET:/" 1; "GET:/health" 1; "POST:/chat/completions" 1; "POST:/v1/chat/completions" 1; } upstream container01 { server unix:/var/lib/containers/container01/socks/llama-cpp.sock; } server { listen 127.0.0.1:80; location / { if ($whitelist = 0) { return 403; } proxy_pass http://container01; } }

[Container] Image=ghcr.io/ggml-org/llama.cpp:server-vulkan AddDevice=nvidia.com/gpu=0 Network=none Volume=/var/lib/models:/models:ro User=1000 UserNS=keep-id NoNewPrivileges=true Exec=--host "/run/llama-cpp/llama-cpp.sock" --model /models/gpt-oss-120b.gguf --ctx-size 504000 --parallel 4

온프레미스 환경에서 보안이 강화된 저권한 LLM 서버 구축 가이드

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

온프레미스 환경에서 보안이 강화된 저권한 LLM 서버 구축 가이드

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드