BYOL: SSH 터널링을 통해 원격 서버에서 로컬 LLM 사용하기

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

원격 서버에서 개발할 때 로컬 머신의 강력한 GPU 자원을 활용하여 LLM을 구동하고 싶어 하는 개발자들을 위한 가이드이다. byol(Bring Your Own LLM)은 단일 파일로 구성된 Python 스크립트로, SSH 역방향 터널링을 통해 로컬의 OpenAI 호환 API를 원격 서버의 OpenCode 설정에 자동으로 연동한다. 이 방식은 원격 서버에 별도의 GPU가 없어도 로컬에서 실행 중인 Ollama나 vLLM 같은 모델을 개발 도구에서 즉시 사용할 수 있게 한다. 사용자는 간단한 SSH 옵션 설정과 스크립트 실행만으로 복잡한 설정 파일 수정 없이 로컬 추론 환경을 원격으로 확장한다.

배경

Python 3.10 이상, SSH 서버 및 클라이언트 접근 권한, OpenAI 호환 API를 제공하는 로컬 LLM 엔진 (Ollama, vLLM 등)

대상 독자

원격 서버에서 개발하면서 로컬 GPU의 LLM을 활용하고 싶은 개발자

의미 / 영향

이 도구는 고가의 원격 GPU 인스턴스 비용을 지불하지 않고도 로컬의 강력한 하드웨어를 원격 개발 워크플로우에 통합할 수 있게 한다. 특히 보안상의 이유로 외부 API 사용이 제한된 환경에서 로컬 모델을 안전하게 원격지로 확장하는 실용적인 대안을 제시한다.

섹션별 상세

byol 스크립트는 OpenCode 설정 파일인 ~/.config/opencode/opencode.json을 자동으로 생성하거나 업데이트한다. 실행 시 지정된 API 엔드포인트의 /models 경로에서 사용 가능한 모델 목록을 조회하고, /chat/completions를 통해 실제 추론 가능 여부를 사전에 점검한다. 점검이 성공하면 해당 정보를 provider.byol 항목으로 저장하여 OpenCode 내에서 즉시 선택 가능하게 만든다.

python

python byol https://api.example.com/v1

특정 API URL을 인자로 전달하여 byol 스크립트를 실행하는 방법

SSH 역방향 터널링(-R) 옵션을 사용하여 로컬의 LLM 서버 포트를 원격 서버의 특정 포트로 매핑한다. 예를 들어 로컬의 11434 포트(Ollama 기본값)를 원격의 18080 포트로 연결하면, 원격 서버의 프로세스는 localhost:18080을 통해 로컬 머신의 LLM에 접근한다. 이때 -o SetEnv 옵션을 함께 사용하면 원격 세션 내에서 BYOL_OPENAPI_URL 환경 변수를 자동으로 설정하여 편의성을 높인다.

bash

ssh \
 -o SetEnv=BYOL_OPENAPI_URL=http://127.0.0.1:18080/v1 \
 -R 127.0.0.1:18080:127.0.0.1:11434 \
 user@remote-host

로컬 LLM 포트(11434)를 원격 서버 포트(18080)로 터널링하고 환경 변수를 설정하는 SSH 명령어

원격 서버의 SSH 설정 파일(/etc/ssh/sshd_config)에서 AcceptEnv 항목에 BYOL* 패턴을 추가해야 클라이언트가 보낸 환경 변수가 정상적으로 수용된다. 이 설정이 완료되면 원격 서버에서 추가 인자 없이 python byol 명령만으로 터널링된 LLM 정보를 자동으로 인식한다. 환경 변수가 설정되지 않은 경우 CLI 인자로 직접 URL을 전달하는 방식도 지원한다.

Ollama, vLLM, llama.cpp 등 OpenAI 호환 API 규격을 따르는 모든 로컬 추론 엔진과 호환된다. 스크립트는 외부 라이브러리 의존성 없이 Python 3.10 이상의 표준 라이브러리만 사용하여 구현되었으며, Windows 환경에서도 동일하게 작동한다. PuTTY와 같은 GUI 기반 SSH 클라이언트에서도 포트 포워딩 설정을 통해 동일한 기능을 구현할 수 있다.

PuTTY의 SSH 포트 포워딩(Tunnels) 설정 화면 스크린샷 — Screenshot로컬 포트(Source port: 9991)를 원격 대상(Destination: localhost:1234)으로 매핑하는 구체적인 GUI 설정 방법을 보여준다. 텍스트로 설명된 SSH 터널링 개념을 Windows 사용자가 PuTTY에서 어떻게 구현하는지 시각적으로 보충한다.

실무 Takeaway

로컬 GPU 자원을 원격 개발 환경에서 활용하려면 SSH 역방향 터널링(-R)을 사용하여 로컬 포트를 원격에 노출하면 된다.
byol 스크립트를 사용하면 OpenAI 호환 API를 제공하는 모든 로컬 추론 엔진의 모델 리스트를 자동으로 OpenCode 설정에 반영할 수 있다.
원격 서버의 sshd_config에서 AcceptEnv 설정을 확인해야 SSH 클라이언트에서 보낸 환경 변수가 정상적으로 적용된다.

언급된 리소스

GitHubbyol GitHub Repository (OpenCode)