College of Experts - Demo v1.5: Ollama와 ONNX 기반의 하드웨어 가속 AI 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

College of Experts(CoE)는 대규모 전문가 혼합(MoE) 모델을 소비자용 하드웨어에서 효율적으로 실행하기 위한 AI 프레임워크이다. Ollama를 통해 도메인 특화 전문가 모델을 호스팅하고, ONNX 런타임을 활용한 로컬 감독 모델이 작업을 라우팅하는 구조를 취한다. Windows Copilot+ PC, AMD APU, Mac M-시리즈 등 다양한 환경을 지원하며 CUDA 의존성 없이도 높은 성능을 제공한다. 사용자는 템플릿과 스킬 라이브러리를 통해 모델의 출력 형식과 추론 방식을 커스터마이징할 수 있다.

배경

Ollama 설치, Python 3.10 이상, 기본적인 CLI 사용 능력

대상 독자

소비자용 하드웨어에서 대규모 LLM을 효율적으로 실행하려는 개발자 및 연구자

의미 / 영향

이 프레임워크는 고가의 엔터프라이즈 GPU 없이도 복잡한 MoE 모델을 로컬에서 구동할 수 있는 경로를 제시한다. 특히 ONNX와 Ollama의 병행 사용은 VRAM 자원 충돌을 방지하는 실질적인 아키텍처 패턴으로 자리 잡을 가능성이 크다.

섹션별 상세

Ollama와 ONNX를 결합한 하이브리드 아키텍처를 사용하여 하드웨어 자원을 최적화한다. 전문가 모델은 Ollama에서 실행되고, 라우팅을 담당하는 감독 모델은 ONNX 런타임을 통해 별도의 VRAM 경쟁 없이 파이썬에서 네이티브로 동작한다. 이러한 분리 구조는 소비자용 GPU의 한정된 메모리 내에서 여러 모델을 동시에 운용할 수 있게 한다.

bash

ollama run hf.co/JThomas-CoE/CoE-python2-40b-A3b:q4_K_M
ollama run hf.co/JThomas-CoE/CoE-WEB2-40b-A3b:q4_K_M

Ollama를 사용하여 특정 전문가 모델을 다운로드하고 실행하는 명령

다양한 하드웨어 가속기를 지원하여 범용성을 확보했다. AMD APU 및 Windows Copilot+ PC를 위한 DirectML, Nvidia GPU를 위한 CUDA, Mac을 위한 기본 ONNX 런타임을 선택적으로 설치하여 최적의 성능을 낼 수 있다. 복잡한 CUDA 설정 없이도 각 하드웨어에 맞는 실행 프로바이더를 통해 빠른 추론 속도를 보장한다.

bash

// AMD APUs / Windows Copilot+ PCs (DirectML)
pip install onnxruntime-directml

// Nvidia RTX GPUs (CUDA)
pip install onnxruntime-gpu

// Mac / CPU-Only Fallback
pip install onnxruntime

하드웨어 환경에 맞는 ONNX 실행 프로바이더를 설치하는 명령

BAAI/bge-m3 임베딩 모델을 사용하여 사용자의 쿼리를 분석하고 적절한 출력 템플릿과 기술 라이브러리를 매칭한다. 시스템은 첫 실행 시 벡터 임베딩을 생성하여 로컬에 저장하며, 이후 세션에서는 캐시된 데이터를 로드하여 즉각적인 컨텍스트 강화 레이어를 제공한다. 로그에 표시되는 [TEMPLATE]과 [SKILL] 항목은 프레임워크가 쿼리에 맞는 최적의 추론 가이드를 찾았음을 의미한다.

사용자는 JSON 설정을 통해 출력 템플릿(Output Templates)과 전문가 기술(Specialist Skills)을 직접 정의할 수 있다. 템플릿은 출력의 구조적 골격을 강제하여 코드나 웹 구조의 일관성을 유지하며, 기술은 전문가 모델의 시스템 프롬프트에 추론 가이드를 주입하여 사고 방식을 제어한다. 이를 통해 특정 도메인에 최적화된 응답을 생성하도록 모델을 유연하게 조정할 수 있다.

json

{
  "id": "my_template",
  "domain": "code",
  "tags": ["python", "cli"],
  "title": "Python CLI Script",
  "description": "Command-line tool, argparse, entry point, main guard",
  "strength": "strong",
  "scaffold_text": "Structure your output as:
1. Imports
2. Argument parser
3. Main function
4. `if __name__ == '__main__':` guard"
}

출력 형식을 제어하기 위한 템플릿 설정 JSON 구조 예시

현재 버전에서는 전문가 모델이 자신의 출력을 스스로 평가하는 과정에서 발생하는 '채점자 환각(Grader Hallucination)' 현상이 한계점으로 존재한다. 구조적 체크는 AST 파싱이나 HTML 구조 검사 같은 결정론적 방식으로 수행되지만, LLM 기반의 채점 레이어는 아직 정확한 판별 도구보다는 휴리스틱한 신호로 이해해야 한다. 향후 업데이트에서는 채점 모델의 분리와 실행 기반 검증 도입을 통해 이 문제를 해결할 계획이다.

실무 Takeaway

VRAM이 제한적인 소비자용 환경에서 Ollama와 ONNX를 병행 사용하면 대규모 MoE 모델의 추론 효율을 극대화할 수 있다.
JSON 기반의 템플릿과 스킬 시스템을 활용하여 LLM의 출력 구조와 추론 과정을 코드 수정 없이 동적으로 제어할 수 있다.
LLM의 자기 평가 기능은 환각 가능성이 높으므로, 프로덕션 환경에서는 AST 파싱이나 HTML 구조 검사 같은 결정론적 검증 로직을 병행해야 한다.

언급된 리소스

GitHubCollege of Experts AI GitHub Repository