LLM Council: 합의 기반 의사결정을 활용한 경량 멀티 LLM 오케스트레이션 프레임워크

핵심 요약

LLM Council은 여러 언어 모델의 답변을 병렬로 쿼리하고 이를 하나의 신뢰도 높은 답변으로 합성하는 경량 프레임워크입니다. 모델별 편향을 완화하고 환각 현상을 줄이기 위해 집단 지성을 활용하며, 약 200줄의 코드로 구현된 간결한 구조가 특징입니다. 비동기 처리를 통해 지연 시간을 최소화하면서도 OpenRouter를 통해 200개 이상의 모델을 지원합니다. 개발자는 간단한 설정만으로 프로덕션 환경에서 더 정확하고 안정적인 LLM 응답을 얻을 수 있습니다.

배경

Python 3.12 이상, 비동기 프로그래밍(asyncio) 이해, LLM API 및 OpenRouter 사용 경험

대상 독자

프로덕션 환경에서 LLM의 환각 현상을 줄이고 답변 신뢰도를 높이려는 AI 엔지니어 및 개발자

의미 / 영향

이 프레임워크는 거대하고 무거운 오케스트레이션 도구 없이도 멀티 모델 앙상블 기법을 쉽게 적용할 수 있게 합니다. 특히 오픈소스 모델과 상용 모델을 혼합하여 비용을 최적화하면서도 성능을 극대화하는 전략이 업계에서 더욱 확산될 것으로 보입니다.

섹션별 상세

LLM Council은 복잡한 프레임워크 없이 약 200줄의 핵심 코드로 구성되어 있으며 OpenAI와 Pydantic만을 의존성으로 가집니다. Python의 asyncio.gather()를 활용하여 여러 모델을 동시에 호출하므로, 전체 지연 시간은 가장 느린 모델의 응답 시간과 거의 동일하게 유지됩니다. 이는 순차적 호출 방식보다 훨씬 효율적이며 실시간 서비스 도입에 유리한 구조를 제공합니다. 또한 개별 모델의 개별 응답과 최종 합성 결과를 모두 반환하여 투명성을 확보했습니다.

이 시스템은 단순한 투표 방식 외에도 '합성(Synthesis)' 전략을 기본으로 제공하여 답변의 질을 높입니다. 첫 번째 모델이 판사(Judge) 역할을 수행하여 다른 모든 모델의 응답을 검토하고 모순을 해결하며 최종 답변을 생성하는 방식입니다. 사실 관계 확인이 중요한 경우에는 가장 많이 등장한 답변을 선택하는 '투표(Voting)' 전략을 선택할 수 있어 용도에 맞는 유연한 운영이 가능합니다. 투표 방식은 추가적인 API 호출이 필요 없으므로 합성 방식보다 더 빠른 응답 속도를 제공합니다.

벤치마크 결과에 따르면 LLM Council의 합성 방식은 단일 GPT-4 모델(7.2점)보다 높은 품질 점수(8.4점)를 기록했으며, 환각 발생률을 12%에서 4%로 크게 낮췄습니다. 개별 모델의 실패가 전체 시스템의 중단으로 이어지지 않도록 예외 처리가 설계되어 있으며, 특정 모델이 타임아웃되거나 오류를 일으켜도 나머지 모델의 결과로 프로세스를 지속합니다. 합성 단계에서 오류가 발생할 경우 첫 번째 유효한 응답으로 자동 대체되는 기능을 통해 시스템의 안정성을 보장합니다.

개발자는 Neo VSCode 확장을 사용하여 가상 환경 설정, 라이브러리 설치, API 키 구성 등의 초기 설정을 AI의 도움을 받아 자동화할 수 있습니다. 자연어 명령으로 특정 쿼리를 실행하거나 engine.py와 같은 핵심 로직의 작동 방식을 질문하여 코드 탐색 시간을 단축할 수 있습니다. 이러한 도구 지원은 복잡한 오케스트레이션 로직을 빠르게 이해하고 커스터마이징하는 데 큰 도움을 주며, 특히 CI/CD 환경이 아닌 로컬 개발 단계에서 생산성을 극대화합니다.

</> 코드 예제 포함

실무 Takeaway

단일 모델의 한계를 극복하기 위해 3~5개의 다양한 모델을 병렬로 배치하여 답변의 객관성과 정확도를 확보하십시오.
복잡한 추론이나 코드 리뷰 작업에는 '합성' 전략을, 단순 사실 확인이나 분류 작업에는 '투표' 전략을 적용하여 효율성을 높이십시오.
OpenRouter를 활용하면 하나의 API 키로 수백 개의 모델을 교체하며 테스트할 수 있어 인프라 관리 부담을 줄일 수 있습니다.