단일 LLM 프롬프트가 코드 채점에 실패하는 이유와 내가 구축한 멀티 에이전트 시스템

핵심 요약

단일 LLM의 한계를 극복하기 위해 AST 분석과 결정론적 규칙을 결합한 4단계 계층형 멀티 에이전트 코드 채점 시스템을 구축했다.

배경

기존 단일 LLM 프롬프트 방식이 코드의 실제 정확성과 겉모습을 구분하지 못하는 문제를 해결하기 위해 새로운 시스템을 설계했다. 계층적 멀티 에이전트 스웜 아키텍처를 통해 채점의 객관성과 정확도를 높이고자 했다.

의미 / 영향

이 프로젝트는 LLM의 불확실성을 보완하기 위해 전통적인 정적 분석과 결정론적 규칙을 에이전트 시스템에 통합하는 실무적 패턴을 제시했다. 이는 향후 AI 기반 자동화 도구 설계 시 단순 추론 기반 판단에서 벗어나 검증 가능한 시스템으로 나아가는 방향성을 시사한다.

커뮤니티 반응

작성자가 시스템 아키텍처를 상세히 공개하여 기술적인 관심을 끌고 있으며, 특히 결정론적 규칙과 LLM의 결합 방식에 대해 긍정적인 반응이 나타났다.

주요 논점

01찬성다수

단일 LLM의 한계를 인정하고 하이브리드(LLM+Rule) 접근법이 필요하다.

합의점 vs 논쟁점

합의점

단일 LLM 프롬프트는 코드 채점의 신뢰성이 낮다.
구조화된 데이터 정의와 그래프 기반 워크플로우가 복잡한 에이전트 시스템 구축에 유용하다.

논쟁점

에이전트 수가 늘어남에 따른 비용 및 지연 시간 문제
대립적 판사 구조가 실제로 채점 정확도를 얼마나 향상시키는지에 대한 정량적 데이터 부족

실용적 조언

코드 분석 시 AST를 활용하여 구조적 결함을 먼저 파악하라.
LLM의 판단을 뒤집을 수 없는 하드 코딩된 보안 규칙을 시스템 최종 단계에 적용하라.

언급된 도구

LangGraph추천

에이전트 워크플로우 제어 및 리듀서 활용

Pydantic추천

에이전트 간 데이터 교환을 위한 타입 정의 및 계약

섹션별 상세

단일 LLM 프롬프트의 한계는 코드가 실제로 올바른지 아니면 단지 올바르게 보이는지를 구분하지 못한다는 점이다. 단순한 점수 평균화나 모호한 판단 기준에 의존하는 채점 방식은 보안 취약점이나 논리적 오류를 잡아내지 못하는 경우가 많다. 이를 해결하기 위해 결정론적 규칙과 LLM의 추론 능력을 분리하는 설계가 필요하다.

시스템은 탐정, 증거 집계기, 판사, 대법관의 4개 계층으로 구성된 계층형 아키텍처를 채택했다. 탐정 계층은 AST 분석과 샌드박스 실행을 통해 객관적 데이터를 수집하며, 판사 계층은 검사와 변호인 등의 역할을 맡아 대립적 토론을 거친다. 최종 결정은 파이썬 규칙 기반의 대법관 계층에서 이루어져 LLM이 논리적으로 뒤집을 수 없는 구조를 갖췄다.

기술적 구현을 위해 Pydantic 계약을 사용하여 데이터를 구조화하고 에이전트 간 워크플로우 제어에는 LangGraph 리듀서를 활용했다. 정규 표현식이나 단순 텍스트 매칭 대신 구조화된 분석 도구를 사용하여 분석의 깊이를 더했다. 특히 보안 캡과 같은 결정론적 규칙은 시스템의 신뢰성을 확보하는 핵심 요소로 작용한다.

실무 Takeaway

LLM은 코드의 논리적 타당성보다 패턴의 유사성에 의존하므로 단일 프롬프트 채점은 신뢰하기 어렵다.
AST 분석과 샌드박스 실행 등 객관적 증거 수집 단계를 LLM 판단 앞에 배치하여 데이터의 객관성을 확보해야 한다.
대립적 구조의 판사 에이전트들을 통해 다각도에서 코드 품질을 검증하는 것이 효과적이다.
최종 판단은 LLM이 아닌 결정론적 파이썬 규칙을 통해 수행하여 일관성을 보장해야 한다.

언급된 리소스

GitHubtrp1-automation-auditor GitHub