RedDragon: 불완전한 코드 분석을 위한 LLM 기반 인프라

핵심 요약

RedDragon은 레거시 코드나 의존성이 누락된 불완전한 소스 코드를 분석하고 실행하기 위한 실험적 프로젝트이다. Tree-sitter 기반의 결정론적 프론트엔드와 LLM을 결합하여 15개 이상의 언어를 공통된 27개 opcode IR로 변환한다. 특히 실행 중 누락된 의존성을 만나면 LLM이 그럴듯한 상태 변화를 생성하여 중단 없이 실행을 이어가게 한다. 이를 통해 정적 분석과 동적 실행의 한계를 LLM으로 보완하는 새로운 코드 분석 패러다임을 제시한다.

배경

컴파일러 이론 (IR, AST), 정적 분석 기초, LLM API 활용 능력, Python

대상 독자

정적 분석 도구 개발자, 보안 연구원, 레거시 시스템 현대화 엔지니어, LLM 기반 코드 에이전트 개발자

의미 / 영향

이 프로젝트는 LLM이 컴파일러 기술과 결합될 때 불완전한 정보 환경에서도 정밀한 코드 분석이 가능함을 보여준다. 향후 자동화된 버그 탐지, 취약점 분석, 그리고 대규모 코드베이스 리팩터링 에이전트의 핵심 인프라로 활용될 잠재력이 크다.

섹션별 상세

RedDragon은 15개 이상의 언어를 지원하며 모든 소스를 27개의 opcode로 구성된 범용 IR로 변환한다. 이 IR은 3-주소 코드(Three-address code) 형식을 따르며 소스 코드의 위치 정보를 보존하여 분석 결과의 추적성을 보장한다. 언어에 관계없이 동일한 IR 구조를 생성하므로 단일한 분석 엔진으로 다양한 언어를 처리할 수 있는 기반을 제공한다.

결정론적 파서인 Tree-sitter가 구문 오류를 발견하면 LLM이 개입하여 손상된 부분만 수정하고 다시 파싱을 시도한다. 이 LLM 보조 복구 방식은 전체 코드를 LLM에 맡기는 것보다 비용 효율적이며 결정론적 분석의 범위를 극대화한다. 파서가 없는 언어의 경우 LLM이 직접 IR을 생성하는 프론트엔드도 지원하여 확장성을 확보했다.

VM은 기본적으로 결정론적으로 실행되지만 외부 라이브러리 호출처럼 정보가 없는 지점에서 LLM 오라클을 호출한다. LLM은 현재 실행 문맥을 바탕으로 가장 적절한 반환값이나 상태 변화를 생성하여 프로그램이 멈추지 않고 끝까지 실행되도록 돕는다. 이는 불완전한 코드베이스에서도 동적 분석을 가능하게 하는 핵심 메커니즘이다.

정적 타입 추론 엔진은 프론트엔드에서 수집한 힌트를 바탕으로 전체 IR의 타입을 전파하고 확정한다. 도달 정의(Reaching definitions) 분석과 변수 의존성 그래프 생성을 통해 코드 내의 복잡한 데이터 흐름을 정밀하게 추적할 수 있다. 분석 결과는 Mermaid 차트로 시각화되어 개발자가 코드의 논리 구조를 한눈에 파악하도록 지원한다.

Rosetta와 Exercism의 수천 개 테스트 케이스를 통해 15개 언어에 대한 실행 정확도와 IR 일관성을 검증했다. 서로 다른 언어로 작성된 동일한 알고리즘이 구조적으로 동일한 IR 시퀀스를 생성함을 확인하는 Equivalence 테스트를 통과했다. 이는 RedDragon이 단순한 실험을 넘어 실질적인 다중 언어 분석 도구로서의 가능성을 입증했음을 의미한다.

이미지 분석

Screenshot
IR 명령어 시퀀스와 현재 실행 중인 위치를 하이라이트하여 보여준다. 우측 패널에서는 레지스터, 로컬 변수, 힙 메모리 상태를 실시간으로 확인할 수 있어 VM의 실행 과정을 시각적으로 증명한다.
RedDragon VM의 실행 화면 스크린샷이다.

</> 코드 예제 포함

실무 Takeaway

레거시 코드나 의존성이 누락된 불완전한 소스 코드도 LLM 오라클을 통해 중단 없이 동적으로 실행하고 분석할 수 있다.
15개 이상의 언어를 단일한 27개 opcode IR로 통합하여 언어 중립적인 정적 및 동적 분석 파이프라인 구축이 가능하다.
LLM을 컴파일러 프론트엔드와 실행 시점의 상태 복구 도구로 활용함으로써 전통적인 분석 도구의 한계를 극복하는 새로운 인프라를 제시한다.

언급된 리소스

GitHubRedDragon GitHub Repository

문서VM Design Document