LLM을 활용한 바이너리 리버스 엔지니어링: 디컴파일 자동화 가이드

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

오래된 바이너리 프로그램을 현대적 언어로 변환하기 위해 LLM을 활용한 리버스 엔지니어링 기법을 설명한다. 소스 코드가 유실된 MajorMUD 게임의 32비트 DLL을 대상으로 Ghidra와 Gemini 모델을 결합하여 분석을 진행했다. LLM의 패턴 인식 능력을 통해 의미 없는 변수명을 실제 기능에 맞는 이름으로 자동 수정하고 데이터 구조를 복원하는 워크플로우를 제안한다. 이는 단순 번역을 넘어 모델의 어텐션 메커니즘이 인간 친화적인 변수명에서 더 정확한 논리를 추론하도록 유도하는 전략을 포함한다.

배경

Ghidra 사용법, C 언어 및 어셈블리 기초, LLM API 및 MCP 이해

대상 독자

리버스 엔지니어링 자동화 및 레거시 코드 현대화에 관심 있는 보안 전문가 및 개발자

의미 / 영향

이 방법론은 소스 코드가 없는 레거시 시스템이나 악성코드 분석의 속도를 획기적으로 높인다. 특히 COBOL과 같은 고전 언어의 현대화 작업에서 LLM이 강력한 도구로 활용될 가능성을 보여준다.

섹션별 상세

LLM의 요약 및 번역 능력은 리버스 엔지니어링 작업에 매우 적합하다. 대규모 컨텍스트 윈도우를 가진 모델은 코드 전반의 패턴을 식별하여 변수와 함수의 용도를 파악하는 데 탁월한 성능을 보인다. 이는 신경망 기계 번역 기술이 프로그래밍 언어 간의 변환에도 유효하게 작용함을 시사한다.

분석 대상으로 소스 코드가 유실된 32비트 Windows DLL인 MajorMUD 게임을 선정했다. 이는 모델이 학습 데이터에서 소스 코드를 직접 암기하여 결과를 내놓는 '부정행위' 가능성을 배제하고 순수한 추론 능력을 테스트하기 위함이다.

Ghidra 디컴파일러를 기본 도구로 사용하되 LLM을 통해 Ghidra가 생성한 난해한 pseudo-C 코드를 정제한다. Ghidra는 논리적으로는 정확하지만 변수명이 iVar1과 같이 비직관적인 코드를 생성하는데 이를 LLM이 문맥을 파악해 player_ptr 등으로 자동 치환한다.

Ghidra 도구에서 32비트 DLL의 함수를 디컴파일하고 분석하는 화면 스크린샷이다. — ScreenshotGhidra의 CodeBrowser 인터페이스를 통해 어셈블리 코드와 디컴파일된 pseudo-C 코드를 동시에 보여준다. 이는 LLM이 분석하기 전의 원시 데이터 상태를 시각화하며 리버스 엔지니어링의 출발점을 나타낸다.

Gemini 모델과 GhidrAssistMCP 도구를 활용한 자동화 루프를 구축했다. 특정 함수를 디컴파일한 후 해당 함수를 참조하거나 참조되는 다른 함수들을 추적하여 전체적인 코드 맥락을 파악하고 변수명과 구조체 정의를 반복적으로 업데이트한다.

인간 친화적인 중간 단계인 변수명 변경 및 구조체 정의가 필수적인 이유를 Transformer 아키텍처 관점에서 설명한다. LLM은 player_ptr과 같은 의미론적 토큰을 볼 때 게임 로직과 메모리 관리 패턴에 대한 어텐션 상태를 활성화하여 더 정확한 추론을 수행하기 때문이다.

실무 Takeaway

Ghidra의 pseudo-C 출력물을 Gemini의 대규모 컨텍스트 윈도우에 입력하여 비직관적인 변수명을 의미론적 명칭으로 자동 변환함으로써 분석 효율을 극대화한다.
LLM의 추론 정확도를 높이기 위해 원시 오프셋 대신 구조체와 의미 있는 변수명을 먼저 정의하는 시맨틱 앵커링 기법을 적용해야 한다.
MCP 도구를 사용하여 LLM이 직접 디컴파일러 API를 호출하게 함으로써 수동 작업을 최소화한 자동화된 리버스 엔지니어링 파이프라인 구축이 가능하다.

언급된 리소스

문서Ghidra