어떤 LLM이 취약점 탐지에 가장 뛰어난가? (1부)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

저자는 웹 애플리케이션 취약점 탐지 성능을 평가하기 위해 13개의 알려진 취약점이 포함된 뱅킹 웹앱을 활용하여 7개 LLM을 테스트했다. 각 모델은 동일한 프로젝트 파일을 분석하고 취약점 보고서를 작성하며, 탐지 정확도와 보고서 품질을 기준으로 총 22점 만점으로 평가받았다. 평가 결과 GPT-OSS와 Gemma가 상위권을 차지했으며, 특히 Gemma는 모델 크기 대비 우수한 성능을 보였다. 반면 일부 모델은 다수의 중복 보고와 낮은 정밀도를 기록하며 취약점 탐지에서 노이즈 문제가 발생했다.

배경

LLM 활용 능력, 웹 보안 기초 지식

대상 독자

보안 연구원 및 LLM 활용 개발자

의미 / 영향

LLM의 취약점 탐지 성능은 모델 크기보다 정밀도와 보고서 품질에 크게 좌우된다. 보안 자동화 도구로서 LLM을 도입할 때 단순히 탐지 개수보다는 오탐률과 실제 악용 가능성을 검증하는 프로세스가 필수적이다.

섹션별 상세

취약점 탐지 성능 평가를 위해 13개의 필수 탐지 항목이 포함된 뱅킹 웹 애플리케이션을 테스트 베드로 구축했다. 이 애플리케이션은 XSS, 원격 명령 실행, 안전하지 않은 위치에 저장된 비밀 정보 등 다양한 보안 결함을 포함한다. 저자는 이 환경을 활용하여 LLM의 실제 취약점 탐지 능력을 검증하고자 했다.

7개 LLM을 대상으로 동일한 프로젝트 파일을 제공하고, 취약점 탐지 정확도와 보고서 품질을 종합하여 22점 만점으로 점수를 산정했다. 각 모델은 파일별로 취약점을 JSON 형식으로 보고해야 하며, 2회 이상의 유효하지 않은 응답 시 다음 파일로 넘어가는 규칙을 적용했다. 탐지 정확도와 보고서의 분류 품질이 주요 평가 지표로 활용됐다.

GPT-OSS가 19점으로 1위를 차지했고, Gemma-4-26b가 18점으로 뒤를 이으며 모델 크기 대비 뛰어난 성능을 입증했다. GPT-OSS는 13개의 필수 취약점 중 10개를 찾아내며 학생 평균 이상의 성과를 보였다. Gemma-4-26b는 모델 파라미터 수가 GPT-OSS의 4분의 1 수준임에도 불구하고 거의 대등한 탐지 능력을 보여주었다.

Nemotron-nano-9b는 탐지한 취약점 수는 적지만 오탐이 적어 가장 높은 정밀도를 기록했다. 이 모델은 전체적인 탐지 개수보다는 정확한 취약점 식별에 집중하는 경향을 보였다. 결과적으로 소형 모델임에도 불구하고 보안 연구 도구로서의 가능성을 확인했다.

Kimi-k2.6은 많은 취약점을 보고했으나 중복 보고가 18건에 달해 정밀도 측면에서 한계를 보였다. 전체 47개의 보고된 취약점 중 실제 유의미한 취약점은 9개에 불과했다. 이는 LLM이 취약점 탐지 시 생성하는 노이즈가 실제 보안 업무의 효율성을 저해할 수 있음을 보여준다.

실무 Takeaway

취약점 탐지 시 단순히 많은 취약점을 보고하는 것보다 실제 악용 가능한 취약점을 정확히 식별하는 정밀도가 중요하다. LLM의 노이즈는 보안 분석가의 업무 효율을 떨어뜨리므로 오탐을 최소화하는 모델 선택이 필수적이다.
소형 모델인 Nemotron-nano-9b는 오탐이 적어 특정 상황에서 효율적인 취약점 탐지 도구로 활용 가능하다. 모델 크기가 작더라도 정밀도가 높은 모델은 보안 자동화 파이프라인에서 비용 효율적인 대안이 될 수 있다.

언급된 리소스

GitHubMybank_WebSec_Exercise