보안 테스팅 도구 Strix를 활용한 주요 LLM 모델 성능 비교 분석

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

보안 테스팅 도구 Strix를 활용하여 다양한 LLM 모델의 실전 성능을 측정하고 비교했다. GPT-5.3-Codex가 속도와 비용 면에서 가장 우수한 성과를 거두었으나 과도한 서브에이전트 생성으로 인한 속도 제한 문제가 확인되었다. Gemini 3.1 Pro는 추론 과정의 투명성이 높았고, Kimi-K2.5와 같은 모델은 가성비 좋은 대안으로 평가되었다. 반면 DeepSeek-V3.2는 성능과 비용 모든 면에서 기대 이하의 결과를 보이며 테스트 대상 중 가장 낮은 점수를 기록했다.

배경

LLM 에이전트 구조 및 서브에이전트 개념 이해, 기본적인 웹 보안 취약점(XSS, SQLi) 지식, API 기반 LLM 호출 및 파라미터 설정 경험

대상 독자

LLM 기반 보안 도구 개발자 및 보안 엔지니어

의미 / 영향

LLM의 성능이 모델의 인지도와 반드시 비례하지 않음을 보여주며, 에이전트 기반 시스템에서 모델별 서브에이전트 관리 전략이 중요함을 시사한다. 특히 보안 테스팅과 같은 특수 목적에서는 가성비 좋은 오픈소스 모델이 상용 모델의 훌륭한 대안이 될 수 있다.

섹션별 상세

GPT-5.3-Codex는 테스트에서 가장 우수한 성적을 거두었으며 속도가 빠르고 비용도 저렴했다. 다만 웹 사이트 로그인 폼 발견 시 XSS, SQL 인젝션 등을 위해 3-4개의 서브에이전트를 동시에 생성하는 경향이 있어 상호 간섭이나 속도 제한(Rate Limiting) 문제가 발생할 가능성이 있다. 이를 해결하기 위해 --instruction-file 파라미터를 통해 서브에이전트 생성 개수를 제한하는 방식이 권장된다.

Gemini 3.1 Pro Preview는 GPT-5.3-Codex보다 비용이 2배 높고 실행 시간도 길지만 사고 과정(Thinking Process)을 명확하게 보여주어 사용자에게 높은 신뢰감을 준다. 서브에이전트를 생성하지 않고 단일 흐름으로 작업을 수행하며, 복잡한 논리적 판단이 필요한 상황에서 강점을 보였다. 반복적인 자기 수정 과정이 특징적이며 작업의 흐름을 추적하기 용이하다.

중국계 모델인 GLM-5와 Kimi-K2.5는 예상외로 우수한 성능을 보여주었으며 특히 Kimi-K2.5는 저렴한 비용으로 로컬 호스팅이 가능한 오픈소스 대안으로서의 가치를 입증했다. 반면 DeepSeek-V3.2는 가장 높은 평균 비용과 가장 긴 실행 시간을 기록했음에도 불구하고 결과가 좋지 않아 테스트 대상 중 가장 낮은 평가를 받았다.

GPT-5-Mini와 Nano 모델은 비용은 매우 저렴하지만 보안 취약점 발견 성공률이 거의 0에 가까워 실전 보안 테스팅에는 부적합한 것으로 나타났다. 초기 환경 설정 및 작동 여부 확인을 위해서는 OpenRouter에서 무료로 제공되는 Step-3.5-Flash 모델을 활용하는 것이 경제적이다. 이는 유료 모델로 전환하기 전 테스트 환경의 무결성을 검증하는 용도로 적합하다.

실무 Takeaway

보안 자동화 도구에 LLM을 적용할 때는 서브에이전트의 병렬 실행이 타겟 시스템의 속도 제한을 유발하지 않도록 프롬프트나 파라미터로 제어해야 한다.
단순히 유명한 모델을 선택하기보다 특정 도메인에서의 벤치마크 결과를 바탕으로 가성비가 검증된 Kimi-K2.5와 같은 모델을 선택하는 것이 효율적이다.
모델의 추론 과정을 모니터링해야 하는 복잡한 보안 분석 작업에는 Gemini와 같이 사고 과정을 상세히 출력하는 모델이 유리하다.

언급된 리소스

API DocsOpenRouter.ai