핵심 요약
SWE-bench 데이터를 분석한 결과, 모든 주요 LLM이 인간보다 더 길고 복잡한 코드를 생성하며, 특히 불필요한 구현과 범위 확장(Scope Creep)이 주요 원인으로 밝혀졌습니다.
배경
작성자가 SWE-bench의 140개 사례를 바탕으로 LLM이 생성한 코드 패치와 인간의 정답(Gold) 패치 크기를 비교 분석하여, 모델별 비대화 정도와 그 원인을 공유하기 위해 작성했습니다.
의미 / 영향
이 분석은 LLM 기반 코딩 에이전트가 생성하는 코드의 품질을 단순히 동작 여부로만 평가해서는 안 된다는 점을 시사합니다. 코드의 간결성과 유지보수성을 높이기 위해 모델의 추론 방식이나 프롬프트 전략을 개선해야 할 필요성을 제기합니다.
커뮤니티 반응
데이터 기반의 흥미로운 분석이라는 반응이 많으며, 실제 사용자들이 느끼는 LLM의 장황함이 수치로 증명되었다는 점에 크게 공감하고 있습니다.
주요 논점
LLM은 인간보다 코드를 비대하게 작성하며 이는 모델의 고유한 특성이자 해결해야 할 과제이다.
합의점 vs 논쟁점
합의점
- LLM은 인간보다 훨씬 더 많은 양의 코드를 생성한다
- 단순한 주석 추가가 비대화의 주된 원인은 아니다
논쟁점
- 어떤 모델이 가장 인간다운 코딩 스타일을 가졌는지에 대한 정성적 평가 차이
실용적 조언
- LLM을 이용한 자동 코딩 시 생성된 패치의 범위를 검토하여 불필요한 변경 사항이나 범위 확장이 포함되지 않았는지 확인해야 합니다
언급된 도구
SWE-bench 사례 해결을 위한 오픈소스 AI 에이전트
섹션별 상세
이미지 분석

인간의 정답 패치 크기를 기준으로 각 모델이 생성한 패치가 얼마나 더 큰지를 퍼센트로 보여줍니다. Kimi K2가 16%로 가장 효율적이며 GLM-4.6이 65%로 가장 비대한 코드를 생성함을 시각적으로 나타냅니다.
인간의 정답 패치 대비 모델별 코드 생성량 증가율 차트

장황한 구현, 범위 확장, 과도한 방어적 코드 등 비대화의 원인별 발생 빈도를 모델별로 비교합니다. 대부분의 모델에서 장황한 구현과 범위 확장이 50% 이상의 사례에서 나타나는 주요 원인임을 보여줍니다.
코드 비대화 원인별 발생 빈도 분석 그래프
실무 Takeaway
- 현재 어떤 LLM도 인간만큼 간결하게 코드를 작성하지 못하며, 인간 대비 최소 16%에서 최대 65%까지 더 많은 코드를 생성합니다.
- 코드 비대화의 핵심 원인은 주석보다는 장황한 구현 방식과 문제 범위를 넘어서는 불필요한 코드 추가(Scope Creep)에 있습니다.
- Kimi K2 Thinking과 Opus 4.5가 상대적으로 가장 간결한 코드를 생성하는 모델로 나타났습니다.
- 동일한 에이전트 프롬프트를 사용한 140개의 SWE-bench 검증 사례를 기반으로 하여 모델 간 비교의 신뢰도를 확보했습니다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.