GPT 5.4 vs Opus vs Gemini: 창의적 글쓰기 미니 벤치마크 결과

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

7종의 최신 LLM을 대상으로 일기 쓰기 능력을 블라인드 테스트와 모델 기반 평가로 비교한 결과, GPT 5.4와 Opus 4.6이 최상위권을 차지했다.

사용자가 자신의 실제 일기 3개를 입력값으로 제공하고 새로운 일기를 생성하게 하여, 7개의 최신 언어 모델(LLM)의 창의적 글쓰기 능력을 직접 비교 분석했다.

이 토론은 LLM의 창의적 역량이 모델별로 뚜렷한 차이를 보이며, 특히 인간의 주관적 선호도가 모델 기반 자동 평가 지표와 높은 상관관계를 가질 수 있음을 시사한다.

사용자의 개인적인 벤치마크 결과에 대해 흥미롭다는 반응이 주를 이루며, 특히 언급된 모델들의 버전 명칭이 현재 공개된 것보다 상위 버전이라는 점에 주목하고 있다.

01찬성다수

GPT 5.4와 Opus 4.6이 창의적 글쓰기에서 가장 뛰어난 성능을 보인다는 결과에 동의한다.

02중립소수

중국계 모델들이 문체는 좋으나 창의성이 떨어진다는 분석은 데이터셋의 특성 때문일 수 있다.

GPT 5.4는 사용자의 주관적인 블라인드 테스트에서 S 티어를 기록하며 가장 우수한 창의적 글쓰기 능력을 보여주었다.

Opus 4.6 Thinking 모델은 사용자의 실제 일기 문체와 가장 흡사한 산문을 생성하여 높은 평가를 받았으며, Gemini 3-Flash 평가에서도 91.7%의 승률로 공동 1위에 올랐다.

Gemini 3.1 Pro는 인물의 심리 상태와 내적 독백을 파악하는 능력이 타 모델 대비 뛰어난 것으로 나타나 심리 묘사 부문에서 강점을 보였다.

중국계 모델인 GLM 5는 문체는 훌륭하지만 창의성이 부족하다는 평가를 받았으며, Qwen 3 Max Thinking은 모든 평가 지표에서 최하위인 F 티어를 기록했다.

Gemini 3-Flash를 이용한 자동화된 상호 평가 결과가 인간의 주관적 블라인드 테스트 결과와 매우 유사한 경향성을 보임이 확인됐다.

Gemini 3-Flash추천

LLM 간의 결과물을 비교 평가하는 심사위원(Judge) 모델로 활용