Qwen 3와 GPT-5 High 벤치마크 비교: Qwen 3 35B가 GPT-OSS 120B를 능가

핵심 요약

Qwen 3 122B와 GPT-5 High가 대등한 성능을 기록했으며 Qwen 3 35B가 거대 모델인 GPT-OSS 120B를 벤치마크에서 압도했다.

배경

최신 AI 모델인 Qwen 3 시리즈와 GPT-5 High, GPT-OSS 120B의 성능을 객관적으로 비교하기 위해 주요 벤치마크 점수를 정리하여 공유했다.

의미 / 영향

모델의 파라미터 규모보다 아키텍처 최적화와 데이터 품질이 성능을 결정하는 핵심 요소임이 확인됐다. 오픈소스 모델인 Qwen 3가 최상위권 상용 모델과 대등한 수준에 도달함에 따라 모델 선택의 폭이 넓어졌다.

커뮤니티 반응

대체로 Qwen 3의 효율성에 놀라워하며 특히 작은 모델이 거대 모델을 이긴 결과에 대해 매우 긍정적인 반응이다.

주요 논점

01중립다수

Qwen 3 122B와 GPT-5 High는 지표에 따라 우열이 갈리는 대등한 경쟁 관계이다.

합의점 vs 논쟁점

합의점

Qwen 3 35B의 효율성이 GPT-OSS 120B를 압도한다
GPT-5 High는 여전히 순수 지식 측정 지표인 MMLU-Pro에서 세계 최고 수준이다

논쟁점

도구 사용 여부에 따른 HLE 점수 비중을 모델의 순수 지능 평가에 얼마나 반영할 것인가

실용적 조언

고난도 과학 추론이 필요한 작업에는 Qwen 3 122B 또는 GPT-5 High를 우선적으로 고려한다
리소스 효율성이 중요한 환경에서는 35B 규모의 Qwen 3 모델이 최적의 대안이다

언급된 도구

Qwen 3추천

대규모 언어 모델 시리즈

GPT-5 High추천

OpenAI의 고성능 모델

GPT-OSS중립

120B 규모의 오픈소스 기반 모델

섹션별 상세

Qwen 3 122B-A10B 모델은 GPQA Diamond에서 86.6점, IFBench에서 76.1점을 기록하며 GPT-5 High와 대등하거나 일부 항목에서 앞서는 성능을 기록했다. 특히 도구를 사용할 경우 HLE 점수가 47.5점까지 상승하여 가장 높은 효율성을 입증했다. 이는 대규모 모델 경쟁에서 오픈소스 계열 모델이 상용 폐쇄형 모델의 성능을 완전히 따라잡았음을 의미한다. 벤치마크 결과는 다양한 지표에서 일관되게 최상위권 성적을 유지했다.

Qwen 3 35B-A3B 모델의 약진이 두드러졌다. 35B라는 상대적으로 작은 파라미터 규모에도 불구하고 MMLU-Pro 85.3점, GPQA Diamond 84.2점을 기록하며 120B 규모인 GPT-OSS를 모든 지표에서 큰 차이로 따돌렸다. 이는 모델의 파라미터 수보다 데이터의 질과 학습 아키텍처의 효율성이 성능에 더 결정적인 영향을 미친다는 사실을 증명한다. 커뮤니티에서는 이러한 체급을 뛰어넘는 성능에 대해 주목했다.

GPT-5 High는 MMLU-Pro에서 87.1점으로 최고점을 기록했으며, 도구 미사용 시 HLE 점수에서도 26.5점으로 가장 높은 순수 추론 능력을 기록했다. 하지만 전반적인 지표에서 Qwen 3 122B 모델과 치열한 선두 다툼을 벌이는 형국이다. 특히 IFBench와 같은 지시 이행 능력 테스트에서는 Qwen 3에 밀리는 결과가 나타났다. 이는 특정 영역에서의 우위가 전체적인 성능 우위를 보장하지 않음을 나타낸다.

실무 Takeaway

Qwen 3 122B 모델은 GPQA Diamond와 IFBench에서 GPT-5 High를 근소하게 앞서며 최상위권 성능을 증명했다.
모델의 파라미터 크기가 반드시 성능과 직결되지 않음을 Qwen 3 35B가 GPT-OSS 120B를 이김으로써 보여주었다.
HLE 벤치마크에서 도구 활용 여부에 따라 모델의 성능 잠재력이 극명하게 차이 난다는 점이 확인됐다.

언급된 리소스

API DocsOpenRouter

문서Artificial Analysis

GitHubHugging Face