IFBench
모델이 주어진 지시사항(Instruction)을 얼마나 정확하게 따르는지 평가하는 벤치마크이다. 복잡한 제약 조건이 포함된 프롬프트 수행 능력을 측정한다.
35B 모델이 120B를 압도? Qwen 3와 GPT-5 벤치마크 결과 공개