CREATE: 연상적 창의성 측정을 위한 대형 언어 모델 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM의 창의성을 객관적으로 측정하는 것은 매우 어려운 과제였으나, 이 논문은 지식 그래프를 활용해 '독특하고 의미 있는 연결'을 찾는 능력을 정량화하는 방법론을 제시한다. 이는 AI가 단순한 정보 검색기를 넘어 과학적 발견이나 창의적 문제 해결을 돕는 에이전트로 진화하는 데 필수적인 평가 기준이 된다.

왜 중요한가

핵심 기여

CREATE 벤치마크 구축

실세계 엔티티 간의 연상적 연결 능력을 평가하기 위해 Wikidata 기반의 931개 자연어 쿼리와 객관적인 채점 체계를 갖춘 데이터셋을 제안했다.

창의적 효용성(Creative Utility) 지표 설계

연결의 특이성(Specificity)과 경로 간의 다양성(Diversity)을 수학적으로 결합하여, 고품질이면서도 중복되지 않는 아이디어 생성 능력을 측정하는 지표를 정립했다.

프론티어 모델의 창의성 한계 규명

GPT-5, Gemini-3-pro 등 최신 모델을 평가한 결과, 추론 토큰을 늘려도 창의적 도약(Distinctiveness) 능력은 비례해서 향상되지 않는다는 사실을 확인했다.

효과적인 프롬프트 전략 검증

단순히 '창의적으로 답하라'는 지시보다 이전 답변과 다른 답을 요구하는 'Iterate' 방식이 유효 경로 수와 다양성을 높이는 데 가장 효과적임을 입증했다.

핵심 아이디어 이해하기

기존의 LLM 평가는 주로 정답이 정해진 사실 관계 확인이나 논리 추론에 집중했다. 하지만 창의성의 핵심은 '이미 알고 있는 개념들을 새롭고 가치 있게 연결하는 능력'이다. 이 논문은 이를 위해 지식 그래프의 '경로(Path)' 개념을 도입한다.

두 개념 사이에는 수많은 연결 경로가 존재하지만, 누구나 아는 뻔한 연결(예: 같은 국적)보다는 소수의 관계자만 아는 독특한 연결(예: 특정 작품의 공동 출연 및 가족 관계)이 더 창의적이라고 본다. 이를 위해 '특이성(Specificity)'이라는 개념을 사용한다. 특정 관계에 참여하는 엔티티 수가 적을수록 그 연결은 더 강력하고 독특한 것으로 간주된다.

모델이 이런 독특한 경로를 여러 개 찾아낼수록 창의적 효용성이 높다고 평가한다. 이는 모델이 단순히 확률적으로 높은 토큰을 생성하는 것을 넘어, 자신의 파라미터 지식 공간을 얼마나 넓고 깊게 탐색하여 비자명한 연결을 찾아내는지를 측정하는 원리이다.

방법론

Wikidata에서 특정 범주(예: 영화 출연진) 내의 엔티티 쌍을 선택하고, 지식 그래프 상에서 3단계 이상의 경로를 추출하여 자연어 질문으로 변환한다. 모델은 'Robbie Vinton과 화가로 일하는 사람 사이의 연결 고리를 찾아라'와 같은 쿼리에 대해 여러 개의 경로를 생성해야 한다.

개별 관계의 품질은 특이성 점수 σ로 계산한다. [관계 r과 대상 e가 주어질 때 이를 만족하는 주체 x의 집합 크기 n을 산출] → [단조 감소 함수 g(n)을 적용] → [집합 크기가 작을수록 높은 점수를 부여] → [해당 관계의 희소성을 수치화]한다. 전체 경로의 품질 f(u)는 경로 내 가장 약한 관계의 점수로 결정된다.

최종 점수인 창의적 효용성 s(U)는 다음과 같이 계산한다. [각 경로의 품질 f와 이전 경로들과의 거리 d를 곱함] → [사용자의 인내심 계수 γ를 적용해 지수적으로 감쇠하며 합산] → [다양하면서도 고품질인 결과물 세트의 총 가치를 산출]한다. 이를 통해 모델이 비슷한 답만 반복하는지, 아니면 정말로 새롭고 가치 있는 연결을 다수 찾아내는지 평가한다.

주요 결과

프론티어 모델 성능 평가에서 GPT-5(med)가 가장 높은 창의적 효용성(s=12.03)을 기록했으며, Gemini-3-pro(s=10.41)가 그 뒤를 이었다. 오픈소스 모델인 Qwen3-32B나 Olmo-3.1-32B는 상대적으로 낮은 점수를 보였다.

추론 모델(Thinking Models) 분석 결과, GPT-5-mini의 경우 추론 예산을 'low'에서 'high'로 늘렸을 때 효용성 점수는 상승(7.03 → 10.16)했으나, 생성된 경로의 평균 품질(σ)이나 다양성(d)은 크게 변하지 않았다. 이는 추론 토큰 증가가 주로 유효한 경로의 '개수'를 늘리는 데 기여할 뿐, 더 독특한 연결을 찾는 '질적 도약'에는 한계가 있음을 시사한다.

프롬프트 전략 비교에서는 'Iterate'(이전 답변과 다른 답 요구) 방식이 모든 모델에서 가장 높은 성능 향상을 보였다. 반면 'Be creative'와 같은 단순 지시는 기본 프롬프트와 큰 차이가 없거나 오히려 성능이 하락하는 경우도 관찰됐다.

기술 상세

CREATE 아키텍처는 Wikidata의 구조화된 지식을 자연어 쿼리로 변환하고, 모델의 출력을 다시 지식 그래프의 트리플(Triple) 형태로 파싱하여 평가하는 파이프라인을 갖추고 있다. 평가의 핵심인 특이성 점수는 gpt-oss-120b 모델을 평가자로 사용하여 각 관계에 참여할 수 있는 엔티티 집합의 크기를 추정하도록 설계됐다.

경로 간의 거리(Diversity) 측정에는 all-MiniLM-L6-v2 임베딩 모델을 사용한다. [두 경로의 문자열 임베딩을 생성] → [Cosine Distance를 계산] → [0.7 이상의 거리는 1로, 0.4 이하는 가중치를 낮추는 Cosine-annealed 변환을 수행] → [실질적인 의미 차이가 있는 경로만 다양성 점수에 반영]한다. 이는 단순한 단어 교체 수준의 변주를 걸러내기 위함이다.

연구진은 또한 'Distinctiveness(ν)' 지표를 통해 특정 모델이 전체 모델 집단(Population)이 찾아내지 못한 독특한 경로를 얼마나 발견했는지 분석했다. 실험 결과, 현재의 프론티어 모델들도 전체 모델들이 공통적으로 찾아내는 경로를 벗어나는 '독창적인' 연결을 생성하는 데는 여전히 어려움을 겪고 있음이 확인됐다.

한계점

이 벤치마크는 지식 그래프에 명시된 관계에 의존하므로, 그래프에 없는 암묵적 지식이나 최신 정보에 대한 창의적 연결은 평가하기 어렵다. 또한 LLM-as-a-judge를 통한 특이성 및 사실성 평가 과정에서 모델의 지식 공백으로 인한 오판 가능성이 존재한다.

실무 활용

이 벤치마크는 AI 에이전트가 단순 검색을 넘어 새로운 가설을 세우거나 아이디어를 브레인스토밍하는 능력을 정밀하게 테스트하는 도구로 활용될 수 있다.

과학적 가설 생성 모델의 창의적 추론 능력 평가
시나리오 및 콘텐츠 제작 보조 AI의 아이디어 다양성 측정
지식 그래프 기반 추론 엔진의 비자명한 관계 추출 성능 벤치마킹
RAG 시스템이 단순 문서 인출을 넘어 문서 간 연결 고리를 찾는 능력 테스트

코드 공개 여부: 공개

코드 저장소 보기

키워드

Associative Creativity(연상적 창의성)Knowledge Graph(지식 그래프)LLM Benchmark(LLM 벤치마크)Specificity(특이성)Creative Utility(창의적 효용성)Parametric Knowledge(파라미터 지식)