핵심 요약
창의성의 핵심 요소는 개념들 사이에 참신하면서도 의미 있는 연결을 이끌어내는 능력인 연상 추론(associative reasoning)입니다. 본 논문에서는 모델의 연상 창의성 역량을 평가하기 위해 설계된 벤치마크인 CREATE를 소개합니다. CREATE는 모델이 자신의 파라미터 지식(parametric knowledge) 내에 있는 개념들을 연결하는 경로 집합을 생성하도록 요구합니다. 이러한 경로는 높은 특이성(specificity, 개념 연결의 독특함과 긴밀함)과 높은 다양성(diversity, 다른 경로와의 차별성)을 가져야 하며, 모델이 강력하고 다양한 경로 집합을 더 많이 생성할수록 더 높은 점수를 받습니다. 이 과업은 매우 방대한 탐색 공간(search space)을 포함하여 가설 생성(hypothesis generation)과 같은 실제 창의적 과업의 요구 사항을 공유하면서도, 객관적인 정답 채점을 통해 상당한 규모의 벤치마크 수집을 가능하게 합니다. 최첨단 프론티어 모델들에 대한 평가 결과, 가장 강력한 모델들이 다른 모델들보다 더 높은 창의적 효용을 달성하는 것으로 나타났으며, 답변의 높은 다중성과 탐색의 복잡성으로 인해 벤치마크 포화(saturation)를 달성하기 어렵다는 점이 확인되었습니다. 또한, 실험 결과는 사고 모델(thinking models)이 높은 토큰 예산을 사용하더라도 본 과업에서 항상 더 효과적인 것은 아님을 보여줍니다. 최근의 창의적 프롬프팅(creative prompting) 접근 방식은 어느 정도의 개선을 가져오지만 그 효과는 제한적이었습니다. CREATE는 모델의 연상 창의성 역량을 향상시키기 위한 새로운 방법론을 개발할 수 있는 샌드박스를 제공합니다.
핵심 기여
연상 창의성 평가를 위한 CREATE 벤치마크 제안
모델의 파라미터 지식 내 개념 간의 독창적이고 의미 있는 연결 경로를 생성하는 능력을 측정하는 새로운 평가 프레임워크를 구축했다.
특이성과 다양성에 기반한 객관적 채점 체계 도입
개념 연결의 독특함(Specificity)과 경로 간의 차별성(Diversity)을 수치화하여, 방대한 탐색 공간에서도 객관적인 창의성 평가가 가능하도록 설계했다.
최첨단 모델 및 사고 모델의 창의적 한계 규명
최신 프론티어 모델들과 사고 모델(Thinking models)을 비교 분석하여, 단순히 추론 시간이 길어진다고 해서 연상 창의성이 비례하여 향상되지 않는다는 점을 밝혔다.
방법론
모델이 주어진 두 개념 사이를 잇는 경로를 생성하도록 하며, 각 경로는 파라미터 지식(Parametric Knowledge)을 활용해야 한다. 평가는 연결의 긴밀함을 나타내는 특이성(Specificity)과 경로 간의 중복을 피하는 다양성(Diversity)을 기준으로 하며, 탐색 공간(Search Space)의 복잡성을 활용해 모델의 생성 능력을 다각도로 측정한다.
주요 결과
최첨단 프론티어 모델들이 일반 모델보다 높은 창의적 효용(Creative Utility)을 보였으나, 답변의 다중성으로 인해 벤치마크 성능이 쉽게 포화되지 않는 특성을 보였다. 특히 사고 모델(Thinking models)은 높은 연산 자원을 투입하더라도 연상 창의성 과업에서 일관된 성능 우위를 점하지 못했으며, 기존의 창의적 프롬프팅 기법들도 제한적인 개선만을 기록했다.
시사점
가설 생성과 같은 고도의 창의적 작업에서 LLM의 잠재력을 평가하는 중요한 지표가 될 것이며, 단순 논리 추론을 넘어선 연상 능력을 강화하는 연구의 기초가 될 것이다. 실무적으로는 아이디어 브레인스토밍이나 복잡한 개념 연결이 필요한 에이전트 설계 시 모델의 창의적 한계를 이해하는 데 도움을 준다.
키워드
섹션별 상세
연상 창의성 평가를 위한 CREATE 벤치마크 제안
특이성과 다양성에 기반한 객관적 채점 체계 도입
최첨단 모델 및 사고 모델의 창의적 한계 규명
AI 요약 · 북마크 · 개인 피드 설정 — 무료