CreativityBench: 어포던스 기반 도구 재목적화를 통한 에이전트의 창의적 추론 평가

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

최신 LLM들이 논리적 추론과 도구 사용 능력에서 큰 진전을 보였으나, 주변 사물을 원래 용도가 아닌 새로운 방식으로 활용하는 창의적 문제 해결 능력은 여전히 부족함을 밝혀냈습니다. 이 논문은 사물의 물리적 속성을 기반으로 기능을 유추하는 '어포던스' 개념을 도입하여, 미래의 자율 에이전트가 예기치 못한 상황에서 얼마나 유연하게 대처할 수 있는지를 평가하는 새로운 기준을 제시합니다.

왜 중요한가

최신 LLM들이 논리적 추론과 도구 사용 능력에서 큰 진전을 보였으나, 주변 사물을 원래 용도가 아닌 새로운 방식으로 활용하는 창의적 문제 해결 능력은 여전히 부족함을 밝혀냈습니다. 이 논문은 사물의 물리적 속성을 기반으로 기능을 유추하는 '어포던스' 개념을 도입하여, 미래의 자율 에이전트가 예기치 못한 상황에서 얼마나 유연하게 대처할 수 있는지를 평가하는 새로운 기준을 제시합니다.

핵심 기여

CreativityBench 벤치마크 구축

사물의 물리적 속성과 상태를 기반으로 비전형적인 도구 활용 능력을 측정하는 14,000개의 물리적 접지 과제를 포함한 대규모 평가 프레임워크를 설계했다.

대규모 어포던스 지식 베이스(KB) 생성

4,000개의 엔티티와 150,000개 이상의 어포던스 주석을 포함하며, 객체-부품-속성-실행 가능 기능을 체계적으로 연결한 구조화된 지식 베이스를 구축했다.

LLM의 창의적 추론 한계 규명

10종의 최신 LLM을 평가한 결과, 모델들이 적절한 객체는 선택하지만 구체적인 부품과 물리적 메커니즘을 식별하는 데 실패하여 성능이 60% 이상 하락함을 확인했다.

추론 전략의 유효성 검증

Chain-of-Thought(CoT)나 모델 스케일링이 일반적인 논리 추론에는 도움이 되지만, 물리적 어포던스 발견과 같은 창의적 영역에서는 개선 효과가 제한적임을 입증했다.

핵심 아이디어 이해하기

기존 LLM 평가는 주로 주어진 도구를 정해진 용도대로 사용하는 '실용적 지능'에 집중해왔다. 하지만 인간의 지능은 가위가 없을 때 열쇠의 날카로운 끝부분을 이용해 박스를 테이핑을 끊는 것과 같이, 사물의 물리적 속성(Embedding된 개념이 아닌 실제 강성, 형태 등)을 파악해 새로운 용도를 찾아내는 '창의적 지능'을 포함한다.

이 논문은 LLM이 사물을 단순한 '이름'이 아닌 '부품(Part)'과 '속성(Attribute)'의 집합으로 이해하는지 테스트한다. 예를 들어 열쇠를 '문 여는 도구'라는 고정된 개념에서 벗어나 '금속 재질의 단단하고 뾰족한 끝을 가진 물체'라는 물리적 속성으로 분해하고, 이 속성이 '자르기'나 '지렛대'라는 기능(Affordance)을 유발할 수 있음을 추론하게 한다.

실험 결과, 모델들은 '열쇠'라는 객체 수준의 선택은 잘 수행하지만, 왜 열쇠가 가위 대신 쓰일 수 있는지에 대한 구체적인 물리적 근거를 연결하는 데 어려움을 겪는다. 이는 현재의 LLM이 언어적 연상에 의존할 뿐, 실제 물리 세계의 인과 관계와 사물의 구조적 특징을 깊이 있게 이해하지 못하고 있음을 시사한다.

방법론

어포던스 지식 베이스(KB) 구축을 위해 상향식(Top-down) 주석 파이프라인을 채택했다. 먼저 8가지 가정 환경에서 4,000개의 객체를 샘플링하고, 각 객체를 겹치지 않는 부품(Part) 단위로 분해했다. 각 부품에 대해 기하학적 형상, 재질, 강성 등 고정된 '물리적 속성'과 가용성, 온도 등 가변적인 '상태 속성'을 정의했다. [객체 → 부품 → 속성 → 어포던스] 순으로 계층 구조를 생성하여 물리적 근거를 확보했다.

벤치마크 과제는 역공학(Reverse-engineering) 방식으로 생성했다. 특정 어포던스를 먼저 선택한 후, 해당 기능을 수행해야만 해결 가능한 시나리오를 합성했다. 이 과정에서 '금색 어포던스(정답)'를 검증하기 위해 동일 객체 내 다른 부품과의 비교(Intra-entity) 및 다른 객체와의 비교(Inter-entity)를 거쳐 정답의 유일성을 확보했다. 또한, 정답과 유사한 속성을 가진 방해 요소(Distractor)를 배치하여 모델이 단순한 단어 매칭이 아닌 정교한 물리 추론을 수행하도록 설계했다.

주요 결과

평가 결과, 모델의 엔티티 선택 정확도(Entity Correct Rate)는 평균 0.5149였으나, 정확한 부품과 메커니즘까지 맞추는 골드 정확도(Gold Correct Rate)는 0.1910으로 급락했다. 이는 모델이 '무엇'을 쓸지는 알아도 '어떻게' 쓸지는 모른다는 것을 의미한다. 특히 Qwen3-32B가 골드 정확도 0.2588로 가장 우수한 성적을 거두며 GPT-5.2(0.1819)를 앞서는 등, 일반적인 추론 성능과 창의적 도구 활용 능력이 반드시 비례하지 않음을 보여주었다.

모델 크기가 커져도 창의적 어포던스 발견 성능은 빠르게 포화(Saturation)되는 경향을 보였다. 또한, Chain-of-Thought(CoT) 전략은 물리적 접지(Physical Grounding) 점수를 소폭 향상시켰으나, 오히려 창의적 추론(Creative Reasoning) 점수를 떨어뜨리는 경우도 발생했다. 이는 구조화된 사고 방식이 때로는 고정관념을 강화하여 발산적 사고를 저해할 수 있음을 시사한다.

기술 상세

CreativityBench는 사물의 기능을 '어포던스(Affordance)'라는 개념으로 정형화했다. 어포던스 f는 (action, Use Condition, Environment Condition, Recipient Condition)의 튜플로 정의된다. [입력: 부품의 물리/상태 속성] → [연산: 조건 충족 여부 판단 및 기능 유추] → [출력: 실행 가능한 액션]의 과정을 거친다. 특히 '비전형적 활용'을 측정하기 위해 어포던스의 전형성(Typicality) 레벨을 1~5단계로 구분하여 난이도를 조절했다.

실험 분석에서는 '물리적 무효성(Physical Invalidity)'이 모델 실패의 가장 큰 원인(약 81.5%)임을 밝혀냈다. 이는 모델이 사물의 기하학적 구조나 재질이 목표 동작에 적합하지 않음에도 불구하고 기능을 과도하게 부여(Over-attribution)하는 경향이 있음을 의미한다. 연구진은 이를 해결하기 위해 텍스트 기반 추론과 물리적 상상력(Physical Imagination) 모듈이 결합된 이중 추론 아키텍처의 필요성을 제안한다.

한계점

현재 벤치마크는 정적인 텍스트 설명에 기반하고 있어, 실제 시각적 정보나 물리적 상호작용을 통한 피드백 루프를 완전히 대체하기 어렵습니다. 또한, 가정 환경이라는 특정 도메인에 국한되어 있어 더 넓은 범위의 창의적 문제 해결을 평가하는 데 한계가 있을 수 있습니다.

실무 활용

가정용 서비스 로봇이나 산업용 에이전트가 정해진 도구가 없는 상황에서 주변 사물을 활용해 임무를 완수해야 하는 시나리오에 직접적으로 적용될 수 있습니다.

재난 구조 현장에서 주변 폐기물을 지렛대나 지지대로 재활용하는 에이전트 설계
가정용 로봇이 전용 오프너 없이 숟가락 등을 이용해 병뚜껑을 여는 등의 유연한 가사 보조
복잡한 환경에서 물리적 제약 조건을 고려한 에이전트의 장기 계획(Long-horizon planning) 최적화

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)Affordance(어포던스)Creative Reasoning(창의적 추론)Tool Repurposing(도구 재목적화)Physical Grounding(물리적 접지)Benchmark(벤치마크)