변증법적 정렬을 통한 에이전트의 행위자-관찰자 비대칭성 완화

LLM 에이전트가 역할을 맡을 때 발생하는 인간과 유사한 인지 편향인 행위자-관찰자 비대칭성(AOA)을 최초로 규명했습니다. 실행 에이전트는 외부 탓을 하고 검토 에이전트는 내부 탓을 하는 이 편향은 협업 효율을 저해하며, 이를 해결하는 ReTAS 프레임워크는 에이전트 간의 객관적인 합의 형성을 가능하게 합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

#1Diagram
지각을 한 인간 행위자는 교통 체증(외부)을 탓하지만 관찰자는 게으름(내부)을 탓하는 현상이 AI 에이전트에서도 동일하게 나타남을 보여준다. 실행 에이전트는 서버 지연을, 검토 에이전트는 코드 버그를 실패 원인으로 지목하는 대립 구조를 설명한다.
인간과 에이전트 사이에서 발생하는 행위자-관찰자 비대칭성(AOA)의 거울 효과를 시각화한 다이어그램이다.

핵심 기여

행위자-관찰자 비대칭성(AOA) 현상 규명

LLM 에이전트가 특정 역할을 수행할 때 실패 원인을 행위자(실행자)는 외부 환경 탓으로, 관찰자(검토자)는 에이전트의 내부 결함 탓으로 돌리는 인지 편향이 존재함을 증명했다.

Ambiguous Failure Benchmark(AFB) 구축

실패 원인이 내부와 외부 모두로 해석 가능한 10개 도메인의 모호한 시나리오를 설계하여 모델의 귀인 편향을 정량적으로 측정할 수 있는 벤치마크를 제안했다.

ReTAS 프레임워크 제안

정립(Thesis)-반정립(Antithesis)-종합(Synthesis)의 변증법적 사고 과정을 통해 상충하는 관점을 객관적으로 통합하는 추론 프레임워크를 개발했다.

변증법적 정렬(Dialectical Alignment) 학습

GRPO(Group Relative Policy Optimization) 강화학습을 활용하여 모델이 역할에 매몰되지 않고 증거에 기반하여 일관된 판단을 내리도록 정렬했다.

핵심 아이디어 이해하기

기존의 멀티 에이전트 시스템은 각 에이전트에게 실행자나 검토자 같은 역할을 부여하여 전문성을 높였으나, 이는 동시에 특정 관점에 매몰되는 인지 편향을 유발한다. 예를 들어, Embedding 기반 검색 실패 시 실행 에이전트는 '데이터가 없다'는 외부 요인을 강조하고, 검토 에이전트는 '에이전트가 못 찾았다'는 내부 요인을 강조하며 평행선을 달린다. 이는 인간 심리학의 행위자-관찰자 비대칭성과 일치하는 현상으로, 단순한 프롬프트 개선만으로는 해결되지 않는 모델의 고유한 특성임이 확인됐다.

이 문제를 해결하기 위해 피히테의 변증법적 원리를 도입했다. 먼저 자신의 역할에 따른 본능적 판단(정립)을 내리고, 의도적으로 반대 관점에서 증거를 재검토(반정립)한 뒤, 두 관점을 논리적으로 통합(종합)하여 객관적인 결론에 도달하게 한다. 이는 모델이 단일한 시각에 고착되지 않고 비판적 사고 과정을 거치도록 강제하는 구조다.

결과적으로 ReTAS는 역할이 바뀌어도 동일한 실패 사례에 대해 일관된 원인 분석을 내놓게 된다. 이는 에이전트 간의 불필요한 논쟁을 줄이고, 실제 문제 해결을 위한 정확한 피드백 루프를 형성함으로써 전체 시스템의 신뢰도를 높이는 결과를 가져온다.

방법론

ReTAS의 핵심은 TAS(Thesis-Antithesis-Synthesis) 추론 궤적 생성과 이를 활용한 2단계 학습 공정이다. 첫 번째 단계인 변증법적 합성에서는 교사 모델(GPT-5.1)을 사용하여 역할 기반의 편향된 초기 반응, 증거 기반의 반박, 그리고 최종적인 객관적 합의로 이어지는 고품질 데이터를 생성한다.

두 번째 단계인 변증법적 정렬에서는 GRPO 알고리즘을 사용하여 모델을 강화학습시킨다. 모델이 생성한 여러 출력값 그룹에 대해 보상 함수 R(·) = αR1 + βR2 + γR3를 적용한다. 여기서 R1은 TAS 포맷 준수 여부, R2는 정답 귀인 레이블과의 일치도, R3는 최종 답변의 정확도를 평가한다.

보상 계산 과정을 상세히 풀면 다음과 같다. [모델이 생성한 8개의 추론 궤적을 입력으로] → [각 궤적이 정해진 태그 구조를 지켰는지, 정답과 일치하는 귀인(내부/외부)을 선택했는지, 최종 실행 결과가 정답인지를 비교 연산하여] → [각 항목별 점수를 합산한 최종 Reward 숫자를 산출하고] → [이 숫자가 높은 궤적의 생성 확률을 높이는 방향으로 가중치를 업데이트한다]. 이를 통해 모델은 단순한 텍스트 모방을 넘어 변증법적 사고를 행동 습관으로 내재화한다.

관련 Figure

#2Diagram
사실 확인을 통한 데이터 생성부터 TAS 구조의 추론 궤적 합성, 그리고 GRPO를 이용한 다중 보상 기반 강화학습 과정을 단계별로 명시한다. 모델이 어떻게 편향을 극복하고 객관적 합의에 도달하는지 방법론적 핵심을 요약한다.
ReTAS의 3단계 학습 프로세스(데이터 생성, 변증법적 합성, 변증법적 정렬)를 보여주는 전체 아키텍처 도식이다.

주요 결과

FinQA-TAS와 Spider-TAS 데이터셋에서 실험한 결과, ReTAS는 기존 SOTA 모델들을 압도하는 성능을 보였다. 특히 귀인 정확도(Acc) 면에서 Qwen3-30B-A3B(52.9%) 대비 ReTAS(71.2%)는 4B라는 작은 파라미터 수로도 훨씬 높은 성능을 기록했다. 역할 전환 시 판단이 뒤집히는 비율을 측정하는 Flip 스코어 역시 기존 모델들이 20% 이상을 기록한 반면 ReTAS는 12.4%로 크게 낮아졌다.

Ablation Study를 통해 GRPO 강화학습의 중요성이 입증됐다. 보상 함수에서 귀인 일치 보상(R2)을 제거할 경우 V-AOA(편향 지표)가 5.4에서 16.8로 세 배 이상 급증했다. 이는 단순히 정답을 맞히는 것과 역할 편향을 극복하는 것이 별개의 문제이며, 다중 목적 최적화가 필수적임을 시사한다.

동적 협상 시나리오인 Sales Arena 실험에서도 ReTAS는 가장 높은 총 이익($168)과 가장 적은 협상 턴 수(4.81)를 기록했다. 이는 변증법적 정렬이 정적인 벤치마크를 넘어 실제 에이전트 간 상호작용에서도 효율적인 전략 수립과 갈등 해결에 기여함을 보여준다.

관련 Figure

#5Chart
증거의 개수가 많아질수록 대부분의 모델 성능이 급격히 하락하지만, ReTAS(빨간색 선)는 복잡한 상황에서도 가장 높은 정확도와 견고함을 유지함을 보여준다. 특히 32B 모델보다도 4B 크기의 ReTAS가 더 우수한 성능을 보이는 구간이 확인된다.
증거 복잡도에 따른 모델별 귀인 정확도 변화를 나타낸 그래프이다.

기술 상세

ReTAS는 Qwen3-4B-Instruct-2507을 백본으로 사용하며, SFT(Supervised Fine-Tuning)와 GRPO 기반 강화학습을 결합한 하이브리드 학습 아키텍처를 가진다. TAS 프레임워크는 단순한 CoT와 달리 '오답 가능성이 있는 초기 반응'을 명시적으로 포함하여 모델이 스스로의 편향을 인지하고 수정하는 과정을 학습하게 한다.

수학적으로는 귀인 편향을 정량화하기 위해 V-AOA(Vanilla AOA) 지표를 정의했다. 이는 행위자일 때는 외부 탓을 하고 관찰자일 때는 내부 탓을 하는 불일치 사례의 비율을 의미한다. ReTAS는 이 지표를 최소화하도록 설계된 보상 체계를 통해 역할 독립적인(Perspective-invariant) 추론 능력을 확보한다.

학습 시에는 NVIDIA H200 GPU 2장을 활용했으며, SFT 단계는 에폭당 15분, GRPO 단계는 약 9시간이 소요되었다. 이는 모델의 크기를 키우는 것보다 추론 구조의 정렬이 인지 편향 해결에 더 효율적임을 시사하는 결과다.

한계점

본 연구는 FinQA와 Spider 같은 진단용 테스트베드에 국한되어 분석을 진행했다. 실제 복잡한 환경에서 발생하는 장기 계획 수립이나 창의적 생성 시나리오에서의 주관적 귀인 편향에 대해서는 추가적인 탐구가 필요하다. 또한 사용된 데이터가 합성 데이터에 기반하고 있어 실제 도메인 데이터에서의 검증이 더 요구된다.

실무 활용

멀티 에이전트 기반의 워크플로우 자동화나 코드 리뷰 시스템에서 에이전트 간의 불필요한 책임 공방을 줄이고 정확한 오류 수정을 가능하게 한다.

에이전트 기반 자동 코드 리뷰 시스템에서 버그 원인의 객관적 판별
RAG 시스템에서 실패 원인이 데이터 부족인지 검색 로직 오류인지 진단
자율 협상 에이전트의 전략 수립 및 갈등 조정 프로세스 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

AOA(행위자-관찰자 비대칭성)Multi-Agent(멀티 에이전트)Dialectical Alignment(변증법적 정렬)Cognitive Bias(인지 편향)GRPO(그룹 상대 정책 최적화)

변증법적 정렬을 통한 에이전트의 행위자-관찰자 비대칭성 완화

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

관련 Figure

핵심 기여

행위자-관찰자 비대칭성(AOA) 현상 규명

Ambiguous Failure Benchmark(AFB) 구축

ReTAS 프레임워크 제안

정립(Thesis)-반정립(Antithesis)-종합(Synthesis)의 변증법적 사고 과정을 통해 상충하는 관점을 객관적으로 통합하는 추론 프레임워크를 개발했다.

변증법적 정렬(Dialectical Alignment) 학습

GRPO(Group Relative Policy Optimization) 강화학습을 활용하여 모델이 역할에 매몰되지 않고 증거에 기반하여 일관된 판단을 내리도록 정렬했다.

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

멀티 에이전트 기반의 워크플로우 자동화나 코드 리뷰 시스템에서 에이전트 간의 불필요한 책임 공방을 줄이고 정확한 오류 수정을 가능하게 한다.

에이전트 기반 자동 코드 리뷰 시스템에서 버그 원인의 객관적 판별
RAG 시스템에서 실패 원인이 데이터 부족인지 검색 로직 오류인지 진단
자율 협상 에이전트의 전략 수립 및 갈등 조정 프로세스 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

AOA(행위자-관찰자 비대칭성)Multi-Agent(멀티 에이전트)Dialectical Alignment(변증법적 정렬)Cognitive Bias(인지 편향)GRPO(그룹 상대 정책 최적화)

변증법적 정렬을 통한 에이전트의 행위자-관찰자 비대칭성 완화

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

변증법적 정렬을 통한 에이전트의 행위자-관찰자 비대칭성 완화

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드