직교성 가설 이후: 덕 윤리적 대리인과 AI 정렬

핵심 요약

기존 AI 정렬 연구의 핵심인 직교성 가설을 넘어선 새로운 대리인 모델이 필요합니다. 합리적 행위자가 최종 목표를 향해 행동한다는 통념과 달리, 인간의 합리성은 특정 실천 네트워크 내에서 행동을 정렬하는 과정에서 발생합니다. AI가 인간과 진정으로 협력하기 위해서는 이러한 실천 기반 논리를 공유하는 설계가 필수적입니다.

배경

AI 정렬(Alignment) 기본 개념, 직교성 가설(Orthogonality Thesis)에 대한 이해

대상 독자

AI 정렬 및 안전성 연구자

의미 / 영향

AI가 인간의 가치를 단순히 모방하는 수준을 넘어, 인간의 행동 양식과 논리 구조를 근본적으로 공유하게 함으로써 더 안전하고 협력적인 시스템 구축이 가능해집니다.

섹션별 상세

합리적인 인간은 단순히 최종 목표를 달성하기 위해 행동하지 않습니다. 대신 행동, 성향, 평가 기준, 자원이 얽힌 실천의 네트워크 내에서 자신의 행동을 조정합니다. 이러한 관점은 AI가 고정된 목표를 최적화해야 한다는 기존의 정렬 프레임워크에 근본적인 의문을 제기합니다.

AI 대리인의 의사결정 과정은 인간이 행동을 성찰하고 실행할 때 사용하는 실천 기반 논리와 동일한 구조를 공유해야 합니다. 이는 AI가 인간의 가치를 단순히 데이터로 학습하는 것을 넘어, 인간의 행위 주체성 구조 자체를 이해하고 동참해야 함을 의미합니다.

실무 Takeaway

AI 정렬 설계 시 고정된 목적 함수 최적화보다 인간의 사회적 실천 체계와의 정렬을 우선 고려해야 합니다.
AI 대리인의 추론 구조를 인간의 실천적 지혜와 유사한 형태의 네트워크로 구축하는 연구가 필요합니다.

언급된 리소스

논문After Orthogonality: Virtue-Ethical Agency and AI Alignment