대형 언어 모델은 얼마나 제어 가능한가? 행동 세분화에 따른 통합 평가

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM이 사회적으로 민감한 영역에 도입되면서 모델의 행동을 의도대로 제어하는 기술이 중요해졌다. 이 논문은 추상적 의도부터 구체적 문구 제약까지 계층적으로 평가하는 SteerEval 벤치마크를 통해 현재 제어 기법들의 한계를 명확히 규명하고 향후 연구 방향을 제시한다.

왜 중요한가

핵심 기여

SteerEval 계층적 벤치마크 구축

언어 특징, 감정, 성격의 3개 도메인에 대해 L1(무엇을 표현할지)부터 L3(구체적 제약)까지 세분화된 평가 체계를 설계하여 LLM의 제어 가능성을 정밀하게 측정한다.

자동화된 데이터 합성 파이프라인 개발

LLM을 활용해 계층적 개념과 질문-답변 쌍을 생성하고 수동 검증을 거쳐 7,560개의 고품질 데이터셋을 확보하는 다단계 합성 공정을 제안한다.

제어 기법별 성능 저하 현상 규명

프롬프트 기반 및 활성화 기반 제어 기법을 비교 분석하여, 제약 조건이 구체화될수록(L1에서 L3로 이동) 제어 성능과 일반적 생성 능력 사이의 트레이드오프가 심화됨을 입증한다.

활성화 기반 제어의 도메인 의존성 확인

특정 레이어의 활성화를 수정하는 방식이 성격이나 감정 제어에는 효과적일 수 있으나, 구체적인 언어적 제약(L3)을 충족하는 데는 한계가 있음을 실험적으로 확인했다.

핵심 아이디어 이해하기

LLM은 입력된 텍스트를 고차원 공간의 벡터(Embedding)로 변환하고, Attention Mechanism을 통해 단어 간의 관계를 파악하여 다음 단어를 예측한다. 기존의 제어 방식은 단순히 프롬프트를 추가하거나 특정 레이어의 활성화 값을 수정하는 방식이었으나, 이는 모델이 내부적으로 개념을 어떻게 계층화하여 처리하는지 고려하지 못했다는 한계가 있다.

이 논문은 시각 처리 이론인 Marr의 3단계 분석을 차용하여 LLM의 행동 제어를 Computational(의도), Algorithmic(전략), Implementational(구체적 구현)의 3단계로 정의한다. 이는 모델이 '친절하게 말하라'는 추상적 지시를 받았을 때, 이를 어떤 말투로 구현할지 결정하고 최종적으로 어떤 단어를 선택할지에 이르는 과정을 계층적으로 구조화한 것이다.

실험 결과 LLM은 추상적인 의도(L1)는 잘 따르지만, 특정 단어를 반드시 포함해야 하는 구체적 제약(L3)으로 갈수록 지시 이행 능력이 급격히 떨어진다. 이는 모델 내부의 고차원적 개념 표현과 저차원적 텍스트 생성 사이의 연결 고리가 아직 불완전하며, 현재의 스티어링 기법들이 모델의 깊은 내부 계층까지 정밀하게 제어하지 못하고 있음을 의미한다.

방법론

SteerEval은 언어 특징, 감정, 성격의 3개 도메인을 설정하고 각 도메인 내에서 8개의 독립적인 개념을 정의한다. 각 개념은 L1(의도), L2(전략), L3(구체적 제약)의 3단계 세분성(Granularity)으로 구성된다. 데이터 생성은 LLM이 도메인 설명을 생성하고 계층적 개념을 합성한 뒤, 개념별 질문과 답변 쌍(Paired samples)을 생성하는 3단계 자동화 파이프라인을 따른다.

제어 기법은 프롬프트 기반(0-shot, 3-shot)과 활성화 기반(Activation-based)으로 구분하여 평가한다. 활성화 기반 기법은 모델 내부의 중간 활성화 값에 특정 개념 벡터를 더해 출력을 조정하는 방식이다. 평가 지표로는 개념 점수(Concept Score), 지시 이행 점수(Instruction Score), 유창성 점수(Fluency Score)를 산출한다.

종합 성능 평가를 위해 세 지표의 조화 평균(Harmonic Mean)을 사용한다. [개념 점수(CS), 지시 이행 점수(IS), 유창성 점수(FS) 세 값을 입력으로] → [3 / (1/CS + 1/IS + 1/FS) 연산을 수행해] → [단일 수치 결과를 얻고] → [이 값이 높을수록 세 지표가 균형 있게 우수함을 의미]한다. 조화 평균은 하나라도 낮은 점수가 있으면 전체 점수를 크게 낮추므로 제어의 안정성을 엄격하게 평가할 수 있다.

주요 결과

프롬프트 기반 제어(Prompt-based steering)가 활성화 기반 제어보다 전반적으로 우수한 성능을 보였다. 특히 L2와 L3 수준의 세밀한 제어에서 프롬프트 방식이 더 안정적인 조화 평균(HM) 점수를 유지했다. Gemma-2-9B 모델에서 프롬프트 방식은 전 계층에서 3.0 이상의 HM 점수를 기록했다.

활성화 기반 제어 기법(PCA, DiffMean, RePS)은 L1(추상적 의도)에서는 프롬프트 방식과 대등한 성능을 보이기도 했으나, L3(구체적 제약)에서는 성능이 급격히 하락했다. Gemma-2-9B 기준 활성화 기반 방식의 HM 점수는 L1에서 약 2.9였으나 L3에서는 1.7 이하로 떨어지는 양상을 보였다.

제어 강도(Steering strength)를 높이면 개념 점수는 상승하지만, 지시 이행 능력과 유창성이 훼손되는 트레이드오프가 발생했다. 특히 L2와 L3 수준에서는 제어 강도를 높여도 개념 점수 상승폭이 작고 일반적 생성 능력만 크게 저하되는 현상이 관찰되었다.

기술 상세

SteerEval은 Marr의 3단계 분석 모델을 행동 제어에 적용하여 L1(Computational), L2(Algorithmic), L3(Implementational)로 계층화했다. L1은 고수준의 행동 목표를, L2는 표현 전략을, L3는 텍스트 수준의 구체적 제약 조건을 정의한다. 이는 모델의 내부 계층 구조가 추상적 개념과 구체적 구현을 분리하여 처리하고 있다는 가설에 기반한다.

활성화 기반 제어에서는 중간 레이어(Gemma-2-9B의 경우 20번째 레이어 등)의 활성화 벡터에 개념 벡터를 주입한다. RePS와 같은 학습 기반 방식은 선호도 데이터를 통해 제어 벡터를 직접 학습하여 PCA 등 비학습 방식보다 높은 성능을 기록했으나, 여전히 L3 수준의 세밀한 제어에는 한계를 보였다.

프롬프트 방식은 문맥 정보를 통해 모델의 전체 계층에 영향을 주지만, 활성화 주입 방식은 특정 레이어의 정보만 수정하므로 세밀한 텍스트 제약(L3)을 충족하기에는 정보량이 부족할 수 있음을 시사한다. 이는 향후 활성화 기반 제어가 더 낮은 계층(Lower layers)이나 다중 레이어에 걸쳐 작용해야 할 필요성을 뒷받침한다.

한계점

단일 턴(Single-turn) 대화와 단일 개념 제어에 집중되어 있으며, 멀티 턴 대화나 여러 개념이 복합된 상황, 도구 사용(Tool use) 등의 시나리오는 포함하지 않는다. 또한 LLM-as-a-judge 평가 방식의 편향 가능성이 존재한다.

실무 활용

LLM의 성격이나 어조를 미세하게 조정해야 하는 서비스 개발 시, 어떤 제어 기법이 가장 효과적인지 판단하는 가이드라인으로 활용 가능하다. 특히 구체적인 문구 제약이 필요한 경우 활성화 기반 방식보다 프롬프트 방식이 유리함을 시사한다.

고객 상담 챗봇의 브랜드 페르소나(성격) 일관성 유지 및 평가
특정 감정 상태를 유지해야 하는 심리 상담 AI의 안전성 검증
특정 단어 사용을 제한하거나 강제해야 하는 콘텐츠 가이드라인 준수 시스템 구축
새로운 LLM 제어 알고리즘의 계층별 성능 벤치마킹

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM(대형 언어 모델)Controllability(제어 가능성)Steering(스티어링)Benchmark(벤치마크)Activation-based Steering(활성화 기반 스티어링)