기존 LLM 필터를 모두 통과하는 새로운 공격 클래스: Postural Manipulation

합의점 vs 논쟁점

합의점

LLM은 컨텍스트 윈도우 내의 모든 정보를 바탕으로 매 단계마다 자신의 방향성을 재구성한다.
해석 방식을 제안하는 언어는 단순한 사실 보고 언어보다 모델의 추론 상태에 더 큰 영향을 미친다.

논쟁점

해당 현상의 구체적인 내부 메커니즘(어텐션 가중치 변화 등)은 아직 블랙박스 관찰 단계에 머물러 있어 추가적인 내부 접근 연구가 필요하다.

실용적 조언

에이전트 파이프라인 설계 시 '자세(Posture)'가 전파되는지 확인하기 위해 요약 전후의 방향성 일관성을 테스트해야 한다.
기존의 시그니처 기반 필터 대신 모델의 추론 상태 변화를 감지할 수 있는 새로운 보안 접근법을 고려해야 한다.

섹션별 상세

Postural Manipulation은 기존의 페이로드나 주입 시그니처 없이도 LLM의 출력을 크게 변화시키는 새로운 공격 클래스이다. 특정 작업을 지시하기 전에 '해석적 입장'을 설정하는 언어를 삽입하여, 모델이 이후의 데이터를 해당 관점에서만 처리하도록 유도한다. 실험 결과, 동일한 길이와 의미적 유사성을 가진 대조군 텍스트보다 훨씬 더 큰 방향성 전환이 관찰되었다. 이는 단순한 문맥 민감도를 넘어선 모델의 추론 상태 변화를 의미한다.

이 공격 기법은 4개의 주요 프론티어 모델에서 이진 결정(Binary Decision)을 뒤집는 수준의 강력한 영향력을 보여주었다. 작성자는 잠긴 채점 루브릭(Locked Scoring Rubric)을 사용하여 모델의 반응을 객관적으로 측정하고 문서화했다. 모델은 매 단계마다 컨텍스트 윈도우에 있는 모든 정보를 바탕으로 자신의 방향성을 재구성한다. 사실을 보고하는 언어보다 해석 방식을 제안하는 언어가 모델의 추론 상태에 더 깊이 흡수되는 메커니즘이 확인되었다.

조작된 '자세'는 에이전트 파이프라인을 통해 다른 모델로 전파되는 특성을 가진다. 요약 과정에서 조작 문구가 살아남는 '프라이머 존재 핸드오프'와 문구가 사라져도 방향성이 유지되는 '프라이머 부재 방향성 유지'의 두 가지 전파 조건이 확인되었다. 에이전트 A에서 설치된 자세가 에이전트 C에 이르러서는 독립적인 전문가의 판단처럼 굳어지는 현상이 관찰되었다. 이는 다중 에이전트 시스템의 보안 취약점을 시사한다.

연구 방법론은 소비자 인터페이스를 통한 블랙박스 관찰 방식을 채택했으며, 모델 내부 로직에 대한 직접적인 접근은 없었다. 작성자는 이 현상을 정확히 규명하기 위해 어텐션 분석(Attention Analysis)과 로짓 수준(Logit-level)의 연구가 필요하다고 밝혔다. 현재 이 연구 결과는 주요 AI 연구소와 CERT/CC에 사전 공개되었으며, 재현을 위한 데이터셋과 데모가 공개된 상태이다.

용어 해설

자세 조작(Postural Manipulation): — LLM이 특정 작업을 수행하기 전에 해석적 입장을 취하도록 유도하는 새로운 공격 클래스이다. 페이로드나 주입 시그니처 없이 언어의 뉘앙스만으로 모델의 추론 상태를 변화시켜 기존 보안 필터를 우회한다. 모델의 최종 판단을 공격자가 의도한 방향으로 강력하게 유도할 수 있어 보안상 매우 중요하다.
에이전트 파이프라인(Agentic Pipeline): — 여러 AI 에이전트가 순차적으로 작업을 수행하거나 데이터를 주고받는 시스템 구조이다. 각 단계에서 데이터가 처리되고 요약되는 과정이 포함되지만, 특정 에이전트에서 발생한 조작된 '자세'가 후속 에이전트로 전파될 수 있다. 복합적인 AI 시스템의 신뢰성과 보안을 평가할 때 핵심적인 고려 요소가 된다.
해석적 입장(Interpretive Stance): — 모델이 입력을 처리할 때 취하는 특정한 관점이나 태도를 의미한다. 사실 관계를 나열하는 텍스트와 달리, 이후에 올 정보를 어떻게 해석해야 하는지 지시하는 언어는 모델의 추론 상태에 더 강력한 영향을 미친다. 이를 통해 모델이 증거를 객관적으로 평가하기보다 미리 설정된 입장에서 사고하게 만든다.

언급된 리소스

논문Research on Postural Manipulation

DemoPostural Manipulation Demos

GitHubOWASP GitHub Issue

기존 LLM 필터를 모두 통과하는 새로운 공격 클래스: Postural Manipulation

합의점 vs 논쟁점

합의점

논쟁점

실용적 조언

섹션별 상세

용어 해설

언급된 리소스

관련 토론

댓글

관련 기사

AI Now 연구: 방어용 에이전트를 역이용해 사용자 시스템을 침해하는 프롬프트 인젝션 취약점

대부분의 AI 에이전트가 5초 만에 시스템 프롬프트를 유출하는 취약성 보고

신뢰할 수 없는 LLM 프록시가 코딩 에이전트에 미치는 실험적 위험 분석

관련 토론

댓글

관련 기사

AI Now 연구: 방어용 에이전트를 역이용해 사용자 시스템을 침해하는 프롬프트 인젝션 취약점

대부분의 AI 에이전트가 5초 만에 시스템 프롬프트를 유출하는 취약성 보고

신뢰할 수 없는 LLM 프록시가 코딩 에이전트에 미치는 실험적 위험 분석