TL;DR
Inter-1라는 멀티모달 모델이 무음 영상에서 존재하지 않는 인용구를 반복 생성하는 현상이 관찰되었고, 원문은 입력(무음 영상)과 시스템 프롬프트(worked example)·모델 내부 priors의 상호작용을 핵심 원인으로 규정한다. 전수 검색에서 해당 문구의 학습 데이터 출처는 확인되지 않았고, 최종적으로 GEPA로 배포된 시스템 프롬프트의 예시 문장이 출력의 직접적 기원이었음이 밝혀졌다. 프롬프트 예시를 바꾸면 모델의 발화도 동일하게 치환되었고(예: Friday→Tuesday), 반대로 같은 프롬프트를 다른 모델에 넣으면 위조율이 거의 0%에 가까운 반면 post-training된 Inter-1만 비교적 높은 위조율(약 12%)을 보였다. 이 실험은 프롬프트가 '대본'을 제공하는 한편 post-training priors가 모델을 '무언가를 말하게' 하는 두 겹의 원인이 있음을 보여준다. 프롬프트 예시 삭제는 특정 문구의 반복을 멈추지만 모델이 다른 대사를 창작하는 경향은 남아 있으므로, 실무적으로는 프롬프트 감사·무음 입력 스트레스 테스트·모델별 ablation을 결합한 진단과 보정 루틴이 필요하다는 결론이 도출된다. 관련 상세 로그·포레스트 플롯과 재현 데이터는 원문 블로그에 공개되어 있다.
커뮤니티 반응
대체로 높은 관심을 보이며 많은 사용자가 프롬프트 누출 사례·유사한 hallucination 경험을 공유했고, 일부는 post-training priors가 문제의 핵심일 수 있다고 의견을 모았다. 토론에서는 프롬프트 감사지·무음 테스트·모델별 ablation을 실무 표준으로 삼아야 한다는 제안이 다수 제기됐다.
주요 논점
프롬프트 예시가 출력 누출의 직접적 원인이라는 점에 다수의 댓글이 동의하며, 실험에서 예시를 바꾸자 출력도 동일하게 바뀐 점을 근거로 제시했다.
post-training된 언어적 priors가 모델을 '무언가를 말하도록' 강제하는 두 번째 원인으로 작용한다는 주장에는 ablation 결과(다른 체크포인트·모델의 낮은 위조율 vs 후속 훈련된 모델의 높은 위조율)가 뒷받침된다고 평가되었다.
프롬프트 제거가 특정 문구를 멈추게 하나 전체적 발화 경향을 제거하지 못한다는 점에서 단일 교정책만으로는 충분하지 않다는 의견이 일부에서 제기되었다.
합의점 vs 논쟁점
합의점
- 프롬프트 내 'worked example'이나 출력 샘플이 모델 출력에 직접적인 영향을 미친다.
- 모델별·프롬프트별 ablation 실험을 통해 원인(프롬프트 대 모델 내부 priors)을 분리해야 한다.
논쟁점
- 프롬프트 제거만으로 문제를 해결할 수 있는지 여부(일부는 근본적 해결책이라 주장, 다수는 불충분하다고 반박).
- post-training 과정이 어느 정도까지 문제를 야기하는지와 그 보정 방법(재학습 vs 디코더 레귤레이션 vs 후처리)에서 의견이 갈림.
실용적 조언
- 시스템 프롬프트에서 실제 예시(worked example)를 제거하거나 생산 환경과 분리해 배포 전 프롬프트 감사를 수행할 것.
- 동일 프롬프트를 여러 모델 체크포인트에 돌려 프롬프트-모델 상호작용을 평가하고, 무음 또는 빈 입력에 대한 스트레스 테스트를 도입할 것.
- 프롬프트 교체·모델 교체 ablation을 정기적으로 수행해 프롬프트 영향도와 post-training priors의 상대적 기여도를 계량화할 것.
섹션별 상세
실무 Takeaway
- 시스템 프롬프트에 포함된 출력 예시는 입력 컨텍스트로 작동해 모델의 생성 확률을 직접 편향하므로 민감한 예시는 배포 전 제거하거나 격리해야 한다.
- 같은 프롬프트를 여러 모델에 돌려 비교하면 프롬프트 영향과 모델 내부 priors를 분리할 수 있으므로 ablation(프롬프트 교체·모델 교체) 실험을 필수로 수행해야 한다.
- 프롬프트 예시 삭제만으로 완전 해결이 되지 않으며, 무음·빈 입력에 대한 스트레스 테스트로 post-training된 '발화 충동'을 점검하고 보정 루틴을 마련해야 한다.
언급된 도구
프롬프트 버전 관리 및 최적화·배포 도구
omni-modal social-signal 모델(사건의 주체 모델)
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.