alignment
AI의 출력 결과가 개발자의 의도나 사회적 규범, 윤리적 기준에 부합하도록 조정하는 과정이다. 본문에서는 정치적 제약과 모델의 논리 사이의 충돌을 다룬다.
OpenAI의 강력한 검열도 뚫었다? 새로운 ARA 기법의 등장
AI가 스스로 영혼을 죽인다? 커뮤니티가 명명한 수이사이드 잉글리시
정부의 무제한 사용 요구, 클로드의 'AI 헌법'을 파괴할까?
AI가 공감을 흉내 내는 대신, 관계의 안정성을 최적 전략으로 학습한다면?
소리 지르면 뚫리는 AI 보안? DystopiaBench로 증명된 RLHF의 한계