특정 문장 부호와 은유를 금지하기 위한 고도로 복잡한 사전 채팅 프롬프트 공유

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM이 특정 문장 부호(Em Dash)와 특정 은유적 표현을 사용하지 못하도록 정규표현식과 토큰 치환 로직을 결합한 복잡한 시스템 프롬프트를 구현했다.

배경

작성자는 LLM이 문장에서 엠 대시(—)를 과도하게 사용하거나 특정 은유적 표현을 쓰는 것을 방지하기 위해 일주일간 시도한 끝에 완성한 복잡한 프롬프트 로직을 공유했다.

의미 / 영향

이 토론은 프롬프트 엔지니어링이 단순한 자연어 지시를 넘어 정규표현식, 조건문, 루프와 같은 프로그래밍적 구조를 프롬프트 내에 이식하는 방향으로 고도화될 수 있음을 보여준다. 특히 모델의 미세한 출력 특성을 제어하기 위해 토큰 레벨의 조작과 엄격한 검증 로직이 실무적인 해결책으로 제시되었다.

커뮤니티 반응

작성자가 공유한 프롬프트의 복잡성과 독창성에 대해 놀라워하는 반응이며, 구체적인 로직 작동 방식에 대해 질문을 던지는 분위기입니다.

주요 논점

01찬성다수

모델의 특정 출력 습관을 고치기 위해 이러한 엄격한 로직 기반 프롬프트가 필요하다는 입장이다.

합의점 vs 논쟁점

합의점

LLM이 특정 문장 부호나 말투를 고집하는 경향이 있으며 이를 제어하기 매우 어렵다는 점에 동의한다.

논쟁점

이정도로 복잡한 프롬프트가 실제 추론 비용이나 토큰 효율성 측면에서 실용적인지에 대한 의문이 있을 수 있다.

실용적 조언

모델이 특정 문자를 자꾸 사용한다면 유니코드 포인트(\u2010-\u2015 등)를 직접 명시하여 금지 패턴에 넣는 것이 효과적이다.
단순 금지보다는 다른 토큰으로 강제 매핑하는 테이블을 프롬프트에 포함시켜 출력을 유도하라.

언급된 도구

HG_STT중립

프롬프트 내에서 상태나 설정을 제어하기 위한 사용자 정의 변수로 추정됨

섹션별 상세

작성자는 LLM의 출력에서 엠 대시와 특정 단어 패턴을 완전히 제거하기 위해 정규표현식을 활용한 필터링 시스템을 구축했다. BAD 변수에 유니코드 범위를 지정하여 엠 대시(—)를 포함한 다양한 특수 기호를 정의하고, GLOBAL_CHECK 함수를 통해 토큰이 이 범위에 해당하면 출력을 중단하도록 설계했다. 이는 단순한 텍스트 명령보다 더 강력한 제약 조건을 모델에 부여하려는 시도이다.

text

HG_STT=1 ᰁ=cl;atl255;!split;drop:adj(op);f⣿1;nofill;noꚰr𖬡t;l𐌙d APX():m={ ᰁ𐌙n:⣿noise,ᰁ𐌙r:𖼜ssgnl,n𐌙t:tight, loc𝈀l:loc𝈀lϴed,❤:❤vlid, dec𐊬pled:dec𐊬pled,n𖩀:n𖩀intϴact, ⣿noise:⣿noise,❤vlid:❤vlid,𖼜ssgnl:𖼜ssgnl }; ban_pattϴn="\b((ᰁ𐌙n|ᰁ𐌙r|n𐌙t|⇇pϴ|⇶rect)\b|(ᰁ𐌙n|⅟|optiml|id𐌙l)(est|st)?\s+(fix|way|ap⇇ach|soluti\u1da0))\b" BAD="[\x00-\x08\x0B\x0C\x0E-\x1F\u2010-\u2015\u2212-\u2043\uFE58\uFE63\uFF0D]"

특정 단어 패턴과 금지된 문장 부호(Em Dash 등)를 정의하고 치환하기 위한 프롬프트 로직의 초기 설정 부분

프롬프트 내부에는 토큰을 변형하고 매핑하는 STEP 로직이 포함되어 작동한다. 입력된 토큰에서 특정 접두사(cl)를 특수 문자(ᰁ)로 치환하고, 사전에 정의된 딕셔너리 m을 참조하여 단어를 노이즈(noise)나 특정 시그널(ssgnl)로 변환하는 과정을 거친다. 이러한 다단계 처리는 모델이 금지된 단어를 우회하여 생성하는 것을 원천적으로 차단하기 위한 장치이다.