핵심 요약
기존의 이미지 생성 커스터마이징은 의미 없는 특수 토큰에만 의존해 복잡한 설명이나 지식을 반영하지 못했다. MoKus는 텍스트 인코더의 지식을 직접 수정하는 방식으로, 단 몇 분 만에 특정 대상의 시각적 특징과 관련 지식을 결합하여 정교한 이미지를 생성한다.
왜 중요한가
기존의 이미지 생성 커스터마이징은 의미 없는 특수 토큰에만 의존해 복잡한 설명이나 지식을 반영하지 못했다. MoKus는 텍스트 인코더의 지식을 직접 수정하는 방식으로, 단 몇 분 만에 특정 대상의 시각적 특징과 관련 지식을 결합하여 정교한 이미지를 생성한다.
핵심 기여
지식 인지형 개념 커스터마이징 작업 정의
단순 외형 복제를 넘어 텍스트 지식과 시각적 개념을 결합하는 새로운 연구 방향을 수립함.
교차 모달 지식 전이 현상 규명
텍스트 인코더 내의 지식 수정이 이미지 생성 결과의 시각적 변화로 직결됨을 실험적으로 증명함.
MoKus 프레임워크 설계
시각적 앵커 학습과 텍스트 지식 업데이트를 분리하여 고충실도와 학습 효율성을 동시에 달성함.
KnowCusBench 데이터셋 구축
35개 개념과 5,975장의 이미지를 포함하여 지식 기반 커스터마이징 성능을 정밀하게 평가할 수 있는 환경을 마련함.
핵심 아이디어 이해하기
단락 1: Transformer 기반의 언어 모델은 단어를 고차원 벡터인 Embedding으로 변환하여 처리한다. 기존의 커스터마이징 방식은 '나의 강아지' 같은 특정 대상을 표현하기 위해 <sks> 같은 새로운 Embedding을 추가하지만, 이 벡터는 기존 지식과 연결되어 있지 않아 '코펜하겐의 인어공주상' 같은 구체적인 텍스트 지식과 결합할 때 정보 충돌이 발생한다.
단락 2: MoKus는 텍스트 인코더(LLM) 내부의 지식 구조를 직접 편집하는 방식을 취한다. 먼저 대상의 시각적 특징을 <sks>라는 앵커에 저장한 뒤, '덴마크 항구의 조각상'이라는 질문에 대한 답이 이 앵커가 되도록 LLM의 가중치를 미세 조정한다. 이는 Gradient Descent를 통해 특정 뉴런의 활성화 패턴을 바꾸는 것과 유사한 원리다.
단락 3: 이 접근법의 핵심은 텍스트 모달리티에서 수정된 지식이 생성 모델의 시각적 출력으로 자연스럽게 전이된다는 점이다. 텍스트 인코더가 '덴마크 조각상'을 읽을 때 학습된 앵커 벡터를 출력하게 되므로, 확산 모델은 별도의 추가 학습 없이도 해당 텍스트로부터 정확한 시각적 개념을 인지하고 고화질 이미지를 생성한다.
방법론
단락 1: Visual Concept Learning 단계에서는 입력 이미지 x_i를 VAE로 인코딩하여 잠재 변수 z_0를 추출한다. 이후 Rectified Flow 기법을 적용하여 z_t = t * z_0 + (1 - t) * z_1 수식에 따라 노이즈 z_1과 혼합된 상태 z_t를 생성함. [이미지 잠재값과 노이즈를 입력으로] → [시간 t에 따른 선형 보간 연산을 수행해] → [중간 단계의 잠재 변수 z_t를 얻고] → [이는 모델이 복원해야 할 목표값이 됨]
단락 2: 시각적 특징을 앵커 토큰에 고정하기 위해 MMDiT의 Self-Attention 레이어에 LoRA를 적용한다. 희귀 토큰 P를 LLM 인코더에 통과시켜 얻은 텍스트 잠재값 h를 가이드로 삼아, 모델이 z_t로부터 원본의 시각적 세부 사항을 재구성하도록 학습함. [희귀 토큰과 노이즈 잠재값을 입력으로] → [MMDiT 추론 및 MSE 손실 계산을 수행해] → [LoRA 파라미터를 갱신하고] → [대상의 외형 정보를 앵커 표현에 저장함]
단락 3: Textual Knowledge Updating 단계에서는 수집된 지식 k_i를 질문 q_i로 변환하고, 이에 대한 응답이 학습된 앵커 표현 y가 되도록 LLM의 MLP 레이어 가중치를 수정함. 이때 최소제곱법 공식을 사용하여 파라미터 변화량 Δθ를 산출함. [질문의 은닉 상태 H와 목표 출력 방향 V를 입력으로] → [정규화된 역행렬 곱셈 연산을 수행해] → [최적의 가중치 변화량 Δθ를 얻고] → [이를 기존 가중치에 더해 지식을 주입함]
주요 결과
단락 1: KnowCusBench를 통한 정량적 평가 결과, MoKus는 재구성 작업에서 CLIP-I-Seg 점수 0.764를 기록하며 Naive-DB(0.758)를 앞섰다. 이는 배경 요소를 분리하고 대상 자체의 시각적 일치도를 측정했을 때 MoKus가 가장 정확하게 대상을 복원함을 의미한다.
단락 2: 생성 작업의 품질 측면에서도 우수한 성과를 거두었다. 텍스트 프롬프트와의 정렬 상태를 나타내는 CLIP-T 점수는 0.305로 베이스라인 중 가장 높았으며, 인간의 시각적 선호도를 반영하는 Pick Score에서도 21.30점을 획득하여 실제 사용자가 만족할 만한 고품질 이미지를 생성함을 입증했다.
단락 3: 효율성 분석 결과, MoKus의 전체 학습 시간은 약 6분으로 측정되어 Naive-DB의 27분 대비 약 78%의 시간 절감 효과를 보였다. 또한 지식의 개수를 1개에서 5개까지 늘려도 성능 저하 없이 안정적인 결과를 유지했으며, 각 지식 추가 시 발생하는 연산 비용은 약 7초 내외로 매우 낮게 나타났다.
실무 활용
특정 인물이나 사물의 외형뿐만 아니라 그와 관련된 고유한 배경지식까지 모델에 주입할 수 있어, 개인화된 콘텐츠 제작에 매우 유용하다.
- 특정 캐릭터의 외형과 설정을 결합한 웹툰/애니메이션 에셋 생성
- 브랜드 제품의 이미지와 상세 스펙 지식을 결합한 마케팅 이미지 자동 생성
- 개인 사진첩의 인물 정보를 지식 형태로 입력하여 자연어 검색 및 편집
- AI 모델 내 특정 유해 개념이나 저작권 개념을 지식 수정을 통해 제거
기술 상세
단락 1: 전체 시스템은 Qwen-Image 아키텍처를 기반으로 하며, 텍스트 처리를 위한 LLM 인코더와 이미지 생성을 위한 MMDiT 백본이 결합된 형태다. 시각적 특징은 텍스트 임베딩 공간 내의 특정 앵커 벡터로 투영되며, 이 벡터가 두 모달리티 사이의 가교 역할을 수행한다.
단락 2: 지식 업데이트는 LLM의 중간 레이어(18~26번)에 위치한 MLP 블록의 Gate Projection과 Up Projection 행렬을 대상으로 진행된다. 총 16개의 파라미터 행렬만을 수정함으로써 모델의 전체적인 언어 이해 능력을 보존하면서도 특정 지식에 대한 응답만을 정교하게 제어한다.
단락 3: 교차 모달 지식 전이의 수학적 기반은 텍스트 인코더의 출력 분포 변화가 확산 모델의 Cross-Attention 메커니즘을 통해 시각적 특징 맵의 활성화 양상을 변화시키는 원리에 기인한다. 텍스트 공간에서의 지식 편집이 시각 공간에서의 개념 발현으로 이어지는 경로를 최적화함이 기술적 차별점이다.
한계점
비디오 생성 도메인으로의 확장성 검증 미비, 지식 인지 능력을 보다 다각도로 측정할 수 있는 평가 지표의 부족, 그리고 현재의 2단계 학습 프로세스를 단일 단계로 통합하는 엔드투엔드 최적화의 부재가 한계점으로 명시됐다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료