지능형 편집
이미지 이해와 생성의 능력을 동시에 요구하는 편집 태스크로, VQA 데이터의 질문과 논리 구조를 편집 지시로 변환하는 데이터 생성 파이프라인의 핵심 아이디어를 나타낸다.