장면 기반 의도 이해
멀티모달 입력(UI/실세계 비주얼/음성)을 현재 장면과 연결해 의도와 목표를 구조적 표현으로 확정하는 프레임워크. 장면의 맥락으로부터 질의의 핵심 목적을 추정하고 필요 시 즉시 답변하거나 후속 작업으로 연결한다.