멀티모달 광학 문자 인식
텍스트뿐만 아니라 차트, 다이어그램, 아이콘 등 문서 내의 모든 시각적 요소를 구조화된 텍스트(SVG 코드 등)로 동시에 파싱하는 기술이다. 기존 OCR이 그래픽을 단순 이미지로 처리하던 한계를 넘어 문서 전체의 의미적 연결성을 보존하는 데 핵심적인 역할을 한다.