구조화된 장면 메타정보
비디오 세그먼트를 scene_elements, spatial_dynamics, action_execution의 세 가지 상위 필드로 표현하는 중간 기록으로, 모델 supervision과 구분된 머신 리더블 포맷의 물리 정보 서술을 가능하게 함