추론 트레이스를 포함한 롱테일 주행 시나리오: KITScenes LongTail 데이터셋

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

자율주행 기술이 일상적인 상황은 잘 처리하지만, 공사 구간이나 악천후 같은 드문 상황(롱테일)에서는 여전히 한계를 보입니다. 이 논문은 전문가의 사고 과정을 담은 다국어 텍스트와 360도 영상을 결합한 데이터셋을 제공하여, AI가 복잡한 상황에서 사람처럼 판단하고 행동하도록 돕는 연구의 기반을 마련합니다.

왜 중요한가

핵심 기여

KITScenes LongTail 데이터셋 구축

360도 시야를 제공하는 6개 카메라 영상, 고수준 주행 명령, 그리고 전문가가 작성한 3개 국어(영어, 스페인어, 중국어) 추론 트레이스를 포함한 1,000개의 롱테일 주행 시나리오를 구축했다.

Multi-Maneuver Score (MMS) 평가지표 도입

단일 경로 추종 오차의 한계를 극복하기 위해 안전성, 승차감, 명령 이행 여부를 종합적으로 고려하여 여러 가능한 주행 경로를 평가하는 계산 효율적인 지표를 도입했다.

시맨틱 일관성(Semantic Coherence) 측정 방법론 설계

모델이 생성한 텍스트 추론 내용과 실제 계획된 주행 궤적이 논리적으로 일치하는지 Rocchio 분류와 문장 임베딩을 통해 정량화하는 기법을 설계했다.

핵심 아이디어 이해하기

기존 자율주행 데이터셋은 주로 객체 인식이나 단순 경로 예측에 집중하며, 실제 도로에서 발생하는 드물지만 위험한 '롱테일' 상황에 대한 데이터와 그 상황에서의 복잡한 의사결정 근거가 부족하다. 특히 단순한 수치적 경로 비교는 주행의 다중성, 즉 여러 안전한 경로가 존재할 수 있다는 사실을 반영하지 못하는 한계가 있다. 이 논문은 Vision-Language Model(VLM)의 추론 능력을 자율주행에 접목하기 위해 전문가의 '단계별 사고 과정(Chain-of-Thought)'을 텍스트로 기록하여 데이터셋에 포함했다. 이를 통해 모델이 단순히 핸들을 꺾는 수치만 배우는 것이 아니라, 주변 상황에 따른 논리적 인과관계를 학습하도록 유도한다. 또한 안전하고 편안하며 명령을 잘 따르는 여러 대안 경로들을 점수화하는 MMS 지표를 통해 모델의 실질적인 주행 능력을 다각도로 평가한다.

방법론

데이터 수집 및 가공 단계에서 2년에 걸쳐 도시 및 고속도로의 공사 구간, 악천후, 사고 상황 등 롱테일 시나리오를 수집했다. 6개의 카메라 뷰를 360도 파노라마로 스티칭하고, 전문가들이 5가지 질문에 답하는 방식으로 추론 트레이스를 생성했다. Multi-Maneuver Score (MMS)는 각 시나리오에 대해 전문가 경로, 속도 위반, 명령 무시 등 5가지 카테고리의 참조 궤적을 설정한다. [계획된 궤적과 참조 궤적 간의 거리 차이를 입력으로] → [속도에 따른 임계값을 적용한 유사도(sim)를 계산하여] → [가장 유사한 카테고리의 기본 점수를 부여하고] → [여기에 저크와 곡률 기반의 승차감 감점을 적용하여] → [최종 주행 품질 점수를 산출한다]. 시맨틱 일관성 측정은 모델의 텍스트 출력과 궤적 간의 일치도를 평가한다. [추론 텍스트를 EmbeddingGemma 0.3B 모델에 입력하여] → [벡터 공간상의 임베딩 z를 생성하고] → [미리 정의된 주행 행동 클래스들의 기준 벡터와 코사인 유사도를 계산하여] → [텍스트가 설명하는 행동이 실제 궤적의 물리적 특성과 일치하는지 판별한다].

주요 결과

벤치마크 결과, Gemini 3 Pro가 제로샷 설정에서 가장 높은 MMS(4.99)를 기록하며 폐쇄형 모델의 우위를 나타냈다. 오픈소스 모델인 Pixtral 12B나 Gemma 3 12B는 제로샷에서는 낮은 성능을 보였으나, Few-shot 및 CoT 프롬프팅을 적용했을 때 성능이 대폭 향상됐다. MMS 지표와 기존 시뮬레이션 기반 점수(DrivingScore) 간의 상관관계 분석 결과, 피어슨 상관계수 0.59를 기록하여 기존 L2 error(-0.45)보다 실제 주행 품질을 더 잘 반영함이 확인됐다. 시맨틱 일관성 분석에서는 모델들이 생성한 추론 텍스트와 실제 계획한 궤적이 일치하지 않는 경우가 빈번함(평균 0.27~0.51)이 발견됐으며, 이는 모델이 논리적으로는 맞지만 물리적으로는 불가능한 경로를 생성하는 할루시네이션 문제를 겪고 있음을 시사한다.

기술 상세

데이터셋은 1,000개의 9초 길이 시나리오로 구성되며, 500(학습)/400(테스트)/100(검증)으로 분할되어 있다. 360도 FoV를 위해 6개 카메라 영상을 스티칭할 때 점진적 이미지 워핑(gradual image warping) 기법을 사용했다. MMS 계산 시 승차감 평가를 위해 저크(Jerk)와 곡률(Tortuosity)을 측정하며, 저크가 참조 경로보다 44% 이상 높거나 곡률이 6% 이상 높을 경우 감점한다. Few-shot CoT Kinematic 방식은 모델이 텍스트로 주행 행동을 예측하게 한 뒤, 이를 기구학적 자전거 모델(Kinematic Bicycle Model)에 입력하여 물리적으로 타당한 궤적을 생성함으로써 성능을 최적화한다.

한계점

모델이 생성한 추론 트레이스와 실제 계획된 궤적 사이의 시맨틱 일관성이 여전히 낮으며, 이는 사전 학습 데이터와 주행 도메인 데이터 간의 간극으로 인해 모델이 합리적인 주행 경로를 예측하는 데 어려움을 겪고 있음을 보여준다.

실무 활용

자율주행 시스템의 의사결정 과정을 설명 가능한 형태로 구축하려는 연구자와 엔지니어에게 유용하며, 롱테일 상황에서의 안전성 검증을 위한 벤치마크로 활용 가능하다.

설명 가능한 자율주행(XAI) 모델의 학습 및 평가
VLM/VLA 기반의 차세대 자율주행 제어 알고리즘 개발
공사 구간 및 악천후 등 엣지 케이스 테스트 데이터셋 활용

코드 공개 여부: 공개

코드 저장소 보기

키워드

자율주행(Autonomous Driving)롱테일 데이터(Long-tail Data)VLM(시각 언어 모델)VLA(시각 언어 행동 모델)추론 트레이스(Reasoning Traces)MMS(멀티 매뉴버 스코어)