2026년 F1 에너지 전략을 위한 HMM-POMDP 프레임워크: 부분 관측 가능성 하에서의 상대 상태 추론

핵심 요약

2026년 F1 에너지 규정을 부분 관측 가능한 확률 게임(POSG)으로 모델링하고, HMM과 DQN을 결합해 상대의 에너지 상태를 추론하여 최적의 전략을 도출하는 연구이다.

배경

2026년 도입될 F1 에너지 규정(ICE/배터리 50:50 분할 및 오버라이드 모드)에 대응하기 위해, 상대 차량의 보이지 않는 배터리 상태를 추론하고 최적의 에너지 전개 전략을 수립하는 연구를 수행했다. 해당 연구 결과를 arXiv에 업로드하기 위해 커뮤니티의 승인(Endorsement)을 요청하고 있다.

의미 / 영향

이 연구는 스포츠 전략 수립에 있어 부분 관측 가능성을 해결하기 위한 실질적인 프레임워크를 제시했다. 특히 기만적인 전략(Counter-Harvest Trap)을 수치적으로 정의하고 감지할 수 있음을 입증함으로써, 향후 실시간 레이스 엔지니어링 도구에 AI가 어떻게 통합될 수 있는지 보여준다.

커뮤니티 반응

작성자의 연구 수준에 대해 긍정적인 반응이며, arXiv 승인을 돕기 위한 기술적 질문과 논의가 예상된다.

전문가 의견

2026년 F1 규정 하에서 상대의 에너지 상태를 추론하는 것은 단일 에이전트 강화학습으로는 해결 불가능하며, HMM과 POMDP를 결합한 계층적 접근이 필수적이다.

섹션별 상세

2026년 F1 규정 변화에 따른 새로운 전략적 과제를 제시했다. 기존 DRS를 대체하는 오버라이드 모드와 50:50의 동력 분할은 상대의 배터리 잔량이라는 '숨겨진 상태'를 파악하는 것이 승부의 핵심이 되는 부분 관측 가능한 확률 게임(POSG) 환경을 조성한다. 단일 에이전트 방식으로는 해결할 수 없는 이 문제를 해결하기 위해 다중 계층 접근 방식을 도입했다.

상대 차량의 상태를 추론하기 위해 30개 상태를 가진 은닉 마르코프 모델(HMM)을 설계했다. 공개적으로 관측 가능한 5가지 텔레메트리 신호를 입력으로 받아 Baum-Welch EM 알고리즘을 통해 상대의 ERS 충전량, 오버라이드 모드 활성화 여부, 타이어 마모도를 추론한다. 이 추론된 '믿음 상태(Belief State)'는 후속 의사결정의 기초가 된다.

추론된 데이터를 바탕으로 심층 Q-네트워크(DQN) 정책을 학습시켜 최적의 에너지 전개 전략을 도출했다. 특히 '카운터-하베스트 트랩(Counter-Harvest Trap)'이라는 기만 전략을 공식화했는데, 이는 액티브 에어로를 사용해 에너지 회수 상태를 숨김으로써 상대가 자신의 에너지 상태를 오판하게 만드는 고도의 심리전이다. 실험 결과 합성 데이터에서 95.7%의 재현율과 92.3%의 ERS 추론 정확도를 기록했다.

실무 Takeaway

2026년 F1 규정은 상대의 배터리 상태를 실시간으로 추론해야 하는 POSG(Partially Observable Stochastic Game) 환경을 만든다.
HMM을 통해 텔레메트리 데이터로부터 상대의 숨겨진 ERS 상태와 타이어 마모도를 높은 정확도로 추론할 수 있다.
DQN 기반 정책은 단순한 임계값 규칙으로는 감지하기 어려운 기만적인 에너지 전략을 식별하고 대응할 수 있다.