dqn
강화학습 알고리즘 중 하나로, 신경망을 사용하여 각 행동의 가치를 예측하고 최적의 정책을 학습한다. 여기서는 추론된 상대 상태를 바탕으로 최적의 주행 및 에너지 사용 결정을 내리는 데 쓰인다.
강화학습으로 축구 팀을 제어한다? RL 토이박스 프로젝트 공개
스네이크부터 축구까지, 강화학습 에이전트의 성장을 직접 확인하세요
단순 보상 그 이상을 측정하다: DQN 계열 알고리즘의 심층 진단 방법론
DQN부터 PPO까지, 강화학습 알고리즘을 밑바닥부터 직접 구현해보세요
F1 2026 규정의 핵심, AI로 상대의 숨겨진 배터리 상태를 읽는다