최댓값 원리: 최적 제어 속성 코스

핵심 요약

머신러닝 분야에서는 제어를 흔히 PPO와 같은 최적화 문제로 취급하지만 실제 제어 시스템 설계는 훨씬 복잡한 층위를 가진다. 시스템의 미래를 결정하는 상태(State) 개념과 시간 흐름에 따른 비용 함수 설계를 바탕으로 최적 제어의 이론적 토대인 동적 계획법(Dynamic Programming)이 성립한다. 최적 제어는 설계자가 제어기 형태를 정하는 대신 최적화 문제를 정의하도록 유도하며 이는 강화학습의 보상 설계(Reward Shaping)와 유사한 성격을 띤다. 다만 모델 불확실성이나 상태 측정의 어려움 등 현실적인 제약 조건들이 최적 제어의 완벽한 구현을 가로막는 주요 장애물이다.

배경

선형 대수학, 기초 미분방정식, 최적화 이론 기초

대상 독자

제어 이론과 강화학습의 접점을 이해하려는 로보틱스 및 ML 엔지니어

의미 / 영향

최적 제어 이론은 강화학습의 근간을 이루지만 현실적인 제약 조건으로 인해 단순 최적화만으로는 해결할 수 없는 제어 고유의 영역이 존재한다. 이는 모델 기반 설계와 데이터 기반 학습 사이의 균형이 중요함을 시사한다.

섹션별 상세

제어 시스템의 핵심은 현재의 상태와 입력이 다음 상태를 결정한다는 상태(State) 개념에 기반한다. 상태 벡터는 시스템의 운명을 완전히 결정하는 요소로 가정되며 이를 정확히 측정할 수 있다는 전제하에 제어 전략이 수립된다.

최적 제어는 목표를 수치적 비용 함수로 변환하고 이를 시간별 비용의 합으로 분해하여 해결한다. 벨만(Bellman)의 동적 계획법은 시간을 거꾸로 거슬러 올라가며 비용-투-고(Cost-to-go) 함수를 계산하는 방식으로 최적의 피드백 정책을 찾아낸다.

동적 계획법은 선형 시스템과 이차 비용 함수(LQR)에서는 우아한 해를 제공하지만 상태와 행동 공간이 복잡해지면 구현이 사실상 불가능해지는 한계가 있다. 이로 인해 실제 현장에서는 딥러닝 기반 강화학습이나 그리드 정책 반복과 같은 휴리스틱 방법론에 의존하게 된다.

최적 제어는 제어 설계의 패러다임을 제어기 파라미터 튜닝(PID 방식)에서 최적화 문제 모델링으로 변화시킨다. 설계자는 시스템을 동적 계획법이나 해밀턴 방법론으로 풀 수 있는 형태로 가공하며 이는 강화학습에서의 보상 설계 과정과 매우 유사하다.

실무 Takeaway

최적 제어는 제어기 구조를 고정하는 대신 목적 함수를 정의하여 컴퓨터가 최적 파라미터를 찾게 하는 방식이다.
동적 계획법은 이론적으로 완벽하지만 복잡한 시스템에서는 차원의 저주로 인해 직접적인 구현이 어렵다.
현실의 불확실성인 모델 오류와 측정 불가 상태는 순수 최적화 기반 제어의 성능을 저하시키는 핵심 요인이다.

언급된 리소스

문서Feedback, Learning, and Adaptation (Course Table of Contents)