핵심 요약
표준 강화학습 대신 스파이킹 신경망과 소뇌 모델, 예측 부호화 기반의 생물학적 학습 메커니즘을 활용한 오픈 소스 로봇 제어 프레임워크 MH-FLOCKE를 제안한다.
배경
기존 강화학습의 보상 설계 방식이 가진 한계를 극복하기 위해, 스파이킹 신경망(SNN)과 소뇌 모델 등 생물학적 원리를 통합한 로봇 제어 프레임워크 MH-FLOCKE를 개발하여 MuJoCo 시뮬레이션 결과를 공유했다.
의미 / 영향
이 프로젝트는 보상 설계에 의존하는 기존 강화학습의 대안으로 생물학적 뇌 모델 기반의 제어 가능성을 입증했다. 특히 예측 오차를 학습 신호로 활용하는 방식은 로봇 공학에서 보다 자연스럽고 효율적인 학습 아키텍처를 구축하는 새로운 방향을 제시한다.
실용적 조언
- 복잡한 보상 함수 설계가 어려운 로봇 제어 문제에서 예측 오차 기반의 학습 신호 도입을 고려할 수 있다
- 학습 효율을 높이기 위해 에피소드 기억과 지식 그래프를 결합하여 학습 상태를 영구적으로 저장하는 방식을 활용할 수 있다
전문가 의견
- 작성자는 보상 설계 없이 예측 오차만을 사용하여 내비게이션을 구현하는 방식이 기존 RL의 대안이 될 수 있음을 시사했다
언급된 도구
MuJoCo추천
로봇 환경 물리 시뮬레이션
Unitree Go2중립
4족 보행 로봇 하드웨어 플랫폼
섹션별 상세
MH-FLOCKE는 표준 강화학습을 생물학적 근거가 있는 학습으로 대체하는 오픈 임베디드 AI 프레임워크이다. Izhikevich 뉴런 4,624개와 93,000개의 시냅스로 구성된 스파이킹 신경망(SNN)과 Marr-Albus-Ito 소뇌 순방향 모델을 통합하여 Unitree Go2 로봇을 제어한다. 이는 개별적인 연구 결과들을 하나의 통합된 시스템으로 구축하려는 시도이다.
학습 신호로 보상 설계(Reward Shaping) 대신 작업 특화 예측 오차(Task-specific Prediction Error)를 사용한다. 공이 가까우면 음의 예측 오차(평온)를, 멀면 양의 예측 오차(혼돈)를 발생시켜 로봇이 행동을 조정하도록 유도한다. 전역 세계 모델의 예측 오차는 0.004 수준의 노이즈에 불과했으나 작업 특화 오차는 ±1.74의 유의미한 신호를 제공했다.
시각 자극 시스템은 로봇이 목표 달성에 실패할 때 16개의 시각 입력 뉴런에 추가 전류를 공급하여 공의 존재를 무시할 수 없게 만든다. 또한 에피소드 기억과 지식 그래프를 통해 뇌의 상태가 실행 간에 보존되므로 매 실행마다 처음부터 학습할 필요가 없다. 이러한 커리큘럼 학습을 통해 로봇은 초기 조향 없이도 정면의 공에 접근하는 법을 익혔다.
MuJoCo 환경에서의 실험 결과, 5번의 에피소드 모두에서 공과 물리적 접촉에 성공했으며 최소 거리는 4.3cm를 기록했다. 공은 총 83cm 이동하며 상호작용이 발생했음이 확인됐다. 다만 측면 조향, 속도 제어, 5만 단계 이후의 지속적인 경로 유지 등에서는 여전히 기술적 한계가 존재하여 개선이 필요한 상황이다.
실무 Takeaway
- 4,624개의 Izhikevich 뉴런과 93,000개의 시냅스를 가진 SNN으로 Unitree Go2 로봇을 제어함
- 전통적인 RL 보상 대신 자유 에너지 개념의 작업 특화 예측 오차를 학습 신호로 활용하여 물리적 접촉 성공
- 에피소드 기억과 지식 그래프를 통해 학습 내용이 보존되어 실행마다 처음부터 다시 학습할 필요가 없음
- 65개의 인지 모듈을 포함한 오픈 플랫폼으로서 생물학적 로보틱스 연구를 위한 기반 제공
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료