reinforcement-learning
에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 행동을 학습하는 방법이다. 웨이모의 시뮬레이션 환경에서 드라이버 모델이 안전한 주행 전략을 익히는 핵심 메커니즘으로 쓰인다.
LongVideo-R1: 영상 전체를 보지 않고도 필요한 구간만 찾아내는 지능형 에이전트
캔바의 야심, 넷플릭스 출신 AI 전문가 영입하며 '크리에이티브 OS' 구축 가속화
8B 모델로 GPT-5.2를 이겼다? VC가 직접 겪은 에이전트 구축기
강화학습의 미래를 논하다: UC 버클리 RL 토론 시리즈 피날레 공개
"300페이지 보험 서류를 15분 만에" Pace가 바꾸는 지식 노동의 미래