m-grpo
멀티 에이전트 시스템의 효율적 학습을 위한 강화학습 기법이다. 에이전트 간의 협업 능력과 복잡한 추론 과정을 최적화하여 시스템 전체의 성능을 극대화한다.
DeepSeek 3.2와 Flux 2 공개, 엔비디아에 도전하는 빅테크의 새로운 칩 전략