본문으로 건너뛰기
StepSearch: 단계별 근사 정책 최적화(StePPO)를 통한 LLM 검색 능력 강화 | AI Trends