본문으로 건너뛰기
MonitorBench: 대형 언어 모델의 사고 사슬 모니터링 가능성에 대한 종합 벤치마크 | AI Trends