장기 과업
단순한 일회성 응답을 넘어, 여러 단계의 행동과 피드백을 거치며 장시간 동안 목표를 달성해야 하는 복잡한 업무를 의미한다.
LLM 에이전트의 기억력 한계 극복: Memex로 컨텍스트 비용은 줄이고 정확도는 높인다
최신 모델 Gemini-3-Pro도 정답률 27.3%에 그친 초고난도 멀티모달 벤치마크 AgentVista
"AGI의 기준이 바뀐다" 앤드류 응이 제안하는 새로운 튜링 테스트