니들 인 어 헤이스택
방대한 데이터 속에서 특정 정보를 찾아내는 능력을 평가하는 테스트이다. 컨텍스트 압축 후에도 에이전트가 요약되거나 오프로딩된 세부 정보를 정확히 복구할 수 있는지 확인하는 데 사용된다.
스타크래프트 대신 AoE 2? LLM의 전략적 코딩 능력을 시험하다
클로드 Opus 4.6 공개, 100만 토큰 컨텍스트와 에이전트 최적화로 워크플로 혁신
GPT-5.2를 압도하는 성능? Anthropic의 새로운 왕, Claude Opus 4.6 공개
LLM의 한계를 넘는 AI 에이전트: LangChain의 컨텍스트 압축 전략
트랜스포머의 한계를 넘다: 200만 컨텍스트를 처리하는 Google의 Titans