metr
AI 모델의 위험성과 자율적 역량을 평가하는 비영리 연구 기관이다. 모델이 스스로 자원을 획득하거나 복잡한 시스템을 조작하는 능력을 벤치마크하여 안전 가이드라인을 제시한다.
ML 연구 코드 버그 수정 성공률 50% 돌파한 Claude Opus
어느 날 갑자기 모든 것이 변한다: AI 에이전트가 코딩의 90%를 담당하는 시대
2030년의 꿈이 2026년에 실현된다: 롱호라이즌 에이전트와 AGI의 도래