핵심 요약
Webgrid Eval은 Neuralink에서 사용자의 커서 제어 정밀도를 테스트하기 위해 개발한 Webgrid 게임을 LLM 평가에 도입한 벤치마크이다. 모델은 그리드 스크린샷을 보고 마우스 이동 및 클릭 도구를 사용하여 목표 지점을 정확히 타격해야 하며, 성능은 BPS(Bits Per Second) 지표로 환산된다. 현재 Claude 4.6 Opus와 Gemini 3 Flash 등을 대상으로 테스트가 진행되었으며, 인간 및 뇌 임플란트 사용자 대비 LLM의 성능 수준을 정량적으로 비교한다. 이 도구는 LLM의 실시간 시각 추론과 정밀한 도구 조작 능력을 평가하는 새로운 기준을 제시한다.
배경
Python, Docker/Make, LLM API Keys, 멀티모달 모델에 대한 기본 이해
대상 독자
멀티모달 LLM 평가 연구자 및 에이전트 개발자
의미 / 영향
이 벤치마크는 LLM이 단순 텍스트 생성을 넘어 실제 GUI 환경에서 얼마나 정밀하게 동작할 수 있는지 측정하는 척도가 된다. 특히 로봇 공학이나 원격 제어 분야에서 LLM의 활용 가능성을 타진하는 데 중요한 데이터를 제공한다.
섹션별 상세
이미지 분석

모델이 시각 정보를 바탕으로 도구를 사용하여 목표를 찾아가는 실제 과정을 보여준다. 70초 동안 4번의 성공과 3번의 오클릭을 기록하며 0.16 BPS의 성능을 내는 과정을 시각적으로 증명한다.
Gemini 3 Flash 모델이 30x30 그리드에서 커서를 이동시켜 타겟을 클릭하는 리플레이 영상이다.
실무 Takeaway
- LLM의 시각적 정밀도는 아직 인간의 물리적 조작 능력이나 뇌-컴퓨터 인터페이스(BCI) 수준에 크게 미치지 못한다.
- BPS 지표를 통해 LLM의 도구 사용 효율성을 정량화함으로써 모델 간의 미세한 성능 차이를 객관적으로 비교할 수 있다.
- 실시간 스크린샷 분석과 연속적인 마우스 제어는 멀티모달 모델의 추론 속도와 정확도를 동시에 요구하는 고난도 작업이다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료