Webgrid Eval: Neuralink 커서 제어 작업을 활용한 LLM 비전 및 도구 사용 벤치마크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Neuralink의 커서 제어 성능 측정 게임인 Webgrid를 LLM 평가에 도입한 새로운 벤치마크가 공개됐다. 모델은 격자판의 스크린샷을 실시간으로 분석하고 마우스 이동 및 클릭 도구를 사용하여 목표 셀을 선택해야 한다. 성능은 Neuralink의 실제 임상 시험과 동일한 BPS(초당 비트 수) 지표로 계산되어 인간 및 뇌 임플란트 사용자 성능과 직접 비교된다. 현재 Claude 4.6 Opus와 Gemini 3 Flash Preview 등이 테스트되었으며, LLM의 GUI 조작 능력을 객관적으로 평가하는 도구로 활용된다.

배경

LLM API 사용 경험 (OpenRouter, Google AI 등), Python 및 Docker 환경 구성 지식, VLM(Vision-Language Model)의 기본 작동 원리 이해

대상 독자

VLM 및 에이전트 성능을 정량적으로 평가하려는 AI 연구자 및 개발자

의미 / 영향

이 벤치마크는 LLM이 단순 텍스트 생성을 넘어 실제 물리적/가상 인터페이스를 얼마나 정밀하게 제어할 수 있는지 측정하는 기준이 된다. 특히 Neuralink의 지표를 차용함으로써 AI 에이전트의 성능이 인간의 신경 인터페이스 수준에 도달하기까지의 기술적 간극을 명확히 보여준다.

섹션별 상세

Neuralink의 임상 시험에서 사용되는 Webgrid 게임 환경을 LLM 벤치마크로 재구축했다. 모델은 30x30 격자판의 스크린샷을 입력받아 파란색 타겟 셀의 위치를 파악하고, screen, mouse_move, mouse_click 세 가지 도구를 조합하여 커서를 이동시키고 클릭을 수행한다.

Gemini 3 Flash Preview 모델이 30x30 격자판에서 타겟을 찾아 클릭하는 실제 리플레이 영상 — OtherLLM이 스크린샷을 분석하여 커서를 이동시키고 타겟 셀을 클릭하는 과정을 실시간으로 보여준다. 4번의 성공과 3번의 오클릭이 발생하는 과정을 통해 모델의 시각적 인식 오류와 도구 사용의 한계를 시각적으로 확인할 수 있다.

성능 측정 지표로 초당 비트 수(BPS)를 채택하여 제어의 정밀도와 속도를 동시에 평가한다. BPS는 분당 순 정답 클릭 수(NTPM)와 격자 크기를 변수로 하는 로그 함수를 통해 산출되며, 이는 Neuralink의 공식 평가 로직과 완벽히 일치하도록 설계됐다.

javascript

function E(f, t) {
  return Math.max(Math.log2(t * t - 1) * f / 60, 0)
}

Neuralink Webgrid 프론트엔드에서 사용되는 BPS 계산 공식 구현체

Claude 4.6 Opus는 Computer Use 기능을 통해 평균 0.80 BPS(최고 1.14 BPS)를 기록하며 현재 테스트된 모델 중 가장 우수한 성능을 보였다. 반면 Gemini 3 Flash Preview는 약 0.16 BPS에 머물러 모델 간 시각적 정밀도와 도구 활용 능력의 격차가 큼이 확인됐다.

인간 및 뇌 임플란트 사용자와의 성능 비교 데이터가 포함됐다. 인간 마우스 사용자는 17.1 BPS, Neuralink 뇌 임플란트(P8) 사용자는 10.39 BPS를 기록한 반면, 최상위 LLM인 Claude 4.6 Opus도 인간 성능의 10% 미만 수준에 머물러 실시간 정밀 제어 분야의 한계를 드러냈다.

bash

make play # 브라우저에서 게임 실행
make eval ARGS="configs/openrouter.yaml" # API 기반 평가 실행

벤치마크 실행 및 평가를 위한 주요 CLI 명령어

사용자는 YAML 설정 파일을 통해 격자 크기(grid_size), 캔버스 크기(canvas_size), 평가 시간 등을 자유롭게 구성할 수 있다. OpenRouter, Google AI API뿐만 아니라 Ollama 등을 통한 로컬 LLM 서버와의 연동도 지원하여 다양한 환경에서 테스트가 가능하다.

실무 Takeaway

LLM의 GUI 조작 능력을 평가할 때 단순 성공률이 아닌 BPS 지표를 도입하여 인간의 신경 제어 성능과 정량적으로 비교할 수 있다.
Claude 4.6 Opus와 같은 최신 모델도 정밀한 마우스 제어 작업에서는 인간 뇌 임플란트 성능의 1/10 수준에 불과하므로 실시간 인터랙션 최적화가 필요하다.
Webgrid Eval 프레임워크를 활용하면 다양한 VLM의 시각적 좌표 인식 정확도와 도구 호출 시퀀스 생성 능력을 표준화된 환경에서 검증할 수 있다.

언급된 리소스

GitHubWebgrid Eval GitHub Repository