screencommander: AI 에이전트를 위한 macOS 컴퓨터 사용 자동화 CLI 도구

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

screencommander는 macOS 14 이상에서 작동하는 CLI 도구로, AI 에이전트가 '관찰-결정-행동' 루프를 수행할 수 있도록 설계되었다. ScreenCaptureKit을 활용한 고해상도 화면 캡처와 Quartz 좌표계 기반의 정밀한 입력 합성을 지원한다. Vision 모델뿐만 아니라 메타데이터 기반의 좌표 매핑을 통해 비시각적 모델 워크플로우와도 호환된다. 모든 명령은 JSON 출력을 지원하여 에이전트가 실행 결과를 즉시 파싱하고 다음 행동을 결정할 수 있는 환경을 제공한다.

배경

macOS 14.0 이상, Xcode Command Line Tools (Swift 빌드용), 기본적인 CLI 및 JSON 데이터 구조에 대한 이해

대상 독자

macOS 환경에서 자율형 AI 에이전트나 자동화 워크플로우를 개발하는 엔지니어

의미 / 영향

Anthropic의 Computer Use와 같은 흐름 속에서 macOS 전용 고성능 도구가 등장함에 따라, 데스크톱 애플리케이션을 직접 조작하는 에이전트 개발이 더욱 가속화될 것이다. 특히 오픈소스 CLI 형태의 제공은 다양한 에이전트 프레임워크와의 결합을 용이하게 만든다.

섹션별 상세

AI 에이전트의 컴퓨터 사용(Computer Use)을 위한 관찰-결정-행동 루프를 지원한다. 에이전트는 CLI를 통해 화면을 캡처하고, 메타데이터를 분석하여 좌표를 결정하며, 전역 마우스 및 키보드 이벤트를 발생시켜 시스템을 조작한다.

screencommander CLI의 도움말 메뉴를 보여주는 터미널 스크린샷이다. — Screenshot도구의 주요 서브커맨드(doctor, screenshot, click, type, key 등)와 각 기능에 대한 간략한 설명을 포함하고 있어 전체적인 기능 구조를 한눈에 파악할 수 있게 돕는다.

Retina 디스플레이를 지원하는 고성능 화면 캡처 기능을 제공한다. ScreenCaptureKit을 사용하여 이미지와 함께 디스플레이 ID, 포인트 단위 경계, 픽셀 스케일 등의 상세 메타데이터를 JSON 형태로 저장하여 정확한 좌표 변환을 돕는다.

bash

screencommander screenshot \
  --display main \
  --out ~/Library/Caches/screencommander/captures/desk.png \
  --format png \
  --meta ~/Library/Caches/screencommander/captures/desk.json \
  --cursor

메인 디스플레이를 캡처하고 이미지와 메타데이터를 함께 저장하는 명령어

다양한 입력 합성 명령어를 통해 정밀한 제어가 가능하다. 단일 클릭, 더블 클릭, 텍스트 타이핑(붙여넣기 모드 포함), 시스템 단축키 입력 등을 지원하며, 여러 동작을 JSON 시퀀스 파일로 묶어 한 번에 실행할 수 있다.

bash

screencommander click 0.25 0.25 \
  --space normalized \
  --meta ./captures/desk.json \
  --button right \
  --double

정규화된 좌표와 메타데이터를 사용하여 특정 위치에 우클릭 더블 클릭을 수행하는 예시

json

{
  "steps": [
    { "click": { "x": 935, "y": 1074, "meta": "./last-screenshot.json" } },
    { "type": { "text": "hello from sequence", "mode": "paste" } },
    { "key": { "chord": "enter" } }
  ]
}

JSON 파일을 통해 클릭, 텍스트 입력, 키 입력을 순차적으로 실행하는 시퀀스 정의

에이전트 및 자동화 스크립트 친화적인 인터페이스를 갖추고 있다. --json 플래그를 통해 모든 실행 결과를 구조화된 데이터로 반환하며, doctor 명령어로 화면 기록 및 손쉬운 사용 권한 상태를 진단하고 해결 방법을 제시한다.

보안 및 관리 기능을 포함한다. 동작 전후의 스크린샷을 자동으로 캡처하여 이력을 남길 수 있으며, 오래된 캡처 유물을 정리하는 cleanup 기능을 통해 디스크 공간을 관리한다.

실무 Takeaway

macOS 기반 AI 에이전트 구축 시 screencommander를 활용하면 복잡한 UI 자동화 로직을 간단한 CLI 호출로 대체할 수 있다.
Vision 모델의 좌표 추론 오차를 줄이기 위해 캡처 시 생성되는 JSON 메타데이터의 포인트-픽셀 스케일 정보를 반드시 활용해야 한다.
json 및 --compact 옵션을 조합하여 에이전트가 최소한의 지연 시간으로 도구 실행 결과를 파싱하도록 파이프라인을 최적화할 수 있다.

언급된 리소스

GitHubscreencommander GitHub Repository