스크린샷 대신 DOM 구조를 활용하는 오픈소스 AI 브라우저 에이전트 'Sarathi AI'

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

스크린샷 기반의 비전 모델 대신 정형화된 DOM 데이터를 활용해 빠르고 저렴하게 웹 브라우저를 자동화하는 오픈소스 에이전트 Sarathi AI를 소개한다.

배경

기존의 스크린샷 기반 비전 모델 에이전트가 느리고 비용이 많이 들며 부정확하다는 문제를 해결하기 위해, DOM 구조를 직접 분석하여 동작하는 크롬 확장 프로그램을 개발하고 커뮤니티의 기술적 피드백을 요청했다.

의미 / 영향

브라우저 에이전트 설계 시 비전 모델에만 의존하기보다 DOM 구조를 활용하는 하이브리드 또는 순수 DOM 방식이 실무적 효율성이 높음을 시사한다. 특히 로컬 LLM이나 저비용 API를 활용한 자동화 도구 개발에 중요한 참고 사례가 된다.

커뮤니티 반응

대체로 긍정적이며, 비전 기반 방식의 대안으로서 DOM 분석 효율성에 대해 높은 관심을 보였다.

주요 논점

01찬성다수

DOM 기반 접근이 비전보다 훨씬 효율적이고 정확하다는 의견이 다수이다.

합의점 vs 논쟁점

합의점

비전 모델은 브라우저 자동화에 있어 비용과 속도 측면에서 비효율적이다
DOM 구조를 직접 파싱하는 것이 더 정밀한 제어를 가능하게 한다

논쟁점

섀도우 DOM이나 복잡한 동적 웹사이트에서의 파싱 안정성
봇 방지 시스템(Anti-bot) 우회 시의 윤리적/기술적 문제

실용적 조언

복잡한 웹 자동화 시 비전 모델 대신 DOM 메타데이터를 JSON으로 변환하여 LLM에 전달하면 비용을 절감할 수 있다

섹션별 상세

기존 비전 기반 에이전트의 한계와 DOM 기반 접근 방식의 차별점을 제시했다. 비전 모델은 픽셀 모호성으로 인해 클릭 위치를 잘못 잡거나 토큰 비용이 높지만, Sarathi AI는 페이지에 고유 ID를 주입하고 텍스트, 태그, 레이블 등 메타데이터를 추출하여 LLM에 전달함으로써 결정론적인 동작을 보장한다.

시스템의 구체적인 작동 메커니즘을 공개했다. 페이지 주입, 가시적 요소에 대한 고유 ID 할당, 구조화된 메타데이터 추출, LLM으로의 JSON 스냅샷 전송, 그리고 최종적으로 탐색, 클릭, 입력 등의 구조화된 액션을 실행하는 루프 구조를 갖추고 있다.

실제 테스트 결과와 현재 한계점을 공유했다. 지메일 답장 작성, 다중 필드 폼 입력, 이커머스 장바구니 담기 등 일반적인 웹사이트의 90%에서 정상 작동함을 확인했으나, 인증 리다이렉트나 강력한 봇 방지 시스템, 동적 섀도우 DOM(Shadow DOM) 처리에는 여전히 어려움이 있음을 밝혔다.

실무 Takeaway

비전 모델 대신 DOM 데이터를 사용하면 추론 속도가 빠르고 토큰 비용이 절감된다.
고유 ID 할당을 통해 픽셀 좌표가 아닌 요소 기반의 정확한 타겟팅이 가능하다.
사용자의 API 키를 로컬 크롬 스토리지에 저장하여 보안과 프라이버시를 강화했다.
복잡한 SPA(Single Page Application) 상태 전환이나 보안이 강화된 사이트에서는 여전히 개선이 필요하다.

언급된 도구

Sarathi AI추천링크

DOM 기반 AI 브라우저 에이전트

언급된 리소스

GitHubSarathi AI GitHub Repository

DemoSarathi AI Demo Video