UI-TARS
사용자 인터페이스(UI) 인식 및 조작에 특화된 비전 언어 모델이다. 화면 스크린샷을 분석하여 버튼, 입력창 등의 정확한 픽셀 좌표를 추출하는 기능을 수행한다. 이를 통해 AI 에이전트가 사람처럼 화면을 보고 마우스를 제어할 수 있게 한다.