핵심 요약
기존 AI 에이전트가 외부 운영체제 위에서 동작하는 방식이었다면, 이 논문은 모델 자체가 운영체제와 하드웨어의 역할을 수행하는 새로운 컴퓨팅 패러다임을 제시한다. 비디오 생성 모델을 활용해 CLI와 GUI 환경을 픽셀 단위로 직접 제어하고 실행 상태를 유지할 수 있음을 입증하여, 미래의 범용 신경망 컴퓨터(CNC)로 가는 로드맵을 구축했다는 점에서 중요하다.
왜 중요한가
기존 AI 에이전트가 외부 운영체제 위에서 동작하는 방식이었다면, 이 논문은 모델 자체가 운영체제와 하드웨어의 역할을 수행하는 새로운 컴퓨팅 패러다임을 제시한다. 비디오 생성 모델을 활용해 CLI와 GUI 환경을 픽셀 단위로 직접 제어하고 실행 상태를 유지할 수 있음을 입증하여, 미래의 범용 신경망 컴퓨터(CNC)로 가는 로드맵을 구축했다는 점에서 중요하다.
핵심 기여
신경망 컴퓨터(NC) 추상화 정의
계산, 메모리, I/O를 단일 학습 런타임 상태로 통합하는 새로운 기계 형태인 NC를 정의하고, 이를 비디오 모델 기반의 프로토타입으로 구현했다.
CLI 및 GUI 인터페이스 프로토타입 구축
터미널 환경(CLIGen)과 데스크톱 환경(GUIWorld)에서 텍스트 명령과 마우스/키보드 동작에 반응하여 화면 프레임을 생성하고 실행 상태를 유지하는 모델을 개발했다.
행동 주입 메커니즘 분석
GUI 제어를 위해 외부(External), 맥락(Contextual), 잔차(Residual), 내부(Internal) 등 네 가지 행동 주입 방식을 비교 분석하여 내부 교차 어텐션 방식이 가장 효과적임을 확인했다.
범용 신경망 컴퓨터(CNC) 로드맵 제시
튜링 완전성, 보편적 프로그래밍 가능성, 동작 일관성 등을 포함하여 현재의 프로토타입을 넘어 성숙한 CNC로 발전하기 위한 기술적 요건과 단계별 로드맵을 설계했다.
핵심 아이디어 이해하기
기존의 컴퓨터 아키텍처는 CPU(계산), RAM(메모리), 모니터/키보드(I/O)가 물리적으로 분리되어 있으며, 소프트웨어는 이들 사이의 데이터를 명시적으로 이동시키며 동작한다. 신경망 컴퓨터는 이 모든 구성 요소를 딥러닝 모델의 가중치와 잠재 상태(Latent State) 내부로 흡수시킨다. 즉, 모델의 특정 벡터 값이 현재 실행 중인 프로그램의 메모리이자 계산 결과가 되며, 다음 시점의 벡터를 예측하는 과정 자체가 컴퓨터의 연산 과정이 된다.
이 논문은 비디오 생성 모델의 잠재 공간을 컴퓨터의 '런타임 상태'로 활용한다. 사용자가 입력하는 텍스트나 마우스 좌표는 임베딩되어 모델의 내부 상태를 업데이트하는 조건부 입력으로 작용한다. 모델은 이전 프레임의 잠재 벡터와 현재 입력을 결합하여 다음 프레임의 잠재 벡터를 생성하는데, 이 과정에서 터미널의 텍스트가 출력되거나 GUI의 메뉴가 열리는 등의 '컴퓨팅 결과'가 픽셀 형태로 렌더링된다.
결과적으로 별도의 운영체제나 실행 환경 없이도 모델이 스스로 터미널의 물리 법칙(스크롤, 텍스트 래핑 등)과 GUI의 상호작용(클릭 피드백, 윈도우 전환 등)을 내부적으로 시뮬레이션하고 실행할 수 있게 된다. 이는 AI가 도구를 사용하는 단계를 넘어 AI 자체가 도구가 되는 패러다임의 전환을 의미한다.
방법론
전체 접근 방식은 비디오 생성 모델인 Wan2.1을 기반으로 하며, 이를 CLI와 GUI 환경에 맞게 특화된 비디오 생성기로 변형했다. 모델은 이전 상태 h_{t-1}, 현재 관찰 x_t, 사용자 행동 u_t를 입력받아 업데이트 함수 F_θ를 통해 새로운 상태 h_t를 계산하고, 디코더 G_θ를 통해 다음 프레임 x_{t+1}을 샘플링한다. [이전 잠재 벡터와 현재 픽셀/행동 데이터를 입력으로] → [확산 트랜스포머(DiT) 연산을 수행해] → [업데이트된 잠재 벡터를 얻고] → [이 값이 현재 컴퓨터의 실행 상태를 의미하게 된다].
CLI 환경(CLIGen)에서는 텍스트 명령과 터미널 화면을 동기화하여 학습했다. VAE 인코더가 첫 프레임을 잠재 공간으로 투사하고, CLIP과 T5 인코더가 시각 및 텍스트 특징을 추출하여 확산 트랜스포머에 주입한다. [텍스트 프롬프트와 이미지 특징을 입력으로] → [교차 어텐션(Cross-Attention) 연산을 수행해] → [잠재 상태 z_t를 갱신하고] → [이를 통해 터미널의 텍스트 출력과 커서 움직임을 픽셀 단위로 정확히 렌더링한다].
GUI 환경(GUIWorld)에서는 정밀한 커서 제어를 위해 네 가지 행동 주입 방식을 실험했다. 특히 '내부(Internal) 주입' 방식은 트랜스포머 블록 내부에 전용 행동 교차 어텐션 레이어를 추가하여, [잠재 행동 특징을 쿼리(Query)로, 비디오 잠재 벡터를 키/값(Key/Value)으로 입력하여] → [어텐션 연산을 수행해] → [행동과 픽셀 간의 정밀한 정렬을 수행하고] → [사용자 클릭에 즉각 반응하는 화면 변화를 생성한다].
주요 결과
실험 결과, 신경망 컴퓨터는 실용적인 폰트 크기(13px)에서 40.77dB의 PSNR과 0.989의 SSIM을 기록하며 높은 시각적 재현율을 보였다. 특히 CLI 환경에서 상세한 묘사가 포함된 캡션을 사용할 경우 PSNR이 21.90dB에서 26.89dB로 크게 향상되어, 구체적인 명령 입력이 픽셀 생성의 정확도를 높이는 핵심 요소임을 확인했다.
GUI 제어 성능에서는 Claude CUA와 같은 고품질의 목표 지향적 데이터셋(110시간)이 대규모 무작위 탐색 데이터(1,400시간)보다 훨씬 우수한 성능을 보였다. 또한 SVG 마스크와 참조 프레임을 통한 명시적 시각 감독을 추가했을 때 커서 정확도가 8.7%에서 98.7%로 비약적으로 상승하여, 정밀한 인터페이스 제어를 위해서는 픽셀 단위의 직접적인 감독이 필수적임을 입증했다.
산술 연산 능력(Arithmetic Probe) 테스트에서는 대부분의 비디오 모델이 낮은 성능을 보였으나, Sora 2는 71%의 정확도를 기록하며 잠재적인 기호 추론 가능성을 보여주었다. 또한 모델의 가중치를 수정하지 않고 프롬프트를 재구성(Reprompting)하는 것만으로도 산술 정확도를 4%에서 83%까지 끌어올릴 수 있음을 확인하여, 현재 NC의 한계가 모델 용량보다는 제어 인터페이스의 정밀도에 있음을 시사했다.
기술 상세
NC 아키텍처는 Wan2.1 비디오 모델을 백본으로 사용하며, 여기에 인터페이스별 조건부 모듈을 추가한 구조이다. 핵심은 비디오의 잠재 벡터(Latent)를 컴퓨터의 가변적인 메모리 상태로 취급하는 것이다. 학습 과정에서는 확산 손실(Diffusion Loss)과 함께 프레임 특징과 행동 임베딩을 정렬하는 시간적 대조 학습 손실(Temporal Contrastive Loss)을 사용하여 입출력 간의 인과 관계를 강화했다.
GUIWorld의 행동 인코더는 마우스와 키보드 이벤트를 API 형태의 메타 행동(Meta-action)으로 변환하여 처리한다. 이는 원시 이벤트 스트림보다 상태 전이를 더 명확하게 정의할 수 있게 한다. 또한 시간적 정렬을 위해 지연 시간(Lag)을 고려한 윈도우 인코더를 도입하여, 사용자의 행동이 시각적 결과로 나타나기까지의 물리적 시차를 모델링에 반영했다.
연구팀은 NC가 진정한 CNC로 거듭나기 위해 필요한 4가지 요건을 정의했다: 1) 임의의 계산을 수행할 수 있는 튜링 완전성, 2) 새로운 루틴을 설치하고 호출할 수 있는 보편적 프로그래밍 가능성, 3) 명시적 업데이트 없이는 동작이 변하지 않는 동작 일관성, 4) 신경망 고유의 수치적 의미론을 활용한 아키텍처적 이점 확보이다. 이는 기존의 기호적 컴퓨터와 신경망의 확률적 특성을 결합하는 새로운 설계 철학을 담고 있다.
한계점
현재 NC 프로토타입은 장기적인 추론(Long-horizon reasoning)과 복잡한 기호 처리 능력에서 한계를 보인다. 특히 산술 연산과 같은 엄밀한 논리 작업에서 오류가 발생하기 쉬우며, 실행의 안정성과 일관된 루틴 재사용 기능은 아직 해결해야 할 과제로 남아 있다. 또한 비디오 생성 기반의 접근 방식은 연산 비용이 높고 실시간 상호작용을 위한 최적화가 더 필요하다.
실무 활용
현재는 연구 단계의 프로토타입이나, 향후 별도의 OS 설치 없이 브라우저나 터미널 기능을 수행하는 경량화된 AI 하드웨어 또는 가상 런타임으로 활용될 수 있다.
- 별도의 실행 환경 없이 자연어 명령만으로 동작하는 가상 터미널 및 데스크톱 서비스
- 복잡한 GUI 조작 과정을 학습하여 자동으로 수행하는 시각적 에이전트 훈련 플랫폼
- 소프트웨어 스택을 단순화하여 보안 위협을 줄인 신경망 기반의 격리된 실행 환경
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.