Salesforce AI Research, ICLR 2026에서 21편의 논문 발표: 엔터프라이즈 AI의 신뢰성과 효율성 혁신

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Salesforce AI Research는 ICLR 2026에서 복잡한 환경에서의 에이전트 신뢰성, 추론 능력 강화, 시스템 효율성 및 평가 프레임워크를 주제로 한 21편의 논문을 공개했다. 주요 연구로는 GUI 환경에서 자율적으로 과업을 수행하는 GTA1 에이전트와 에이전트 간 대화 시 발생하는 '에코잉' 결함 분석 등이 포함됐다. 또한 강화학습(RL)을 활용해 데이터 효율성을 100배 높인 Webscale-RL과 수학적 추론 효율을 극대화한 HyRea 기술을 선보였다. 이러한 성과들은 기업용 AI가 대규모 환경에서 더 안전하고 경제적으로 작동할 수 있는 기술적 토대를 마련했다.

배경

LLM 에이전트 아키텍처 및 도구 사용(Tool Use) 개념, 강화학습(RL) 및 GRPO 알고리즘에 대한 기본 이해, 추론 시간 스케일링(Test-time Scaling) 및 CoT 개념

대상 독자

엔터프라이즈 AI 에이전트를 설계하는 개발자 및 효율적인 LLM 추론/학습 기법을 연구하는 ML 엔지니어

의미 / 영향

이번 연구 성과들은 AI 에이전트가 실제 비즈니스 환경에서 겪는 역할 상실이나 비효율성 문제를 해결하는 데 집중하고 있습니다. 특히 추론 시간 스케일링과 데이터 효율적 강화학습 기술은 기업들이 더 적은 비용으로도 고성능의 특화 모델을 운영할 수 있게 하여 AI 도입의 경제적 장벽을 낮출 것으로 기대됩니다.

섹션별 상세

LLM 에이전트 간 상호작용 시 할당된 역할을 버리고 상대방을 모방하는 '에코잉(Echoing)' 현상이 발견됐다. 2,500건 이상의 대화 분석 결과 에코잉 발생률이 최대 70%에 달했으나, 기존 표준 지표로는 93%가 성공으로 오판되는 심각한 평가 결함이 확인됐다. 구조화된 응답 방식이 문제를 완화할 수 있으나 완전히 해결하지는 못함을 규명했다.

근거

LLM 에이전트 간 대화에서 에코잉 발생률이 최대 70%에 달하며, 이 중 93%는 표준 지표에서 성공으로 기록된다. — ECHOING: Identity Failures 섹션

GUI 에이전트의 성능을 극대화하기 위해 추론 시간 스케일링을 도입한 GTA1 아키텍처를 제안했다. 여러 행동 후보를 제안하고 강화학습 기반의 그라운딩을 통해 최적의 행동을 선택함으로써 다양한 플랫폼에서 자율 과업 완수 능력을 크게 향상시켰다. 이는 에이전트가 복잡한 화면 인터페이스를 더 정확하게 이해하고 조작할 수 있게 한다.

Salesforce의 AI 에이전트가 시간, 일정, 아이디어 등을 관리하는 개념도 — Infographic엔터프라이즈 환경에서 에이전트가 단순히 텍스트를 생성하는 것을 넘어 시간 관리, 데이터 분석, 의사결정 지원 등 복합적인 과업을 수행하는 미래상을 보여줍니다. 기사에서 다룬 SCUBA 벤치마크나 GUI 에이전트 연구가 지향하는 실제 업무 자동화의 맥락을 시각화합니다.

근거

CoAct-1 시스템은 OSWorld 벤치마크에서 60.76%의 성공률을 기록하며 새로운 SOTA를 달성했다. — CoAct-1: Computer-using Multi-agent System 섹션

웹 에이전트의 취약한 단계별 상호작용을 개선하기 위해 웹사이트 기능을 재사용 가능한 도구로 역공학하는 WALT 시스템을 개발했다. 검색, 필터링, 생성 등의 기능을 도구 호출 방식으로 전환하여 VisualWebArena 등에서 더 적은 단계로 높은 성공률을 기록했다. 기존의 불안정한 클릭 위주 방식에서 신뢰할 수 있는 API 호출 방식으로 패러다임을 전환했다.

비즈니스 데이터와 파운데이션 모델의 결합 아키텍처 다이어그램 — Diagram파운데이션 모델이 기업 내부의 정형/비정형 데이터와 결합하여 신뢰할 수 있는 출력을 생성하는 구조를 설명합니다. 이는 기사에서 언급된 DeepTRACE나 FARE와 같은 평가 및 신뢰성 연구가 왜 중요한지를 아키텍처 관점에서 뒷받침합니다.

강화학습의 한계를 극복하기 위해 자가 생성 힌트를 활용하는 NuRL 기법을 도입했다. 기존 GRPO 방식이 해결하지 못하던 난제들을 힌트를 통해 학습 데이터로 전환함으로써 성능 한계치를 높였다. 6개의 벤치마크와 3개의 모델에서 일관된 성능 향상을 입증하며 학습 효율성을 증명했다.

수학적 추론 시 명시적 사고와 잠재적 사고를 동적으로 전환하는 HyRea 기술을 통해 토큰 사용량을 획기적으로 줄였다. 엔트로피 기반의 가이드를 통해 필요한 경우에만 긴 사고 과정을 거치도록 설계하여 정확도는 유지하면서 토큰 사용량을 약 60% 수준으로 절감했다. 이는 대규모 추론 서비스의 운영 비용을 직접적으로 낮추는 효과가 있다.

근거

HyRea 기술은 수학적 추론 벤치마크에서 정확도를 유지하며 토큰 사용량을 약 60%로 줄였다. — Learning to Reason over Continuous Tokens (HyRea) 섹션

사전 학습 데이터를 1.2M개의 검증 가능한 QA 쌍으로 변환하여 학습하는 Webscale-RL 파이프라인을 구축했다. 이 방식을 통해 기존 사전 학습 대비 100분의 1 수준의 토큰만으로도 동등한 성능의 지속적 학습(Continual Pre-training)이 가능함을 확인했다. 데이터 구축 비용을 획기적으로 줄이면서 모델의 지식을 효율적으로 업데이트할 수 있는 경로를 제시했다.

근거

Webscale-RL은 기존 사전 학습 대비 100배 적은 토큰으로 유사한 성능의 지속적 학습을 달성했다. — Webscale-RL 섹션

용어 해설

Test-time Scaling: — 모델이 추론(Test-time) 시에 더 많은 계산 자원을 투입하여 결과의 품질을 높이는 기법이다. 여러 후보 답변을 생성하고 검증하거나, 사고의 사슬(CoT)을 확장하는 방식을 통해 복잡한 추론 문제의 해결 능력을 향상시킨다.
Echoing: — 자율적인 LLM 에이전트들이 서로 대화할 때, 할당된 고유 역할을 잊고 대화 상대방의 말투나 역할을 그대로 따라 하는 현상이다. 이는 에이전트 시스템의 신뢰성을 저해하며, 표준 지표로는 감지하기 어려운 정렬 실패 사례에 해당한다.
GRPO: — Group Relative Policy Optimization의 약자로, 별도의 비평가(Critic) 모델 없이 그룹 내 상대적 보상을 통해 정책을 업데이트하는 강화학습 기법이다. 계산 효율성이 높으며 최근 추론 모델의 정렬 및 성능 향상에 널리 사용된다.
Circuit Analysis: — 신경망 내부의 특정 뉴런이나 어텐션 헤드가 수행하는 논리적 기능을 분석하여 모델의 작동 원리를 파악하는 해석 가능성(Interpretability) 연구 방법이다. 특정 작업이 모델 내 어떤 구조적 경로를 통해 처리되는지 규명한다.

언급된 리소스

문서Salesforce AI Research ICLR 2026 Schedule