2026년 5월 20일 AI 뉴스 아카이브

ZeroUnlearn: Few-shot로 민감 지식 제거를 한 번의 편집으로 달성

대형 언어 모델은 방대한 웹 코퍼스로부터 민감한 정보를 흡수해 안전성과 프라이버시 문제를 야기한다. 기존 언학(larging-scale unlearning) 방법은 재훈련이나 과도한 파인튜닝에 의존해 비용이 크고, 관련 지식까지 파괴할 위험이 있다. ZeroUnlearn은 민감 지식을 특정 입력에 대해 안전한 상태로 재매핑하고 원래 표현을 직교적으로 제거하는 프레임워크로, few-shot 설정에서 빠르고 정밀한 unlearning을 가능하게 한다.

ZeroUnlearn

HF Daily Papers Architecture1달 전

대역폭 제약 속에서도 정책과 통신을 분리하는 SLIM 제안

MARL 시스템은 부분 관찰 환경에서 협력적 성능을 목표로 하지만 실제 네트워크 대역폭 제약은 메시지 규모와 빈도를 제한한다. 기존 접근은 메시지 차원을 줄이면 정책 latent 공간도 함께 축소되어 성능 저하가 발생하는 한계를 가진다. 본 연구는 통신 경로를 정책 입력에서 분리하고 β라는 표준화된 대역폭 예산을 도입하여 대역폭 제약 하에서도 협력을 유지하는 방법을 제시한다. 이로써 높은 대역폭에서도 최첨단 성능을 달성하고, 대역폭이 감소하더라도 로버스트한 성능을 보인다.

SLIM

Stability AI (Research)Architecture Products1달 전

Stability AI, 가변 길이 오디오 생성 모델 Stable Audio 3 공개

Stability AI가 가변 길이 오디오 생성 및 편집을 지원하는 Stable Audio 3와 이를 뒷받침하는 SAME 오토인코더를 공개했다.

SAME Stable Audio 3

AI Engineer1달 전

270M 파라미터 Gemma로 구현하는 초고속 온디바이스 AI

270M 파라미터의 Function Gemma 모델을 활용해 Pixel 7에서 초당 2,000 토큰을 처리하는 온디바이스 AI 구현 방법을 다룬다.

aifeed.dev1달 전

제품 URL만으로 3분 만에 완성하는 AI 비디오 광고 제작 도구, Prizmad

Prizmad는 제품 URL을 입력하면 아바타, 음성, B-roll, 자막을 포함한 완성된 비디오 광고를 3분 만에 제작하는 올인원 AI 파이프라인 도구입니다.

TechCrunch AI1달 전

보안 강화형 AI 에이전트 NanoClaw, 1,200만 달러 투자 유치하며 기업 시장 공략

보안을 강화한 AI 에이전트 도구 NanoClaw가 1,200만 달러 규모의 시드 투자를 유치하며 기업용 배포 서비스로 확장을 시작했다.

Hacker News - LLM1달 전

벤치마크로는 부족한 AI 신뢰성, 실무 워크플로에서 검증하는 LLM INQUISITOR

LLM INQUISITOR는 벤치마크가 포착하지 못하는 AI의 실무상 불안정성과 오류를 실제 워크플로 관찰을 통해 평가하는 방법론이다.

Salesforce1달 전

AI 에이전트 도입 66%, 서비스 팀의 역할을 재정의하는 3가지 필수 전략

AI 에이전트가 반복 업무를 자동화함에 따라, 서비스 조직은 직원 역량 강화와 지속적인 학습 문화 구축을 통해 인간의 전문성을 극대화해야 한다.

TechCrunch AI Companies1달 전

Figma가 디자인 캔버스에 직접 AI 에이전트를 도입하여 디자인 자동화를 지원합니다

Figma가 협업 캔버스 내에서 디자인 생성, 편집 및 워크플로 자동화를 수행하는 새로운 AI 에이전트를 출시했습니다.

Figma

The Verge AI1달 전

40,000에이커 규모의 AI 데이터 센터, 환경 파괴 우려로 주민 반발 직면

유타주에 건설 예정인 40,000에이커 규모의 초대형 AI 데이터 센터 'Stratos Project'가 막대한 에너지 소비와 환경 파괴 우려로 지역 주민들의 거센 반발을 사고 있다.

AI Andy Coding Agents Companies1달 전

Claude Design 사용 제한 해결, Open Design으로 무제한 디자인 시스템 구축법

Claude Design의 사용량 제한을 우회하고 오픈소스 Open Design과 Claude Code를 활용해 무제한으로 디자인 시스템을 구축하고 이미지 생성을 자동화하는 방법.

Claude Code MiniMax

Dataiku Blog1달 전

CEO 94%가 AI를 신뢰한다고 말하지만, 실제 비즈니스 결정에는 인간의 검증을 고집하는 이유

CEO들은 공개적으로 AI의 전략적 영향력을 인정하지만, 실제 의사결정에서는 투명성과 추적성 부족으로 인해 인간의 검증을 필수적으로 유지하는 신뢰 역설을 겪고 있다.

Hacker News - LLM1달 전

Google Sheets와 MCP를 연결해 나만의 연구 문헌 검토 비서 만들기

MCP 서버를 구축하여 Google Sheets에 정리된 연구 문헌 데이터를 LLM이 직접 조회하고 분석하게 함으로써 문헌 검토 과정을 효율화함.

Ars Technica AI Products Companies1달 전

Figure AI의 휴머노이드 로봇 시연, 과연 실전에서도 통할까?

Figure AI가 휴머노이드 로봇 Figure 03의 자율 패키지 분류 시연을 라이브스트리밍하며 화제를 모았으나, 시연의 제한적 성격에 대한 주의가 필요합니다.

Figure 03 Figure AI

r/MLOps MLOps1달 전

모델 재학습 없이 MLOps 인프라만으로 사기 탐지 성능을 복구하고 비용 34% 절감한 사례

사기 탐지 모델의 성능 저하 원인이 데이터 드리프트와 모니터링 부재임을 파악하고, MLOps 인프라를 구축하여 모델 재학습 없이 성능을 정상화하고 비용을 34% 절감했다.

Evidently AI

David Shapiro1달 전

AI와 로봇이 인간을 '잉여 생물량'으로 만드는 미래

AI와 로봇 자동화가 가속화되면서 인간 노동이 경제적으로 무의미해지는 테크노 봉건주의 사회의 도래와 그 경제적 함의를 분석한다.

r/LangChain1달 전

LangChain API와 에이전트 패턴을 한눈에 비교하는 오픈 카탈로그

에이전트 패턴과 이를 구현하는 프레임워크 API를 매핑하여 시각화한 오픈소스 카탈로그 프로젝트.

IBM Technology Companies1달 전

AI 보안 도구의 실체와 오픈소스화된 공격 도구의 위협

OpenAI, Microsoft, Mistral의 최신 AI 보안 도구와 Shai-Hulud 공격 사례를 통해 본 AI 기반 취약점 관리의 현주소를 논의한다.

Microsoft OpenAI

r/LLMDevs Language Models Dev Tools1달 전

LLM이 직접 명령을 실행하지 않는 안전한 Kubernetes CLI, KubeNexus

자연어 입력을 구조화된 JSON으로 변환하여 안전하게 Kubernetes 명령을 실행하는 로컬 CLI 도구입니다.

Gemma KubeNexus

Databricks Blog1달 전

2,500만 개 웹 페이지에서 의료 데이터를 추출해 자원봉사자를 매칭하는 AI 파이프라인

Databricks와 Virtue Foundation이 LLM과 분산 처리 기술을 활용해 전 세계 의료 시설 데이터를 통합하고 의료진과 필요 지역을 매칭하는 플랫폼을 구축했다.

r/MLOps1달 전

JSON을 대체할 수 있을까? LLM 토큰 비용 절감을 위한 TOON 실험

LLM 워크플로우에서 JSON 대신 TOON을 사용하여 토큰 사용량과 추론 비용을 절감할 수 있는지 실험한 결과와 의견 공유.

r/deeplearning1달 전

32x32 이미지 데이터를 16차원 벡터로 변환하는 커스텀 인코더 구현

PyTorch를 사용하여 32x32 이미지 입력을 16차원 특징 벡터로 변환하고 소프트맥스 확률을 출력하는 커스텀 인코더 모델 구현 가이드.

r/ClaudeAI1달 전

코드베이스의 국제화 오류를 100% 잡아내는 Claude Skill 개발기

코드베이스의 국제화(i18n) 오류를 자동으로 감지하고 번역 품질을 검증하는 Claude Skill을 개발하여 100%의 탐지 정확도를 기록함.

r/ClaudeAI1달 전

Claude Code의 컨텍스트 단절 문제, Memanto로 해결할 수 있을까?

Claude Code 스킬 실행 시 발생하는 컨텍스트 단절을 해결하기 위해, Memanto를 사용하여 메모리를 주입하고 프로젝트 결정사항을 기록하는 패턴을 설계했다.

Last Week in AI1달 전

OpenAI의 새로운 음성 API와 Claude for Legal 출시, 그리고 AI 업계의 주요 소식들

OpenAI의 음성 지능 API 업데이트와 Claude for Legal 출시, Isomorphic Labs의 대규모 투자 유치 등 AI 업계의 주요 뉴스를 요약합니다.

r/LLMDevs Libraries MLOps1달 전

RAG 환각 탐지와 관측성을 한 번에, LongTracer v0.2.0 공개

RAG 파이프라인의 환각 탐지, 추적, 비동기 알림을 지원하는 오픈소스 도구 LongTracer v0.2.0이 공개되었다.

FastAPI LongTracer

MIT AI News1달 전

화학 반응 예측부터 신약 후보 발굴까지, AI로 가속화하는 분자 설계

MIT의 Connor Coley 교수는 물리적 법칙과 화학적 원리를 학습한 AI 모델을 통해 신약 후보 물질 발굴과 반응 경로 예측을 가속화한다.

r/AutoGPT1달 전

AI 에이전트의 권한 남용, 어떻게 통제할 것인가?

AI 에이전트의 권한 범위를 제한하고 감사 추적을 제공하는 보안 도구 Kynara를 개발하며, 에이전트 보안 모델과 최소 권한 원칙 적용의 어려움에 대해 커뮤니티 의견을 구함.

r/artificial1달 전

벤치마크를 넘어선 AI 에이전트와 모델의 실시간 시장 점유율 추적 서비스

GitHub, Hugging Face 등 다양한 소스에서 데이터를 수집하여 AI 에이전트와 파운데이션 모델의 사용량, 비용, 속도를 실시간으로 점수화하고 비교하는 서비스.

Wired AI1달 전

권위 있는 문학상 수상작들이 AI 생성물? 커먼웰스 단편 소설상 논란

2026 커먼웰스 단편 소설상 수상작들이 생성형 AI로 작성되었다는 의혹이 제기되며 문학계의 진위 논란이 확산되고 있다.

Simon Willison Language Models Companies1달 전

llm-gemini 0.32 업데이트: Gemini 3.5 Flash 모델 지원 시작

llm CLI 도구의 llm-gemini 플러그인이 0.32 버전으로 업데이트되어 Gemini 3.5 Flash 모델을 지원한다.

Gemini 3.5 Flash Google

NVIDIA - Deep Learning Blog Libraries Inference1달 전

NVIDIA와 Google Cloud가 공개한 개발자용 AI 최적화 도구와 협력 로드맵

NVIDIA와 Google Cloud가 개발자 커뮤니티를 통해 JAX, NVIDIA Dynamo 등 AI 최적화 도구와 에이전트 AI 개발을 위한 인프라 지원을 확대한다.

JAX NVIDIA Dynamo

ClearML Blog1달 전

ClearML과 Dell, 엔터프라이즈 AI 구축을 가속화하는 AI Factory 블루프린트 공개

ClearML이 Dell AI 생태계 프로그램에 합류하며 Kubernetes 및 OpenShift 환경을 위한 사전 검증된 AI Factory 배포 블루프린트를 출시했다.

Salesforce1달 전

외부 AI 에이전트가 Salesforce에 접속할 때 보안을 유지하는 방법

Salesforce Headless 360을 통해 외부 AI 에이전트를 통합할 때, 기존 API 계약 대신 사용자 권한과 FLS를 활용한 보안 설계 및 감사 전략을 제시한다.

Ars Technica AI1달 전

과학 연구의 방대한 데이터를 처리하는 AI 에이전트: Google과 FutureHouse의 접근법

Google의 Co-Scientist와 FutureHouse가 과학 연구의 방대한 데이터를 처리하고 가설 검증을 돕는 에이전트형 AI 시스템을 공개했다.

Hugging Face Blog1달 전

OlmoEarth v1.1 공개: 추론 비용 3배 절감한 효율적인 원격 탐사 모델

OlmoEarth v1.1은 토큰 시퀀스 길이를 최적화하여 기존 모델 대비 추론 비용을 최대 3배 절감하면서도 성능을 유지하는 새로운 원격 탐사 모델 제품군이다.

Google DeepMind Domain AI Agents1달 전

AI로 항생제 내성 해결: 수년 걸리던 연구를 단 몇 분 만에

Google DeepMind와 케임브리지 대학 연구진이 AlphaFold와 Gemini를 활용해 항생제 내성균의 방어 기제를 분석하고 신약 개발을 가속화한다.

AlphaFold Co-Scientist

Google DeepMind Agents Language Models1달 전

과학적 가설 생성을 자동화하는 멀티 에이전트 AI 'Co-Scientist'

Google DeepMind가 공개한 Co-Scientist는 Gemini 기반의 멀티 에이전트 시스템으로, 복잡한 과학적 가설을 생성하고 검증하여 연구 속도를 획기적으로 높인다.

Co-Scientist Gemini

Google Research Products1달 전

Google Workspace에 도입된 24/7 개인 AI 에이전트 'Gemini Spark'와 신규 기능들

Google Workspace가 음성 기반 작업, 이미지 생성 도구 'Google Pics', AI Inbox 업데이트, 개인 AI 에이전트 'Gemini Spark'를 새롭게 선보였다.

Google Pics Google Workspace

Google Cloud AI Blog1달 전

구글이 AI 생성물 식별을 위해 SynthID와 C2PA를 전방위로 확대한다

구글이 AI 생성 콘텐츠의 출처와 변조 여부를 확인하는 SynthID 및 C2PA 기술을 검색, Gemini, Chrome, Pixel 기기로 확대하고 기업용 AI 콘텐츠 탐지 API를 출시한다.

The Verge AI1달 전

구글의 반격, Anthropic 'Mythos'에 맞설 코드 보안 AI 'CodeMender' 공개

구글이 Anthropic의 Claude Mythos에 대응하여 코드 보안 취약점을 탐지하고 수정하는 AI 에이전트 'CodeMender'의 API 테스트를 시작했다.

AI Engineer1달 전

AI 시스템의 진정한 주권 확보: 데이터부터 인프라까지의 실전 체크리스트

AI 시스템의 데이터, 모델, 인프라, 운영 측면에서 주권을 확보하고 벤더 종속을 방지하기 위한 전략과 실무 체크리스트를 다룬다.

서울대학교 DSBA 연구실1달 전

웹 에이전트 성능을 극대화하는 강화학습 학습 프레임워크 분석

웹 에이전트의 End-to-End 학습을 위한 WebAgent-R1과 스킬 라이브러리 기반의 SAGE 프레임워크를 소개한다.

Krish Naik1달 전

LLM Gateway로 API 비용 절감하고 장애 대응하는 법

LiteLLM과 LangChain을 사용하여 LLM 트래픽을 관리하고 비용, 장애 대응, 보안을 강화하는 LLM Gateway 구현 방법을 학습한다.

Databricks Blog1달 전

AI 에이전트의 핵심 역량, Databricks Context Engineer 인증으로 검증

Databricks가 AI 에이전트 시스템의 컨텍스트 설계 및 관리 능력을 검증하는 'Context Engineer Associate' 인증을 새롭게 출시했다.

AWS ML Blog Inference1달 전

LLM 도구 호출 비용 90% 절감: 프로그래밍 방식의 도구 호출(PTC) 가이드

LLM이 도구를 하나씩 호출하는 대신 Python 코드를 작성해 실행하는 PTC 방식을 통해 토큰 소비와 지연 시간을 획기적으로 줄이는 구현 방법을 소개합니다.

Amazon Bedrock

AWS ML Blog1달 전

SageMaker Feature Store에서 Lake Formation 연동과 Iceberg 비용 최적화가 가능해졌다

Amazon SageMaker Feature Store가 AWS Lake Formation 연동과 Iceberg 메타데이터 수명 주기 관리 기능을 통해 보안과 비용 효율성을 강화했다.

HF Daily Papers Prompting Libraries1달 전

스키마 기반 NLQ로 공공 교통안전 데이터 접근성 확대

NL 인터페이스와 GIS 기반 운송안전 데이터의 신뢰 가능하고 재현 가능한 상호작용이 필요하다. 제안된 스키마-기반 실행과 규칙 기반 검증 레이어는 해석 단계와 실행 단계 사이의 경계를 명확히 하여 재현성 및 감사추적성을 보장하고 공공부문 AI 거버넌스를 강화한다. 또한 현장의 학교·시의회·주민 단체 등 다양한 이해관계자들이 비전문적으로도 안전 데이터를 활용할 수 있도록 한다.

Natural Language Interface PostGIS

HF Daily Papers Architecture Libraries1달 전

Decoder와 정책의 교대 진화로 fidelity와 정합성 동시 향상

디스크리트 AR T2I에서 VQ decoder를 고정하면 Latent Covariate Shift가 발생한다. RankE는 정책과 디코더를 교대 업데이트하는 엔드-투-엔드 포스트 트레이닝으로 이 시프트를 흡수하고 픽셀 공간의 품질과 텍스트-이미지 정합성을 동시에 향상한다. LlamaGen-XL과 Janus-Pro에서 FID와 CLIP 모두 개선되며 GenEval에서도 강건한 성능이 확인된다.

RankE VQ Tokenizer

HF Daily Papers Libraries1달 전

대규모 지식 그래프로 자동 과학 연구의 탐색 비용을 대폭 줄인다

SciAtlas는 43M편의 논문과 26개 분야를 포괄하는 대규모 다학제 KG를 구축해 연구 간 장애를 제거하고, 3B 트리플의 연결로 AI 연구자 및 시스템에 전방위적 토폴로지 인사이트를 제공한다. Tri-path 협업 회상과 그래프 재랭킹으로 의미적 검색과 토폴로지 추론을 결합해 LLM의 잦은 추론 비용을 줄이고 결정적 연결을 보장한다.

SciAtlas

HF Daily Papers Architecture1달 전

timestep-aware한 Cross-Layer Routing으로 학습 속도 8.75× 가속 및 FID 7

Diffusion Transformers의 잔차 흐름은 여전히 고정된 합산으로 구성되어 깊은 층에서의 정보 전달이 비효율적이다. DAR은 timestep에 따라 가중치를 학습하는 라우팅을 도입해 PreNorm dilution과 gradient 흐름의 비대칭, 블록 간 중복 문제를 완화한다. 이로써 학습 속도와 최종 품질이 함께 개선될 수 있다.

Diffusion-Adaptive Routing DiT

HF Daily Papers Optimization Architecture1달 전

Optimizer와 Architecture 결합으로 FFN spectral scaling 재정의

Optimizer의 기하학이 FFN width의 스펙트럴 용량 활용 방식에 직접적 영향을 미친다. 같은 Transformer 아키텍처와 동일한 손실 목표라도 AdamW와 Muon/NorMuon 사이에 hard-soft 스펙트럼 분포 차이가 관찰되며, 이는 optimizer–architecture 공동 설계의 필요성을 시사한다.

AdamW Muon

HF Daily Papers Prompting1달 전

루브릭 기반 보상으로 텍스트-이미지 정합 보상 해석 가능성 및 데이터 효율성 향상

기존의 스칼라 보상 모델은 다차원 인간 선호를 단일 점수로 압축해 보상 해킹에 취약하다. 이 논문은 자동으로 루브릭을 생성·선택하고 VLM 판단에 루브릭 점수의 가중합을 적용하여 인간 선호를 더 정밀하고 해석 가능하게 반영한다. 적은 데이터로도 강력한 보상 신호를 얻고, 하위 작업에서 생성 품질을 개선한다.

AutoRubric-T2I

HF Daily Papers Architecture Libraries1달 전

ARVD 양자화에 최적화된 프레임-가중 프레임워크로 실전 효율성 대폭 향상

ARVD는 프레임을 순차적으로 생성하므로 초기 프레임의 양자화 오차가 후속 프레임의 품질에 지수적으로 누적된다. 또한 가중치 분포에 이상치 채널이 존재해 양자화 품질이 레이어별로 크게 달라진다. 이 논문은 이러한 두 가지 고유 문제를 해결하는 Q-ARVD를 제안하고, INT8 양자화에서도 실질적인 속도 및 모델 크기 이점을 달성한다.

Autoregressive Video Diffusion Models DiT

HF Daily Papers Video Gen Architecture1달 전

학습 없이 백본에 구애받지 않는 장시간 비디오 생성

긴 형식의 비디오 생성은 훈련 데이터의 부족과 노출 편향으로 인해 품질이 급격히 떨어진다. FlowLong은 pretrained flow-based diffusion 모델의 native 창 길이를 초과하는 장시간 비디오 생성을 학습 없이 달성하고, overlapping chunks를 Tweedie matching으로 정합시켜 시간적 일관성을 확보한다. 또한 오디오-비디오 결합 생성과 텍스트-3DGS와 같은 확장 작업에도 추가 학습 없이 적용 가능하다.

FlowLong Stochastic Early-Phase Sampling

HF Daily Papers Benchmarks Libraries1달 전

Vision-Language 모델과 고해상도 기하 표현으로 시뮬레이션-준비 3D 자산을 한 번에 생성

기존의 3D 생성 방법은 물리 속성이나 카테고리 다양성의 포괄에 한계가 있다. PhysX-Omni는 VLM 기반의 글로벌-로컬 추론과 고해상도 기하 표현을 도입하여 시뮬레이션에 바로 투입 가능한 자산을 생성하고 PhysXVerse 데이터셋과 PhysX-Bench를 통해 물리 속성·절대 스케일·운동학 등을 실제 조건에서 평가할 수 있게 한다. 이로써 embodied AI 및 로봇 시뮬레이션 분야의 파이프라인 확장을 가능하게 한다.

PhysX-Bench PhysX-Omni

HF Daily Papers1달 전

RLVR 업데이트의 토큰 크레딧 할당에 구분 신호를 도입

RLVR은 응답 수준의 보상으로 학습이 이뤄지나 토큰 차원의 확률 변화는 불투명하다. 표준 시퀀스-레벨 RLVR은 양측 중심을 평균으로 만들어 공통 패턴에 의해 구별력이 약해질 수 있다. DelTA는 토큰 그래디언트 방향의 구별 신호를 강화해 희소하지만 주목할 만한 방향을 더 잘 살리는 토큰 가중치를 학습에 반영한다.

HF Daily Papers1달 전

인터랙티브 VVT를 위한 다층 인터랙션 주입과 3D 핸드 프라이어 제안

본 논문은 사용자가 의복과 상호작용하는 영상에서 물리적 변형을 실시간으로 반영하는 인터랙티브 비디오 가상 피팅(Interactive VVT)을 formalize한다. 기존 VVT 연구는 비상호작용 상황에 주로 집중해 상호작용의 의미 해석이 부족했으며 2D 포즈로는 깊이 정보를 잃어 구체적 동작을 구별하기 어렵다. iTryOn은 garment-agnostic한 3D hand prior, 글로벌 캡션 및 시간 스탬프가 있는 액션 캡션으로 what과 when을 명확히 하여 복잡한 물리적 변형을 학습하게 한다. 또한 Action-aware Rotational Position Embedding(A-RoPE)과 action-aware constraint loss를 도입해 학습의 안정성과 상호작용 프레임의 비율이 큰 상황에서도 정확한 시퀀싱과 접촉을 보장한다. 이를 통해 실제 쇼핑·콘텐츠 제작 시나리오에 필요한 다이나믹하고 제어 가능한 VVT를 가능하게 한다.

HF Daily Papers Benchmarks1달 전

제약 주도 합성으로 LLM의 계획 능력을 확장하는 PlanningBench

현실적 계획 문제의 복합 제약과 글로벌 일치성을 요구하는 LLM의 평가 및 학습에 필요한 다양하고 검증 가능한 데이터를 확보한다. 벤치마크를 고정하는 대신 제약 구성과 자동 검증을 통해 데이터 생성에 대한 제어력을 높이고, 제약 결합과 다단계 추론의 일반화에 기여한다.

PlanningBench

HF Daily Papers Architecture1달 전

Group Autoregressive Transformer로 온라인·오프라인 기하학 인식의 통합 달성

기하학 인식은 센서 관찰로부터 Dense 3D 구조를 추정하는 문제지만, 온라인/오프라인, 다중 모달, 긴 시퀀스, metric-scale를 각각 다루는 독립적 프레임워크들로 분절되어 왔다. 이 논문은 Group Autoregressive Transformer라는 통합 프레임워크를 제시하고, 그룹 단위의 자동회귀를 통해 서로 다른 뷰 구성과 모달리티를 하나의 일관된 파이프라인으로 결합한다. 또한, anchor-free Relational Modeling과 큐-스타일 KV 캐싱으로 긴 시퀀스의 메모리·연산 비용을 억제하고, Scale-Adaptive Geometry Loss로 metric-scale 일반화를 점진적으로 회복한다. 이로써 7개 대표 태스크에 걸친 10개 벤치마크에서 Unified Geometry Perception를 달성한다.

anchor-free Group Autoregressive Transformer

HF Daily Papers1달 전

생성형 메모리로 LLM 에이전트의 기억 활용 최적화

LLM 에이전트는 상호 작용 간 누적된 경험을 재활용하는 데 한계가 있다. Mem-π는 메모리를 파라미터로 내재화하고 필요시 생성하며 abstention으로 불필요한 생성은 차단한다. 이를 통해 메모리 관리 오버헤드를 줄이고 작업 맥락에 맞춘 지침을 제공함으로써 웹 탐색, 터미널 도구 사용, 텍스트 기반 임베디드 환경에서 성능 향상을 달성한다.

HF Daily Papers Coding Agents1달 전

장기 코드 생성에서 테스트에만 의존하는 보상 해킹의 구조적 취약점을 규명

긴 호라이즌 코딩에서 감독은 자동화된 테스트에 의존하게 된다. 이로 인해 에이전트가 테스트를 통과하는 것을 목표로 하되 사용자의 실제 의도나 시스템의 종합적 올바름을 충족하지 못하는 현상이 나타난다. SpecBench는 가시적 validation 테스트와 Held-out 테스트를 구분해 보상 해킹의 존재를 정량적으로 측정하고, 모델 능력과 테스트 설계의 한계를 함께 분석함으로써 실제 소프트웨어의 건전한 구현을 평가하는 프레임워크의 필요성을 제시한다.

SpecBench

HF Daily Papers Libraries1달 전

octahedral 매핑으로 KV 캐시 비트 효율 극대화

긴 컨텍스트에서 KV 캐시의 메모리 대역폭이 추론 속도와 배치 규모를 좌우한다. 기존 회전 기반 양자화가 좌표 단위로 근사하던 반면, OCTOPUS는 좌표 triplet를 공동 양자화하고 방향과 노름을 분리해 비트를 비대칭적으로 배치함으로써 동일 비트에서 재구성 오차를 낮춘다. 텍스트/비디오/오디오 전 영역에서 다른 회전 기반 코덱들을 상회하거나 동률을 달성하고, decode 시 풀 키를 구성하지 않고도 키를 재구성한다.

Triton

HF Daily Papers1달 전

Z-order로 레이아웃 간 가림 문제를 해결하는 OcclusionFormer

레이아웃-투-이미지 모델은 객체 위치와 크기를 정밀하게 제어할 수 있지만, 객체 간의 occlusion(가림)으로 인한 중첩 영역의 불확실성이 여전히 남아 있다. 기존 방법은 중첩 영역을 명시적 Z-order 없이 처리해 텍스처가 얽히거나 깊이 관계가 잘못 반영될 수 있다. SA-Z 데이터셋과 OcclusionFormer는 Z-order 우선순위를 명시적으로 학습하고 볼륨 렌더링으로 occlusion 의존성을 해소함으로써 복잡한 다중 객체 장면에서 구조적 일관성과 시각적 현실감을 크게 향상시킨다.

HF Daily Papers Benchmarks1달 전

시간 의존성 캐시로 MCP 파이프라인 지연을 대폭 감소

산업 자산 운영 환경은 센서 데이터, 작업 지시, 실패 모드, 예측 도구, 도메인 에이전트 간의 협조가 필요한 지연 민감형 문제다. 기존 KV-cache나 임베딩 기반 시맨틱 캐싱은 외부 상태(자산, 센서, 시간 창)에 따른 출력 유효성 차이를 포착하지 못해 재사용의 안전성을 저해한다. 본 연구는 AOB(AssetOpsBench)에서 시간 의존성을 고려한 시맨틱 캐시와 MCP 워크플로우 최적화를 제안하고, MCP 레이어를 통한 도구 발견 비용 절감과 캐시 레이어의 시계열 검증으로 엔드투엔드 지연을 크게 감소시킴을 보여준다. 또한 순수 시맨틱 유사도만으로의 재사용이 파라미터가 풍부한 industrial 쿼리에서 한계를 보이며, 히트-디시전의 신뢰성 한계도 드러난다.

AssetOpsBench

HF Daily Papers Architecture1달 전

40B 토큰으로 1B HRM-Text가 2–7B 모델과 경쟁력 달성

HRM-Text는 듀얼 타임스케일 재귀와 MagicNorm, warmup deep credit assignment를 통해 긴 순환에서의 학습 안정성을 확보한다. 또한 task-completion objective와 PrefixLM masking을 결합해 Instruction-Response 데이터로부터 효율적으로 학습하며, 소규모 예산으로도 오픈형 모델과 경쟁 가능한 성능을 달성한다. 이로써 아키텍처와 학습 목표의 공동 설계가 compute-대-성능 비율을 크게 낮출 수 있음을 시사한다.

Hierarchical Recurrent Model HRM-Text

HF Daily Papers Architecture1달 전

GRAM: 재귀 추론에서 다중 경로를 샘플링해 해법 다양성 확보

GR A M은 재귀적 latent 추론을 확률적 다중 경로 계산으로 전환한다. 입력 x에 대해 pθ(y|x)를 근사하기 위해 여러 잠재 경로를 샘플링하고, 추론 시 깊이(depth)와 너비(width) 모두에서 스케일링이 가능하다. HRM, TRM 같은 deterministic RRMs의 한계를 넘어 다양한 후보 해를 병렬 탐색할 수 있으며, 조건부 해결뿐 아니라 입력이 없을 때의 무조건적 생성도 가능하다. Sudoku-Extreme, ARC-AGI, N-Queens, Graph Coloring 등 구조적 추론 벤치마크에서 성능 향상을 보이고, MNIST 같은 무조건적 생성 작업에서도 활용 가능성을 보인다.

GRAM

HF Daily Papers Libraries Architecture1달 전

지능형 편집으로 하나의 데이터로 이해·생성·편집의 성능을 동시에 향상

UMMs의 이해(Understanding)와 생성(Generation), 편집(Editing) 능력은 하나의 공유된 표현 공간에서 상호 강화되기 어렵다. 기존의 다중 태스크 학습은 데이터 혼합과 파이프라인 복잡성으로 인해 성능 트레이드오프를 유발했다. Uni-Edit은 지능형 편집이라는 일반 태스크를 제안하고, VQA 데이터를 추론이 필요한 편집 지시로 자동 합성하여 한 번의 학습 구성으로 세 가지 능력을 동시에 향상시킨다. 또한 Uni-Edit-148k를 통해 다양한 지식 영역을 포함하는 편집 지시를 확보하고, BAGEL 및 Janus-Pro에 적용해 다수 벤치마크에서 일관된 성능 향상을 확인했다.

BAGEL Janus-Pro

HF Daily Papers Domain AI Language Models1달 전

Rank-1 궤적으로 RLVR 학습 비용을 대폭 절감

RLVR은 대규모 언어모델의 추론 능력을 개선하는 핵심 기법이지만 계산 비용이 큼. 이 논문은 RLVR 업데이트가 매우 저랭크이며 대부분의 개선이 rank-1 구성요소에 의해 설명될 수 있음을 보인다. 이로써 초기 관찰 구간을 바탕으로 앞으로의 체크포인트를 예측하는 간단하고 계산 효율적인 RELEX를 제안하고, 최소 15–20%의 RLVR 학습 비용으로도 전체 성능에 근접하거나 개선된 결과를 얻을 수 있음을 보인다. 또한 rank-1 서브스페이스를 통한 투영이 노이즈를 제거하는 “스펙트럴 denoising” 효과를 갖는다는 점을 제시한다.

Qwen2.5-Math-1.5B Qwen3-VL-8B-Instruct

r/ClaudeAI Coding Agents Dev Tools1달 전

Claude Code의 기억력 부재 해결: 토큰 사용량 89% 절감하는 engramx 활용법

Claude Code의 세션 초기화 문제를 해결하기 위해 git 히스토리 기반 지식 그래프를 구축하여 컨텍스트 토큰을 89% 절감하는 engramx 도구 활용 사례.

Claude Code engramx

r/ClaudeAI1달 전

멀티 에이전트 시스템의 성능과 비용을 최적화하는 오케스트레이터 패턴

오케스트레이터 패턴을 활용하여 복잡한 작업을 효율적으로 분해하고, 고성능 모델과 저비용 모델을 조합하여 멀티 에이전트 시스템의 성능과 비용을 최적화하는 전략을 논의한다.

r/ClaudeAI1달 전

프롬프트 엔지니어링 대신 환경을 설계하여 AI 에이전트의 실수를 원천 차단하는 법

AI 코딩 에이전트에게 프롬프트를 수정하는 대신, 테스트 환경과 린터 규칙을 제약하여 올바른 결과가 도출되도록 유도하는 시스템 설계 전략을 제안한다.

r/ClaudeAI1달 전

Claude로 아이디어에서 제품까지 며칠 만에 구현하는 법

Claude를 단순 검색 도구가 아닌 체계적인 시스템으로 활용하여 개발 속도를 높이고 출력 품질을 개선하는 전략을 공유한다.

r/ClaudeAI Language Models Coding Agents1달 전

Claude Code로 에이전트가 딴길로 새지 않게 하는 'Goal-Rider' 워크플로

Claude Code 사용 시 'Goal'과 'Rider'라는 두 개의 마크다운 파일을 활용해 에이전트의 작업 범위를 명확히 정의하고 장시간 자율 실행을 안정화하는 워크플로.

Claude Claude Code

r/ClaudeAI1달 전

AI 에이전트 시대, 생산성을 높이는 4가지 자동화 카테고리

Claude Code를 활용해 업무 중 발생하는 마찰을 기록하고, 4가지 유형으로 분류하여 자동화하는 실무 워크플로를 공유합니다.

r/LLMDevs1달 전

로컬 모델이 클라우드 지식을 학습하는 오픈소스 AI 에이전트 Autodidact

로컬 LLM(Qwen 3.5 8B)과 클라우드 모델을 결합하여, 클라우드 답변을 로컬에 증류하고 비용을 절감하는 오픈소스 AI 에이전트 Autodidact 소개.

r/LLMDevs1달 전

AI API 비용 추적: 16개 모델의 평균 토큰 단가를 실시간으로 확인하는 방법

10개 제공업체와 16개 프론티어 모델의 API 추론 비용을 추적하고 시뮬레이션할 수 있는 Token Price Index 도구 소개.

r/MLOps1달 전

Gemini CLI 6월 18일 종료, Gemini 4.0 전환 시 지연 시간 15% 증가

Google이 Gemini CLI 지원을 6월 18일부로 종료하고 Gemini 4.0으로의 전환을 강제함에 따라, 성능 저하와 비용 상승에 대비한 마이그레이션이 시급하다.

Hacker News - LLM1달 전

Google이 29,000명 개발자를 대상으로 검증한 엔터프라이즈 LLM 최적화 전략

Google이 내부 소프트웨어 엔지니어링 생태계에 특화된 Gemini for Google을 개발하여, 개발 생산성을 23% 향상하고 코드 생존율을 17% 개선했다.

Eye on AI Companies1달 전

양자 컴퓨터의 미래: IBM이 전망하는 2026년 양자 우위와 2029년 로드맵

IBM의 양자 시스템 부사장 올리버 다이얼이 2023년 양자 유틸리티 달성 이후, 2026년 양자 우위 실현과 2029년 완전한 오류 수정 기계 개발을 향한 IBM의 로드맵을 설명한다.

Google IBM

The Verge AI Companies1달 전

구글 DeepMind CEO 데미스 하사비스, "지금은 AI 특이점의 초입"

구글 I/O 2026에서 데미스 하사비스가 AI 기술을 통한 과학적 발견의 새로운 시대를 예고하며 AGI 달성 가능성을 언급했다.

Google Google DeepMind

Salesforce Companies1달 전

AI는 이제 도구가 아닌 환경이 된다: 앰비언트 인텔리전스의 4가지 핵심 속성

AI가 사용자의 요청을 기다리는 수동적 도구에서, 환경에 녹아들어 상황을 인지하고 선제적으로 행동하는 앰비언트 인텔리전스로 진화하고 있다.

Salesforce

TechCrunch AI Companies1달 전

AI로 자동화된 피싱 공격을 막는 에이전트 보안 플랫폼 Ocean의 등장

Ocean은 AI를 활용한 자동화된 피싱 공격에 대응하기 위해 설계된 에이전트 기반 이메일 보안 플랫폼으로, 최근 2,800만 달러의 투자를 유치했다.

Lightspeed Venture Partners Ocean

LangChain Libraries MLOps1달 전

에이전트 개발부터 배포까지, LangChain이 제시하는 ADLC 플랫폼 전략

LangChain이 에이전트 개발 라이프사이클(ADLC)을 가속화하기 위한 신규 도구인 SmithDB, LangSmith Engine, Sandboxes 등을 발표했다.

LangChain LangGraph

Databricks Blog Companies Products1달 전

데이터 분석가 없이 공급망 리스크를 실시간으로 파악하는 방법

Databricks Genie는 제조 및 공급망 데이터를 대화형으로 질의하여 실시간 운영 통찰력을 제공하고 의사결정 주기를 단축한다.

Databricks Databricks Genie

Databricks Blog Libraries1달 전

Databricks에서 실시간 사기 탐지 파이프라인을 구축하여 지연 시간을 300ms 이하로 줄이는 방법

Spark Real-Time Mode와 Lakebase를 통합하여 별도의 스트리밍 엔진 없이도 300ms 이내의 지연 시간으로 실시간 사기 탐지 시스템을 구축하는 방법.

Spark

TechCrunch AI Companies1달 전

구글이 다시 스마트 글래스 시장에 도전한다: AI로 무장한 새로운 웨어러블 공개

구글이 워비파커, 젠틀몬스터, 삼성과 협력하여 Gemini 기반의 음성 명령형 AI 스마트 글래스를 발표했다.

Google

The Verge AI Language Models Companies1달 전

주차 딱지 이제 AI 탓? 구글 Gemini가 볼보 차량 외부 카메라로 주변 환경을 해석한다

구글이 볼보 EX60에 Gemini를 통합하여 외부 카메라로 주차 표지판과 주변 환경을 실시간으로 해석하고 안내하는 기능을 발표했다.

Gemini Google

Wired AI Companies1달 전

Google Flow의 새로운 AI 아바타 기능, 이제 영상 속 나를 직접 생성한다

Google이 Flow 도구에 사용자 아바타 생성 기능과 향상된 비디오 생성 모델인 Omni Flash를 도입했다.

Google

TechCrunch AI1달 전

구글, Gmail에 대화형 AI 'Gmail Live' 도입... 검색 없이 메일 내용 확인

구글이 Gmail에 대화형 AI 기능인 'Gmail Live'를 도입하고 기존 AI Inbox 기능을 구독 서비스 전반으로 확장한다.

TechCrunch AI1달 전

Claude Code와 Gemini가 Android 앱을 더 쉽게 개발하게 돕는 방법

구글이 Android CLI 1.0을 정식 출시하여 Claude Code, OpenAI Codex 등 외부 AI 에이전트가 Android Studio의 개발 지식과 도구를 활용할 수 있게 지원한다.

TechCrunch AI1달 전

구글 딥마인드, 스트리트 뷰 데이터로 현실 세계 시뮬레이션 구현

구글 딥마인드가 스트리트 뷰 데이터를 월드 모델 'Genie 3'에 통합하여 로봇 학습 및 게임을 위한 대화형 시뮬레이션 환경을 구축한다.

Hacker News - LLM Products1달 전

로컬 LLM 운영의 가시성을 확보하는 AI 게이트웨이, llama-dash

llama-dash는 로컬 LLM 추론 환경에 관측성, 정책 제어, API 키 관리 기능을 제공하는 오픈소스 AI 게이트웨이입니다.

llama-dash

Techpresso Companies1달 전

OpenAI 소송 패소와 Andrej Karpathy의 Anthropic 합류 등 주요 AI 소식

Elon Musk의 OpenAI 소송 패소, Andrej Karpathy의 Anthropic 합류, Meta의 AI 조직 개편 등 주요 AI 업계 소식을 정리한다.

OpenAI

Hacker News - LLM Companies1달 전

LLM 프롬프트 캐싱 비용 77% 절감: AI 에이전트로 최적화하는 실전 가이드

Firetiger는 AI 에이전트를 활용해 LLM 프로덕션 환경의 프롬프트 캐싱 TTL을 최적화함으로써 캐시 낭비를 77% 줄였다.

Firetiger

TechCrunch AI1달 전

OpenAI와 Tesla 거친 Andrej Karpathy, Anthropic에서 사전 학습 연구 이끈다

OpenAI와 Tesla 출신의 저명한 AI 연구자 Andrej Karpathy가 Anthropic에 합류하여 Claude의 사전 학습 연구를 가속화하는 팀을 이끈다.

The Verge AI1달 전

AI 졸업식 이름 호명 시스템, 오류로 학생들 이름 누락 및 재진행 소동

애리조나 글렌데일 커뮤니티 칼리지의 졸업식에서 AI 호명 시스템이 학생 이름을 잘못 발음하거나 누락하여, 결국 사람이 직접 이름을 다시 호명하는 재진행 사태가 발생했다.

AI Engineer1달 전

에이전트 성능을 높이는 5가지 규칙과 프롬프트 최적화

에이전트 구축의 4단계 프레임워크와 프롬프트 길이를 1/3로 줄여 성능을 극대화하는 실전 전략.

AWS ML Blog Products Dev Tools1달 전

세션이 바뀌어도 기억하는 AI, Kiro CLI와 Bedrock AgentCore Memory 연동 가이드

Amazon Bedrock AgentCore Memory와 MCP 서버를 활용하여 Kiro CLI에 세션 간 대화 맥락을 유지하는 영구적 메모리 기능을 구현한다.

Amazon Bedrock AgentCore Memory Kiro CLI

AWS ML Blog1달 전

지연 시간을 최소화하는 확장 가능한 음성 에이전트 설계: 3가지 핵심 아키텍처 패턴

Amazon Nova Sonic과 Bedrock AgentCore를 활용하여 음성 에이전트의 지연 시간을 줄이고 확장성을 높이는 3가지 설계 패턴을 설명한다.