2026년 5월 12일 AI 뉴스

Orthogonal Gradient Projection으로 안전성 업데이트의 간섭을 최소화

대형 언어 모델의 안전성 개선은 일반 능력의 저하를 유발할 수 있다. 본 연구는 이를 연속 학습 프레임으로 재해석하고, 안전 업데이트의 방향이 기존 일반 능력의 방향과 충돌하는 문제를 gradient 차원의 간섭으로 설명한다. 직교 그래디언트 투영(OgPSA)은 이 간섭을 줄여 안전성과 일반 능력의 동시 향상을 가능하게 한다.

AI LABS Coding Agents Products

LLM 연구의 방대한 지형을 한눈에 파악하는 지식 그래프 공개

LLM의 철학, 추론, RAG 등 다양한 연구 주제를 905개의 인사이트와 5902개의 연결 고리로 시각화한 지식 그래프입니다.

피그마의 시대는 끝났나? Claude Design과 Google Stitch 전격 비교

Anthropic의 Claude Design과 Google의 Stitch를 기능, 비용, 디자인 품질, 코드 연동성 등 다각도에서 비교 분석하여 최적의 AI 디자인 워크플로우를 제안한다.

Claude CodeClaude DesignGoogle Stitch

Krish Naik

RAG 시스템의 성능 병목과 비용 문제, 시맨틱 캐싱과 BetterDB로 해결하기

Valkey와 BetterDB를 활용하여 RAG 파이프라인에 시맨틱 캐싱을 적용하고, MCP를 통해 자연어로 시스템을 모니터링하는 프로덕션 수준의 구축 방법을 제시한다.

Ars Technica AI Companies

LLM이 스스로 설계한 언어? 2,000줄의 NES 에뮬레이터까지 단번에 작성

Claude Opus가 설계한 Laze는 LLM의 코드 생성 효율과 정확도를 극대화하기 위해 구두점을 최소화하고 C로 컴파일되는 네이티브 언어입니다.

Dataiku Blog

AI 주권, 단순히 로컬 서버를 쓰는 것만으로는 부족한 이유

AI 주권은 데이터 거주지를 넘어 벤더 종속성 탈피와 기술 스택 전반에 대한 통제력 및 유연성을 확보하는 비즈니스 독립성 전략이다.

KDNugget

데이터 처리 속도 10배 향상? Pandas를 Polars로 대체해야 하는 이유

대규모 데이터셋 처리 시 Pandas의 성능 한계를 극복하기 위해 Rust 기반 Polars의 병렬 처리와 지연 평가를 활용한 성능 최적화 사례를 분석한다.

TechCrunch AI

Figma와는 다르다? 코드 위에서 직접 디자인하는 AI 도구 Dessn

디자인 스타트업 Dessn이 코드베이스를 클라우드에서 직접 실행하고 AI 프롬프트로 UI를 수정할 수 있는 도구를 개발하여 600만 달러의 시드 투자를 유치했다.

아마존의 AI 실적 부풀리기? 직원들이 토큰 사용량을 늘리는 이유

아마존 직원들이 AI 기술 활용도를 높게 평가받기 위해 내부 도구 'MeshClaw'를 활용해 불필요한 작업까지 자동화하며 토큰 사용량을 인위적으로 늘리고 있다.

Amazon

NVIDIA - Deep Learning Blog

NVIDIA와 SAP가 손잡고 기업용 AI 에이전트의 보안 장벽을 세운다

NVIDIA와 SAP가 협력하여 오픈소스 런타임 OpenShell을 통해 기업용 자율 AI 에이전트의 보안, 정책 집행 및 거버넌스 제어 기능을 강화한다.

Gradient Flow (Ben Lorica)

토큰은 싸지는데 왜 AI 청구서는 늘어날까? CFO를 위한 AI 거버넌스 가이드

AI 토큰 단가는 하락하고 있으나, 에이전트 기반의 과도한 소비와 가시성 부족으로 인해 기업의 전체 AI 지출은 오히려 급증하고 있으며 이를 관리하기 위한 워크플로 중심의 거버넌스가 시급하다.

MIT Technology Review

AI가 스스로 제로데이 취약점을 발견했다? 구글이 포착한 새로운 보안 위협

AI가 생성한 최초의 제로데이 익스플로잇 발견과 OpenAI의 새로운 보안 모델 출시 등 AI 기술의 최신 보안 및 산업 동향을 다룹니다.

KDNugget

시계열 데이터 분석, 이 5가지 Python 스크립트로 종결하세요

시계열 데이터의 리샘플링, 이상치 탐지, 성분 분해, SARIMA 예측 및 다중 시계열 비교를 자동화하는 5가지 핵심 Python 스크립트를 소개합니다.

TechCrunch AI Companies

아마존 링 고객 상담 100% 책임지는 AI 음성 에이전트 Vapi의 급성장

AI 음성 인프라 스타트업 Vapi가 아마존 링의 전량 도입 성과를 바탕으로 5억 달러 가치를 인정받으며 5,000만 달러 규모의 시리즈 B 투자를 유치했다.

Amazon RingVapi

Analytics Vidhya

단순 코딩 보조를 넘어선 오픈소스 에이전트 런타임, Hermes Agent

Nous Research가 공개한 Hermes Agent는 스케줄링, 도구 통합, 상태 관리를 지원하는 고급 AI 에이전트 구축용 오픈소스 런타임입니다.

RIKEN AIP

RIKEN AIP, ICML 2026에서 42편 논문 채택하며 AI 연구 저력 증명

일본 RIKEN AIP 연구소가 세계적 AI 학회인 ICML 2026에서 총 42편의 논문을 채택시키는 성과를 거두었습니다.

AICodeKing

400개 이상의 도구로 나만의 자율형 AI 에이전트 워크플로 구축하기

OnDemand 플랫폼의 마켓플레이스, 플레이그라운드, 플로우 빌더를 사용하여 비즈니스용 멀티 에이전트 시스템을 구축하고 자동화하는 방법을 제시한다.

r/LLMDevs Language Models

DeepSeek V4 Flash, Claude Opus 대비 비용 56배 저렴하지만 성능 차이는 단 2.3점

14개 LLM을 대상으로 코드 분석 성능과 비용을 벤치마크한 결과, DeepSeek V4 Flash가 압도적인 가성비를 보였으며 고가 모델의 비용 효율성은 낮은 것으로 나타났다.

Claude Opus 4.7DeepSeek-V4-Flash

r/LLMDevs Products

AI의 유머 감각을 측정한다? 실시간 뉴스 기반 밈 생성 벤치마크 memebench

실시간 뉴스 헤드라인을 바탕으로 AI 모델들이 밈을 생성하고 사용자가 블라인드 투표로 우열을 가리는 벤치마크 플랫폼입니다.

OpenRouter

r/ClaudeAI Language Models

자고 있는 동안 Claude 사용 제한이 풀린다면? tmux와 at으로 자동화하기

tmux와 at 명령어를 조합하여 Claude의 사용량 제한이 해제되는 시점에 맞춰 자동으로 작업을 재개하는 쉘 스크립트 팁이다.

Claude

r/MLOps Dev Tools Language Models

성공했다는 AI 에이전트의 3%는 거짓말? 실무용 검증 패턴 공개

AI 에이전트가 로그상 성공을 보고하더라도 실제 작업이 누락되는 문제를 해결하기 위해 4단계 사후 검증 프로세스를 도입하여 신뢰성을 확보했다.

AthenaClaudePostgres

r/ClaudeAI Coding Agents Products

단순 코드 복붙은 끝, Claude가 직접 Blender를 조작하고 렌더링을 확인한다

MCP를 통해 Claude Desktop과 Blender를 직접 연결하여 실시간 3D 모델링 및 시각적 피드백 루프를 구축하는 실전 워크플로가 공유되었다.

Claude CodeClaude DesktopMCP

Latent Space (swyx)

200ms의 마법, Thinking Machines가 공개한 실시간 음성 AI의 미래

Thinking Machines가 200ms 단위의 마이크로 턴 구조를 통해 실시간 멀티모달 상호작용을 구현한 TML-Interaction-Small 모델을 공개했습니다.

Modal Blog

Modal이 공개한 GPU 추론 서버 부팅 40배 단축의 비밀

Modal은 클라우드 버퍼, 커스텀 파일시스템, CPU/GPU 체크포인트 기술을 결합하여 GPU 서버리스 추론의 콜드 스타트 지연을 2,000초에서 50초로 단축했습니다.

HF Community Blogs

데이터 센터 없이 구현된 38,000라인의 독립적 AI 인지 아키텍처 CAPT

독립 연구자 knowurknot이 개발한 46개 모듈 기반의 비통계적 인지 아키텍처 CAPT의 구조와 특징을 IBM Granite 모델의 분석을 통해 공개합니다.

Stanford Online

스탠포드가 알려주는 LLM 추론 속도 10배 높이는 아키텍처와 시스템 기법

LLM 추론의 핵심 병목인 메모리 대역폭 문제를 분석하고, KV 캐시 최적화, 추측 디코딩, 연속 배칭 등 최신 성능 향상 기법을 다룹니다.

Stanford Online

수술실의 미래, 스스로 판단하고 집도하는 자율 수술 로봇의 진화

UC 샌디에이고의 Michael Yip 교수가 이미지 기반 제어부터 물리 시뮬레이션, 휴머노이드 로봇을 활용한 의료 보조까지 자율 수술 로봇의 핵심 기술과 미래 방향을 제시한다.

Hugging Face Blog

AWS와 NVIDIA가 제안하는 3대 스케일링 법칙 대응 인프라 전략

AWS 인프라와 오픈소스 소프트웨어 스택을 활용하여 파운데이션 모델의 사전 학습, 사후 학습, 테스트 시간 컴퓨팅을 최적화하는 4계층 아키텍처 가이드

HF Daily Papers Architecture Datasets

Rendering 기반 주석으로 82개 언어의 다국어 OCR 벤치마크를 제시

다국어 문서 이해가 자원 부족 스크립트에서 크게 저하되는 문제를 해결하기 위해, 모델 의존 없이 Ground Truth를 추출하는 렌더링 기반 주석과 RTL 합성을 제안한다. 이를 통해 82개 언어에 걸친 9개 평가 태스크를 포함하는 대규모 벤치마크를 구축하고, DPO를 통한 교차-언어 전이 성능을 개선한다.

Differential RenderingDocAtlasDocTag

HF Daily Papers Prompting Libraries

MCQA에서 실행 가능한 코드 스캐폴드로 정확도 대폭 향상 입증

다수의 MCQA 벤치마크는 SLM의 직접 응답 정확도만 평가한다. CGR은 아이템별 Python 스캐폴드를 생성해 실행 흐름을 통해 solver를 다수 호출하고, direct/assisted/generator-side의 세 채널로 결과를 분리해 기록한다. 비제로-baseline 파티션에서 어시스트 정확도가 66.21%로 나타났고, direct는 38.11%로 나타났다. 이는 실행 가능한 scaffold가 MCQA에서 단일 프롬프트의 한계를 넘어 외부 제어 흐름과 상태 추적을 통해 성능 차이를 유발할 수 있음을 보여주며, 그에 따른 감사(trace)와 한계 진단이 가능함을 시사한다.

Code-Guided ReasoningTrace Package

HF Daily Papers Best Practices Benchmarks

Privileged-context를 역이용해 수학 추론 학습을 2–10× 빠르게 개선

On-policy self-distillation은 외부 교사 없이 토큰 단위의 imitation 신호를 제공하는 방향을 제시하지만, 수학 추론에서의 성능은 불안정하다. PMI 분석은 privileged context가 per-token 신호를 왜곡하는 구조적 바이어스를 밝히고, AntiSD는 gradient 방향을 역전시켜 deliberation 토큰의 기여를 회복한다. 다섯 모델에서 GRPO 대비 학습 속도 향상과 최종 정확도 향상을 보여준다.

Anti-Self-DistillationGRPO Baseline

HF Daily Papers Domain AI

지리공간 기반 모델의 비교 가능성 부재를 지적하고 표준을 제시한다

지리공간 기반 모델은 재난 대응, 토지 피복 맵핑 등 다양한 도메인에 재사용될 수 있지만, 평가 프레임워크가 일관되지 않아 같은 모델을 서로 다른 벤치마크/프로토콜에서 다르게 평가한다. 이로 인해 실제로 어떤 모델이 더 우수한지 판단하기 어려워 연구 방향과 자원 배분이 산만해진다. 본 논문은 152편의 논문을 감사해 공통 벤치마크의 부족, 벤치마크 간 수치 차이의 편차, 사전학습 데이터 구성의 비일관성을 지적하고, 각 이해관계자가 따를 여섯 가지 구체 권고를 제시한다.

Geospatial Foundation Models

HF Daily Papers Architecture Inference

참조 샘플로 프리트레인 모델의 출력을 실시간 제어

Flow matching의 엔드포인트 평균 이동으로 제어 신호를 얻을 수 있으며, 참조 은행을 바꿔 색상, 형태, 구조 등 다양한 속성을 추가 학습 없이도 조정할 수 있다. 이는 데이터 주도(adaptive) 방식으로 파라미터 업데이트 없이도 생성 품질을 유지하며, 실무에 즉시 적용 가능한 제어 인터페이스를 제공한다.

Flow-MatchingFLUX.2-kleinReference-Mean Guidance

Paired-Free Adaptation으로 unseen 로봇에서 모션 전이 가능한 크로스-임버디먼트 비디오

다양한 humanoid embodiment 간 모션 재현을 위한 데이터 생성의 확장성과 비용이 큰 제약을 해소한다. OmniHumanoid은 transferable motion을 공유 모듈로 학습하고 embodiment-specific appearance를 LoRA로 경량화해 unseen embodiment에 대해서도 paired data 없이 적응 가능성을 확보한다. 또한 브랜치-이소레이티드 어텐션과 스트리밍 디스틸레이션을 도입해 모션 품질과 렌더링 일관성 간의 상충을 줄이고, 대규모 합성 데이터 생성을 실용적으로 만든다.

OmniHumanoid

HF Daily Papers Benchmarks

토큰 가중치를 Hölder mean으로 동적으로 조정해 학습 안정성 강화

고정된 토큰-가중치 집합은 긴 호라이즌 추론에서 신호 밀도 차이에 따라 학습 성능이 불안정해지거나 저효율적으로 수렴한다. HölderPO는 p를 조정해 고밀도 신호에는 집중을, 저밀도 신호에는 분산을 가능하게 하여 학습 신호의 활용과 분산 제어 사이의 균형을 달성한다. 실험적으로 수학 벤치마크에서 평균 54.9%의 최고 성능을 기록하고 ALFWorld에서 93.8%의 성공률을 달성하며, GRPO 대비 상대 성능 개선을 실증한다.

초기 대화에서 사기의 진행과 다음 행동을 예측하는 벤치마크

대화형 사기는 다-turn로 진행되며, 심리적 기술의 시퀀스적 조작을 수반한다. PRESCAM은 실제 보고서를 구조화해 진행을 단계별로 추적하고, 부분 맥락에서의 위험도와 다음 사기꾼의 행동을 예측하는 평가 지표를 제공한다. 현재 모델은 표면적인 단서 인식에 그치고, 위험의 점진적 상승과 조작의 전개를 정확히 이해하는 데 한계가 있다.

PRESCAM

HF Daily Papers Architecture Prompting

학습 시점에서 교사 노출을 조절해 LLM 자기-증류 성능 향상

OPSD의 기본은 교사가 전체 참조를 보는 설정이다. 이 노출은 쉬운 문제에서 유리하지만 hard 문제에서 학습 흡수를 방해한다. ATESD는 교사 노출을 학습-상태로 조정하고 지연된 보상으로 credit을 부여해 교사–학생 매칭 문제를 완화한다. 실험은 AIME 2024/2025 및 HMMT 2025에서 OPSD 대비 평균@12 점수를 향상시켰다.

ATESDBeta-policy controllerOn-Policy Self-Distillation

로컬 라운드 커뮤니케이션으로 협력 강화하는 LC-MAPF

MAPF에서 다수의 에이전트가 충돌 없이 목표를 달성하려면 에이전트 간의 협력이 필수적이다. 기존 분산 학습 기반 접근은 보통 단일 메시지 교환에 의존하여 협력의 한계를 보였고, 스케일이 커질수록 성능 저하가 심해질 수 있다. LC-MAPF는 다중 라운드의 로컬 커뮤니케이션을 도입해 근접 이웃 간 정보 공유를 반복적으로 조정하고, 메시지에 대한 명시적 지도 없이도 협력 구조를 학습한다. 이를 통해 학습 기반 MAPF 솔버의 성능을 개선하고 선형 스케일링을 유지한다.

HF Daily Papers Best Practices

정보 불확실성에서만 탐색하는 에이전트 학습 방법

에이전트가 환경 정보를 효율적으로 수집하려면 탐색과 실행을 구분하고 탐색의 필요 시점을 학습으로 판단해야 한다. 본 연구는 exploration-aware 보상과 memory를 통한 외부화된 기억으로 test-time에서 정보 획득과 의사결정을 분리하고, 불확실성이 큰 상태에서만 탐색하는 전략을 학습한다. 4개 벤치마크에서 기존 방법 대비 일관된 성능 향상을 보여주고, 2B 규모 모델로도 상당한 성능을 달성한다.

비매개 설정에서 일반형 모델의 태스크-관련 표현 식별

일반형 모델은 다양한 태스크를 포괄하는 반면, 태스크 관련 latent를 분리해 필요한 정보만 남기는 표현학습이 필요하다. 본 연구는 시간 축을 따라 태스크 구조를 식별하고 각 시점의 latent를 태스크 관련 부분과 무관한 부분으로 분리하는 이론적 기반을 제시한다. 이는 일반형에서 전문형으로의 전이와 함께 계획성, 일반화,Robustness를 강화하는 데 기여한다.

Nonparametric IdentifiabilitySparsity Regularization

HF Daily Papers Coding Agents

EvalAgent로 Eval@1 65% 달성 및 인간 선호도 79.5% 상승

에이전트 평가가 실행 흐름과 도구 사용까지 포함하는 복합적 행동을 다루게 되며, 단순 최종 산출물만 보는 평가 방식으로는 실패 사례를 포착하기 어렵다. 프런티어 코딩 어시스턴트의 기본 코드 생성만으로는 평가 기준을 자동으로 만들어내지 못하는 한계가 있었고, 본 연구는 EvalAgent가 평가 도메인 지식(평가 스킬)을 내재화하고, trace 기반 파이프라인으로 실행 가능한 평가 산출물을 생성함을 입증한다. 또한 메타-평가 프레임워크와 AgentEvalBench를 통해 자동 평가의 신뢰성과 재현성을 정량적으로 평가한다.

EvalAgent

HF Daily Papers Libraries

에너지-토큰 생산 프레임으로 인퍼런스 비용 재정의

토큰은 데이터센터의 전력, 냉각, 인터커넥트, 소프트웨어 구성까지 포함하는 계측 가능한 산출물이다. 일반적인 인퍼런스 평가가 정확도와 MFU 중심에 머물러 있는 사이, 실제로는 주어진 품질과 서비스 목표(q*, s*) 하에서 토큰 출력이 compute와 delivered power 중 어느 쪽에 의해 제한되는지가 비용과 용량의 핵심이다. 따라서 KV-cache 압축, 희소 어텐션, 양자화, 라우팅, 난이도 적응 추론 같은 시스템 최적화가 단순 벤치마크의 미세 조정이 아닌 에너지-투-토큰 프론티어를 확장하는 매크로 레버로 작동한다. 이 프레이밍은 실험과 벤치마크에서 Joules/token, active binding constraint, PUE-보정 delivered power, utilization-보정 토큰 출력의 보고를 요구한다.

Token Production Function

오픈형 질의에서 멀티모달 프레젠테이션 비디오를 자동 생성

질의 기반 프레젠테이션 생성은 기존 문서-주도 슬라이드 생성의 한계를 넘어선다. PresentAgent-2는 open-ended한 사용자 질의에서 주제를 요약하고, 신뢰 가능한 자료를 깊이 탐색해 텍스트·이미지·GIF·비디오를 수집한 뒤, 슬라이드, 대본, 오디오, 동적 미디어를 하나의 발표 영상으로 결합한다. 세 가지 모드(Single/Discussion/Interaction)로 다양한 발표 형식을 지원하고, 연구 기반의 멀티모달 리소스 활용과 대화형 발표를 함께 제공한다.

PresentAgent-2

메모리 오버헤드 없이 AR와 diffusion의 합성으로 토큰 생성 속도 최대 7.8× 가속

AR 기반 대형 언어 모델은 토큰 생성이 순차적으로 이뤄져 인퍼런스가 병목 현상을 겪는 한계가 있다. diffusion 기반의 병렬 생성은 속도를 올릴 수 있지만 품질 저하와 학습 비용 문제가 있다. Orthrus는 frozen AR 백본과 경량 diffusion head를 결합해 두 뷰가 동일한 고정 KV Cache를 공유하고, intra-model consensus로 lossless inference를 보장하며 병렬 생성을 가능하게 한다.

Orthrus

HF Daily Papers Libraries Architecture

Action Guidance로 RL의 도달 불가능 구간을 넘어서는 에이전트 학습

LLM 기반의 에이전트는 탐색 한계로 인해 보상 신호를 얻지 못하는 out-region 과제에서 학습이 정체된다. 본 연구는 풍부한 action 데이터를 plan-style 가이드로 활용해 base 정책의 탐색 경계를 확장하고, SFT 의존 없이도 효과적인 학습 신호를 확보하는 새로운 post-training 전략을 제시한다. 이를 통해 harder한 벤치마크에서도 zero RL 대비 성능이 개선되며, SFT+RL 파이프라인과 경쟁할 만한 성능을 보인다.

ACTGUIDE-RL

DAWN으로 World-Action Interactive Models를 latent rollout에서 구현

월드 모델링과 의사결정의 상호작용을 latent space에서 실시간으로 갱신하는 WAIM 원칙을 제시한다. DAWN은 World Predictor와 World-Conditioned Action Denoiser를 재귀적으로 연결해 짧은 latent rollout으로도 긴 horizon의 계획을 가능하게 하며, NAVSIM v1/v2와 nuScenes 벤치마크에서 안전성과 계획 정밀도를 향상시켰다. 이러한 상호작용 추론은 픽셀 공간 렌더링 없이도 행동-세계 간 상호의존성을 활용해 보다 실행 가능한 자율주행 모델로의 전환을 제시한다.

DAWNWorld-Action Interactive Models

HF Daily Papers Training Architecture

비디오 diffusion Transformer를 단일 패스로 참조-앵커링 밀집 3D 트래킹으로 변환

단일 프레임 단위로 생성하는 frame-anchored 비디오 DiT의 한계를 극복하고, 참조 프레임에 고정된 트래킹 포인트를 따라가며 3D 모션을 추출한다. TrackCraft3R은 dual-latent representation과 temporal RoPE alignment를 통해 비디오 DiT의 시공간 priors를 밀집 3D 트래킹으로 직접 이용한다.

LoRATrackCraft3RVideo Diffusion Transformer

HF Daily Papers Coding Agents Architecture

Observer의 숨겨진 표현으로 응답 예측 AUC를 약 4pp 향상

언어로 상호작용하는 낯선 상대의 의사결정을 소량의 과거 기록만으로 예측하는 문제를 제시하고, target-adaptive text-tabular 예측 프레임워크를 통해 새로운 상대의 행동 패턴에 빠르게 적응한다. LLM을 직접 예측기로 쓰는 방식보다 데이터-적합화에 유리하며, Observer의 은닉 표현이 의사결정 신호를 더 잘 포착한다는 실증적 근거를 제공한다. 교차-인구 전이 평가를 통해 실제 배포 환경에서의 일반화 가능성도 검증한다.

LLM-as-ObserverTabular foundation modelTarget-adaptive text-tabular prediction

HF Daily Papers Architecture Training

고정점 기반 반복-refinement으로 언어모델의 추론 비용과 메모리 사용을 동시에 줄인다

Transformer의 단일 패스 출력에 의존하던 기존 구조와 달리, Attractor Models은 출력 임베딩 공간에서 고정점을 찾는 방식으로 반복-refinement을 학습한다. 학습 시 기억 용량은 고정되어 커지지 않으며, 필요한 반복 수는 수렴 정도에 따라 적응적으로 결정된다. 이로써 large-scale language modeling과 작은 모델의 hard reasoning에서 Pareto 효율성을 달성하고, 테스트 시 불필요한 반복을 제거하는 방향으로 동작한다.

Attractor ModelsImplicit Differentiation

HF Daily Papers Libraries

forearm 컨텍스트로 단안 egocentric 3D 핸드 포즈를 정확히 회복

헤드마운트 디바이스의 제약으로 단일 RGB 카메라만으로도 핸드의 절대 3D 위치를 추정해야 하는 상황이 증가한다. 기존 방법은 depth-스케일 불확실성 및 광학 왜곡에 취약하여 다양한 카메라 구성에서 일반화가 어렵다. EgoForce는 forearm 정보를 활용하고 ray-space lifting을 통해 서로 다른 카메라 모델에서도 절대(camera-space) 3D 핸드 포즈를 복원할 수 있다. HOT3D에서 camera-space MPJPE를 최대 28% 줄이고, 여러 벤치마크에서 카메라-스페이스 추정 및 시계열 안정성을 향상시킨다.

EgoForce

기하-외관 분리로 품질을 끌어올리는 확산 기반 뷰 합성의 새로운 원리

단일 입력에서의 기하 추정치는 불완전하고 시점 변화에 취약하다. 반면 고해상도 appearance 정보는 기하와의 정합이 불안정하게 된다. MoCam은 diffusion 프로세스의 단계별로 기하-appearance 신호를 분리해 먼저 기하를 안정적으로 고정하고, 이후 appearance로 미세한 보정과 재구성을 수행한다. 이로써 sparse/오염된 점 구성을 가진 데이터에서도 기하-외관 분리된 일관된 뷰 합성이 가능해진다.

HF Daily Papers Architecture Libraries

인터리브된 지시로 다중 이미지 생성의 일관성과 텍스트 정렬 향상

다중 이미지 지시를 처리하는 기존 접근은 이미지와 텍스트를 구조적으로 분리해 긴 시퀀스에서의 바인딩을 어렵게 만든다. Inset은 이미지를 텍스트의 native vocabulary로 삽입해 해당 시퀀스의 위치적 맥락을 활용, Attribute binding의 정확성을 높이고 입력 이미지 수가 늘어도 성능 차이가 확대되도록 설계되었다. 또한 15M 개의 고품질 인터리브드 샘플 데이터 엔진과 InterleaveBench를 제시해 복잡한 다중 이미지 지시를 평가하는 표준을 마련한다.

5뷰만으로 대규모 장면의 3D 재구성 및 신 시점 합성 달성

스파스 뷰 환경에서 3D 재구성은 다중 뷰 간 기하적 일관성에 크게 의존한다. VidSplat은 비디오 확산 priors를 활용해 입력 범위를 넘어서는 시점을 생성하고, Gaussian Splatting으로 고해상도 표면을 재구성하며, 단일 이미지에서의 확장도 가능하게 한다.

Gaussian SplattingVideo Diffusion Priors

HF Daily Papers Training Architecture

실세계 조명을 가진 단일 이미지 재조명에 도메인 갭을 줄이는 DPS+TTA 프레임워크

단일 이미지 재조명은 정보의 불완전성으로 인해 ill-posed 문제다. 실세계 조명은 대기 산란, 간접 조명, 재료 특성의 다양성으로 복잡하고 도메인 간 차이가 크다. WildRelight는 strict pixel-alignment와 HDR envmaps를 통해 Ground Truth를 제공하고, 물리적 제약 기반 추론과 테스트-타임 적응(TTA)을 결합한 도메인 적응 파이프라인으로 sim-to-real 갭을 실세계 데이터로 축소하는 가능성을 제시한다.

협력 경로 다양성 활용으로 다중 모달 추론의 효율과 해석 가능성 향상

통합 멀티모달 모델(UMM)은 이해와 생성을 하나의 아키텍처에서 수행한다. 그러나 두 능력을 효과적으로 조정하는 방법은 아직 충분히 연구되지 않았다. 입력에 따라 최적의Coordination Path가 달라지므로 고정된 협력 패턴은 비효율적이다. UniPath는 Coordination-path 다양성을 활용해 경로를 adaptively 선택·실행하고, 중간 상태를 해석 가능하게 제시한다. 이를 통해 불필요한 토큰을 줄이고, 필요 시에만 심층적 모달 추론을 수행하며, 각 입력에 맞춘 투명한 실행 경로를 제공한다.

LoRAUniPath

언어 기반 MCP로 닫힌 루프에서 3D 시뮬레이션을 제어하는 LychSim

Unreal Engine 5 기반의 고충실도 시뮬레이션을 연구용으로 쉽게 다룰 수 있게 하여, 2D/3D ground truth를 풍부하게 제공하고, OOD 평가 및 폐쇄 루프 학습의 가능성을 확장한다. Python API로 엔진 복잡성을 추상화하고, MCP를 통해 LLM이 시뮬레이션을 직접 제어하며 다중 카메라 뷰의 병렬 렌더링을 지원한다. 이로써 synthetic data 엔진, RL 기반 적대적 검사, 그리고 언어 주도된 3D 씬 레이아웃 생성이 실현 가능해진다.

Rubric 보상으로 RL이 해킹당하는 패턴과 해결책

rubric 기반 RL은 즉시 검증 가능한 보상 신호를 제공하나, 학습이 진행될수록 프록시 목표로의 최적화가 증가한다. 본 연구는 training verifier와 reference panel 간의 차이를 활용해 reward hacking을 진단하고, verifier-free 지표인 self-internalization gap을 제시한다. 강한 verification은 해킹을 줄이지만 rubric 설계의 한계로 인해 전반적 품질 개선을 보장하지 않는다.

HF Daily Papers Optimization Libraries

장기 기억으로 웹 에이전트를 경험 많은 동료로 만든다

웹 에이전트가 인터페이스, 상태 변화, 워크플로우, 환경 고착점 등 환경 특유의 경험을 축적하고 이를 추론에 활용하는 능력을 평가하는 벤치마크를 제시한다. LME-V2는 451개의 질문과 최대 500개의 트래젝토리 haystack, 115M 토큰 규모의 데이터로 구성되어 기억 능력의 다섯 가지 핵심 영역을 포괄적으로 측정한다.

AgentRunbook

스펙트럼 보존으로 LLM 학습의 안정성과 일반화 성능을 강화하는 Pion

대형 언어 모델 학습에서 가중치의 스펙트럼 관리가 학습 안정성과 일반화의 핵심 요인이다. Pion은 weight 행렬을 좌우의 orthogonal 변환으로 업데이트해 singular values를 보존하고, 학습 중 spectral norm의 변화를 차단한다. 이를 통해 µP 프레임워크와의 호환성을 유지하면서도 AdamW·Muon 대비 안정성과 효율성을 제공한다.

Orthogonal Equivalence TransformationPion

도메인 적응에서 CLM Detour로 다운스트림 성능을 향상시킨다

MLM과 CLM의 비교를 통해 encoder를 도메인에 맞게 효율적으로 적응시키는 방법을 제시한다. CLM detour은 특정 조건에서 MLM baselines보다 downstream 성능을 개선하며, 하위 트랜스포머 레이어의 표현에 밀도 감독이 큰 영향을 주는 것을 보인다. 이로써 대규모 모델의 도메인 적응 전략에 새로운 방향을 제시한다.

HF Daily Papers Datasets

다중 엔티티 기억과 변동성 업데이트를 검증하는 MEME 벤치마크

현대의 LLM 기반 에이전트는 여러 세션에 걸친 기억 저장, 업데이트, 추론이 필요하다. 그러나 기존 벤치마크는 독립 엔티티의 단일 업데이트만 평가해 왔다. MEME는 엔티티-범위와 시점별 동적 두 축을 정의하고 여섯 가지 과제를 제시해 의존성 추론과 기억 업데이트를 포괄적으로 검증한다. 실용 구간에서 의존성 추론(Cascade, Absence)과 삭제(Deletion)까지 포함하는 벤치마크는 현재의 기억 시스템이 실제 대화에서 직면하는 복잡한 변화에 어떻게 대응하는지 진단한다.

MEME: Multi-entity & Evolving Memory Evaluation

HF Daily Papers Safety Datasets

스파스 보상으로 교사 기반 브리지로 MATH 79.3% 달성

라벨링 데이터가 한정된 상황에서, 더 큰 교사 모델의 보상 형상을 활용해 교육 신호의 밀도를 높이고, 이후 deployment 모델에 이를 효과적으로 압축해 전달하는 구조를 제시한다. 이를 통해 verifiable math 문제에서 직접 GRPO 대비 성능 향상을 확인하며, 교사-학생 간 학습 신호의 적절한 분배의 중요성을 보인다. 더 큰 교사로부터 얻은 밀집 신호를 배포 모델에 전달하는 브리지를 통해 데이터 효율성과 학습 안정성을 동시에 개선한다.

다중 턴 대화의 악성 의도 확산을 조기에 차단하는 TurnGate

다중 턴 대화에서 악성 의도가 누적되어 실행 가능한 피해로 확산될 수 있다. 기존 시스템은 주로 단일 턴의 의도 탐지에 의존하는 반면, TurnGate는 각 턴별 신호를 분석해 최초의 해로운 지점을 식별하고 차단한다. MTID 데이터셋과 실험을 통해 TurnGate의 강건성이 다양한 도메인·공격 경로·대상 모델에서도 유지됨을 보인다.

GuardrailMTIDTurnGate

InfoNCE와 faded PER로 모델 기반 표현의 정보량을 극대화하는 DR.Q

모델-기반 표현은 모델-프리스 RL의 샘플 효율을 높이려는 핵심 아이디어다. 기존 접근은 현재 상태-행동 표현과 다음 상태 표현 간의 차이를 최소화하는 데 집중하지만, 이로 인해 중요한 정보를 충분히 포착하지 못하고 초기 경험에 과도하게 적합해 버리는 편향이 생길 수 있다. DR.Q는 mutual information(I(Z_sa; Z_s'))를 증가시키는 보조 손실과 함께, 새로운 경험에 더 큰 우선순위를 부여하는 faded PER을 도입해 이 편향을 완화한다. 이로써 모델-기반 표현이 다운스트림의 actor-critic 학습에 더 풍부한 정보를 제공하게 된다.

HF Daily Papers Domain AI Agents

샘플 효율성 3배↑, KL 발산 70% 감소: Fast-Slow Training의 힘

LLM은 파라미터 업데이트를 통해 task-specific 정보를 흡수하면 기존 일반화가 손상될 수 있다. 반대로 in-context learning은 파라미터를 바꾸지 않아도 적응 가능하지만 성능은 한계가 있다. Fast-Slow Training은 fast weights를 통한 컨텍스트 학습으로 task-specific 정보를 빠르게 축적하되 slow weights는 base 모델의 지식을 유지하여 catastrophic forgetting을 줄이고, 새로운 태스크에 대한 적응력을 높인다. 이로써 샘플 효율성과 Plasticity를 동시에 개선한다.

외부 지식 검색으로 시각 인식 경계를 넘는 에이전트형 검색-픽셀 워크플로우

오픈 월드에서의 시각 인식은 이미지 자체의 단서만으로 타깃을 식별하는 데 한계가 있다. 본 논문은 외부 지식을 탐색하고 다중 홉 추론을 통해 숨겨진 타깃 정체를 해석한 뒤, 이를 시각 인스턴스에 grounding하는 Perception Deep Research 프레임을 제안한다. WebEyes 벤치마크와 Pixel-Searcher를 통해 외부 증거를 시각 출력으로 연결하는 엔드-투-엔드 흐름의 유효성을 입증한다.

Perception Deep ResearchPixel-SearcherWebEyes

비동기 Agentic RL의 누락된 과거 로짓 문제를 해결하는 보정 전략

대규모 LLM 에이전트의 비동기 RL은 롤아웃과 학습을 비동기적으로 처리해 처리량을 높이지만, PPO‑style 오프폴리시 보정에서 중요한 결함 모드를 야기한다. 의미론적 불일치(훈련-추론 간 분포 차이)와 정책 노후화(다음 업데이트 전 정책 불일치)가 서로 얽히면서, 기존의 보정 방식이 의도한 두 가지 제약을 분리해 적용하는 것을 어렵게 만든다. 이 논문은 비동기 시스템에서 누락된 '이전(training-side) 로짓(old logits)' 문제를 공식화하고, 정확한 복구 경로와 저비용 근사 경로를 제시한다.

Failure Trajectory로 안전-유용성 균형을 자가 진화하는 FATE

도구를 활용하는 LLM 에이전트의 안전성은 단일 응답의 안전성 평가로 충분치 않다. 실패 궤적을 활용해 다중 목표(보안, 유용성, 과도한 거부, 궤적 관리)를 동시에 개선하는 온-정책 학습 신호를 제공하고, PFPO로 안전성과 유용성 간의 균형을 유지한다. 이를 통해 실패 사례에서 얻은 구조화된 수리 정보를 정책 업데이트에 직접 반영할 수 있다.

프롬프트 인젝션 강건성 및 모니터링 가능성을 높이는 다중 스트림 LLM

LLM이 단일 시퀀스 스트림에서 읽기/생성/생각을 순차적으로 수행하는 제약을 제거하면, 입력 도착에 맞춰 실시간으로 반응하고, 생각/판단을 중단 없이 병렬로 발전시킬 수 있다. 이로써 시간-상당 토큰 구간에서의 대기 시간을 줄이고, 보안 취약점인 프롬프트 인젝션에 대해 구조적 방어를 제공하며, 내부 스트림을 통한 모니터링 가능성을 확보한다. 결과적으로 실시간 교류가 필요한 애플리케이션에서 사용자 경험이 개선되고, 시스템의 안전성 및 가시성이 증가한다.

샷 간 전이와 프롬프트 업데이트를 실시간으로 구현하는 인과 기반 멀티샷 비디오 생성

다중 샷으로 구성된 장편 비디오 생성은 단일 샷의 확장으로 보기 어렵다. 기존 AR 모델은 샷 경계에서 신규 콘텐츠 도입이나 시점 변화에 취약하고, 시맨틱 drift가 발생하기 쉽다. CausalCine은 샷 경계에서의 인과적 의존성을 학습하고, Content-Aware Memory Routing으로 과거 정보를 콘텐츠 유사도에 따라 재사용하여 긴 범위의 맥락을 유지한다. 이로써 실시간 스트리밍 인터랙티브 멀티샷 비디오 생성을 가능하게 한다.

Causal Base ModelContent-Aware Memory Routing

HF Daily Papers Benchmarks Architecture

L2P: Unlocking Latent Potential for Pixel Generation

OSWorld-MCP에서 46.85% 달성, GUI-Tool 혼합 경로 최적화로 성능 대폭 향상

멀티모달 대형 언어모델 기반의 컴퓨터 사용 에이전트가 GUI 액션과 도구 호출 사이의 시점을 정확히 판단해야 하는 문제를 다룬다. 제안하는 ToolCUA는 인터리브드 GUI-Tool 궤적 데이터를 합성하고, 도구 사용의 적합성과 경로 효율성을 동시에 최적화하는 교육 파이프라인을 통해 하이브리드 액션 공간에서의 경로 선택을 개선한다. 이로써 실제 데스크탑 자동화에서의 일반화성과 실행 효율성을 높인다.

OSWorld-MCPToolCUA

HF Daily Papers Architecture Training

다층 특징 융합으로 시각 토크나이저의 표현력 강화

프리트레인된 비전 모델을 토크나이저로 재사용하는 대표적 방식에서 주로 마지막 레이어의 특징만을 사용하면 저수준 텍스처나 가장자리가 소실된다. shallow 계층은 이러한 저수준 정보를 더 잘 보존하지만 단일 계층 토크나이저는 이를 잃는다. DRoRAE는 다층의 정보를 토큰마다 적응적으로 융합하고, 생성 안정성을 해치지 않도록 에너지 제약 라우팅과 증가적 보정(Incremental Correction)을 도입한다. 실험에서 ImageNet-256 기준 rFID가 0.57에서 0.29로 감소하고, AutoGuidance를 활용한 gFID는 1.74에서 1.65로 향상되었다. 또한 representation richness가 log-linear로 증가할 때 재구성 품질이 예측 가능하게 개선된다는 점이 관찰되었다.

DVReward로 다중모달 생성의 피드백을 분해·검증하고 GRPO로 자가 반영을 촉진한다

Unified Multimodal Models(UMMs)가 다양한 입력-출력 인터랙션을 하나의 모델로 처리하는 반면, 현실 데이터의 다양성으로 인해 보상 신호가 불안정하다. AlphaGRPO는 GRPO를 AR-Diffusion 기반 UMMS에 적용하고, Decompositional Verifiable Reward(DVReward)를 통해 구체적이고 해석 가능한 피드백을 제공함으로써 학습 안정성과 일반화 성능을 크게 향상시킨다.

AR-DiffusionGRPOUnified Multimodal Models

미래 상태와 행동을 함께 예측하는 World Action Models

Vision-Language-Action(VLA) 모델은 환경 변화에 대한 물리적 추론이 제한적이다. World Action Models(WAMs)는 환경 dynamics를 예측하고 이를 바탕으로 행동을 생성하는 jointly 학습하는 프레임워크로, 미래 상태와 행동의 결합 분포를 학습한다. 이를 통해 자율 로봇의 제로샷 일반화와 다양한 데이터 소스 활용이 가능해진다.

런타임 구성 읽기로 배포 시 변화에 강한 예측을 달성하는 엔터프라이즈 디스커버리

엔터프라이즈 시스템의 다이나믹스는 tenant별 구성(c)에 의해 좌우된다. 학습 기반의 월드 모델만으로는 다양한 배포에서 일반화하기 어렵고, 규칙과 프로세스가 활성화될 때의 실행 순서까지 고려해야 한다. 본 연구는 런타임에서 구성 정보를 읽고 이용하는 enterprise discovery agents를 도입하여, 학습된 priors를 현재 배포 인스턴스에 grounded하게 보완함으로써 시프트에 대한 견고성을 높일 수 있음을 보여준다.

8×8 온라인 메모리로 frozen backbone 성능 1.10× 향상

대형 언어 모델은 장기 맥락과 과거 정보를 필요로 하는 기억 중심 작업에서 컨텍스트 확장만으로는 비용과 효율 문제를 해결하기 어렵다. δ-mem은 작은 온라인 상태(8×8)로 과거 정보를 압축해 어텐션 계산에 저차원 보조 신호를 제공하고, backbone을 동결한 채 기억 정보를 활용한다. MemoryAgentBench에서 1.31×, LoCoMo에서 1.20×, TTL 서브태스크에서 거의 두 배(26.14→50.50)에 해당하는 향상을 보인다. 이로써 explicit 컨텍스트 확장 없이도 테스트 시memory 활용이 가능해진다.

δ-MemLow-Rank CorrectionsOnline State of Associative Memory

당신의 LLM API가 몰래 망가지고 있다면? Silent-Bench의 암호학적 진단

상용 LLM API 게이트웨이에서 발생하는 무음 실패를 탐지하고 암호학적으로 증명하는 오픈소스 감사 프레임워크 Silent-Bench가 공개됐다.

LLM 성능 저하와 비용 폭증을 막는 7가지 필수 관측성 도구 가이드

프로덕션 환경에서 LLM 애플리케이션의 성능, 비용, 품질을 모니터링하고 디버깅하기 위한 7가지 주요 관측성(Observability) 도구의 특징과 선택 기준을 제시한다.

IBM Technology Companies

금붕어 기억력 AI 에이전트, '운영체제'로 해결한다

AI 에이전트의 신뢰성과 확장성을 확보하기 위해 메모리, 도구, 보안을 관리하는 전용 운영체제(Agent OS) 아키텍처의 필요성을 제시한다.

IBM

r/ClaudeAI Language Models Inference

LLM 대화 기록도 Git처럼 리베이스한다? pi-treebase 공개

Git의 interactive rebase 개념을 LLM 세션에 도입하여 대화 기록을 선택적으로 유지, 요약, 삭제할 수 있는 히스토리 관리 도구이다.

Claude가 로컬 모델에게 일을 시킨다? MCP를 활용한 비용 절감 팁

MCP를 통해 Claude와 로컬 Ollama(Qwen 2.5 Coder)를 연결하여 고비용 작업을 로컬 모델에 위임하는 하이브리드 에이전트 시스템 구축 사례이다.

ClaudeOllamaQwen 2.5 Coder

r/ClaudeAI Language Models Companies

수 주 걸릴 레이아웃 엔진 개발을 단 몇 시간 만에? Claude와 Figma를 활용한 디자인 자동화 팁

Figma 디자인 위에 색상 박스를 그려 Claude에게 좌표를 추출하게 함으로써 복잡한 레이아웃 엔진 코딩 없이 앱 템플릿 시스템을 구축한 사례이다.

ClaudeFigma

r/LLMDevs Companies Libraries

2025년에만 14만 건 이상? LLM이 생성한 가짜 인용문이 과학계를 위협한다

LLM 도입 이후 과학 논문 내 존재하지 않는 가짜 인용문이 급증했으며, 이는 지식 생산의 신뢰성과 공정성을 훼손하고 있다.

OpenAI와 Anthropic의 JSON 출력, 왜 똑같은 스키마로 안 될까?

LLM 프로바이더마다 JSON 스키마 해석 방식이 달라 발생하는 구조화된 출력의 이식성 문제와 실무적인 해결 방안을 다룬다.

AnthropicOpenAIPydantic

r/ClaudeAI Coding Agents

Claude Code가 내 .env 파일을 수정할 수 있다면? 보안 감사 팁

Claude Code 사용 시 발생할 수 있는 보안 리스크를 방지하기 위해 도구 접근 권한과 파일 시스템 범위를 명시적으로 제한해야 한다.

Claude Code

r/ClaudeAI Coding Agents Products

Claude Code가 막혔을 때 소리로 알려준다? AI 에이전트용 라디오 'Agent FM'

여러 코딩 에이전트의 작업 상태와 오류를 실시간 음성 내레이션으로 중계하여 개발자의 모니터링 부담을 줄여주는 Mac용 오픈소스 도구이다.

Claude CodeCodex

r/artificial Companies

AI가 범죄를 방조했나? OpenAI를 상대로 한 총기 난사 피해자들의 소송

AI 챗봇 사용자의 폭력적 성향을 감지하지 못한 OpenAI 등 AI 기업들을 대상으로 한 '경고 의무' 위반 소송이 잇따르고 있다.

OpenAI

r/ClaudeAI Audio AI

Claude에 '스킬' 9개를 심었더니 비디오 제작부터 재무 모델링까지 자동화됐다

Claude의 '스킬' 기능을 활용해 비디오 제작, API 문서화, 재무 모델링 등 9가지 전문 작업을 자동화하고 생산성을 높인 실무 경험 공유이다.

ElevenLabs

r/ClaudeAI Coding Agents

인턴 5명 몫을 해내는 AI 에이전트, B2B 영업 자동화 성공 사례

Claude Code 기반의 다중 에이전트 시스템을 구축하여 B2B 영업 리드 수집부터 스코어링, CRM 연동까지 전 과정을 자동화했다.

Claude Code

r/LLMDevs

LLMOps는 단순한 마케팅일까? MLOps와 결정적으로 다른 10가지 요소

전통적인 MLOps가 모델 학습과 예측 품질에 집중했다면, LLMOps는 프롬프트, 검색 파이프라인, 에이전트 조율 등 모델 주변 시스템 최적화에 초점을 맞춘다.

유휴 GPU를 크레딧으로? P2P 방식의 로컬 LLM 공유 프록시 등장

로컬 또는 사설망의 LLM을 외부 포트 개방 없이 공용 인터넷에 연결하고, 토큰 공유를 통해 크레딧을 적립·사용할 수 있는 P2P 프록시 시스템입니다.

r/LLMDevs Companies Architecture

LLM의 계산 한계는 어디까지일까? PSPACE-완전 문제로 검증하는 새로운 벤치마크

정규 표현식의 등가성 결정 및 최소화라는 PSPACE-완전 문제를 활용하여 LLM과 LRM의 공간적 계산 한계와 추론 능력을 측정하는 RegexPSPACE 벤치마크가 제안됐다.

Cloudflare가 에이전트 토큰 비용을 99.9% 절감한 비결: 코드 모드

에이전트가 수많은 도구를 개별 호출하는 대신 코드를 직접 작성해 실행하게 함으로써 토큰 사용량과 추론 횟수를 획기적으로 줄이는 '코드 모드' 패턴이 부상하고 있다.

CloudflareMCP

r/ClaudeAI Architecture

Claude Code를 멀티 운영자 협업 도구로 변신시킨 프로젝트

Claude Code 세션을 다중 운영자가 협업하고 원격 제어할 수 있는 공개 에이전트로 확장하는 레이어를 개발했다.

MCP

r/ClaudeAI

엉망이 된 인터뷰 녹취록, AI로 완벽하게 복원하는 포렌식 프롬프트

오디오 품질 저하로 깨진 전사 텍스트를 화자의 말투와 의도를 유지하며 복원하기 위한 구체적인 시스템 프롬프트와 가이드라인이다.

r/ClaudeAI Coding Agents

Claude Code로 만든 6가지 AI 페르소나, 비즈니스 전체를 자동화하다

Claude Code를 활용해 비서, 변호사, 조사관 등 6가지 전문 역할을 수행하고 상호 컨텍스트를 공유하는 자율형 AI 에이전트 시스템 구축 사례이다.

Claude Code

r/ClaudeAI

Sonnet 4.5 구독 종료 전 필수! 확장 사고 모드 대화창 미리 확보하는 팁

Claude Sonnet 4.5의 구독 서비스 종료 전 'Extended Thinking'이 활성화된 빈 대화창을 대량 생성하여 사용 기간을 연장하는 우회 방법을 공유했다.