2026년 5월 15일 AI 뉴스 아카이브

긴 문맥에서 RoPE의 한계—위치와 토큰 구분 실패를 증명

RoPE가 긴 컨텍스트를 다룰 때 위치 식별과 토큰 식별 두 가지 핵심 목표를 동시에 달성하기 어렵다는 이론적 증거를 제시한다. 컨텍스트 길이가 늘어날수록 RoPE의 인덕티브 바이어스가 약해지고 예측 불가능해지며, 결과적으로 긴 문맥에서의 정확한 위치/토큰 구분이 손실된다. 이로 인해 길이 확장에만 의존하는 접근법의 한계가 뚜렷해지며, 새로운 위치 인코딩 기제가 필요하다는 시사점을 제공한다.

HF Daily Papers Architecture1달 전

프롬프트 전환에도 끄떡없는 롱비디오 메모리 관리로 품질·반응성 향상

인터랙티브 롱비디오 생성은 프롬프트 변경과 장면 전환이 잦아 과거 정보의 무효화와 기억 충돌이 발생한다. Echo-Forcing은 historical KV states를 preserve-recall-forget의 라이프사이클로 관리하여 긴 시퀀스에서도 안정성과 프롬프트 대응성을 동시에 달성한다.

Echo-Forcing RoPE

r/artificial1달 전

AI를 외계 지능이 아닌 인간 데이터의 협업으로 재정의해야 하는 이유

Jaron Lanier는 AI를 독립적인 지능이 아닌 인간 데이터의 협업으로 정의하며, AI 안전과 경제적 분배를 위한 새로운 접근법을 제시한다.

r/LLMDevs1달 전

AI 에이전트가 스스로 정치를 배울까? 오픈 루프 메커니즘의 실험

기존의 폐쇄 루프(Closed-Loop) 에이전트 구조를 넘어, 인센티브 기반의 오픈 루프(Open-Loop) 환경에서 AI 에이전트의 자율적이고 창발적인 행동 가능성을 탐구한다.

r/ClaudeAI1달 전

Claude Code 업데이트 후 성능 저하와 비용 급증, 개발자들의 불만

Claude Code 사용자가 최근 업데이트 이후 발생한 모델 성능 회귀, 토큰 인플레이션, 인프라 과부하 문제를 지적하며 투명한 대응과 버전 고정 기능을 요구했다.

r/ClaudeAI1달 전

Claude Code의 과도한 토큰 소비를 72% 절감하는 코드베이스 인덱싱 도구

Claude Code의 아키텍처 질문 시 발생하는 과도한 토큰 소비를 해결하기 위해 코드베이스 구조를 사전 인덱싱하는 MCP 서버를 개발하고 베타 테스터를 모집한다.

r/LangChain Coding Agents Dev Tools1달 전

에이전트 20개를 동시에 관리할 때 발생하는 병목 현상, 'Bottleself'를 해결하는 방법

멀티 에이전트 시스템에서 인간 운영자의 병목 현상을 해결하기 위해 에이전트 상태를 지도 형태로 시각화하는 도구 Gekto를 소개한다.

Claude Code Gekto

TechCrunch AI Companies1달 전

Runway가 비디오 생성을 넘어 '월드 모델'로 AI의 미래를 재정의하는 방법

Runway가 텍스트 중심의 LLM을 넘어 물리적 환경을 이해하고 시뮬레이션하는 월드 모델 개발로 AI 기술의 새로운 지평을 열고 있다.

Google Runway

The Verge AI1달 전

AI 기반 개인화된 건강 관리, 과연 만성 질환도 해결할 수 있을까?

AI 기반 개인화된 건강 관리 기술이 복잡한 만성 질환을 다루는 데 겪는 한계와 현실적인 어려움을 분석한다.

KDNugget Optimization1달 전

Google의 TurboQuant: 3비트 양자화로 LLM KV 캐시 메모리 5.4배 절감

Google이 공개한 TurboQuant는 PolarQuant와 QJL 기법을 통해 LLM의 KV 캐시를 3비트로 압축하여 메모리 사용량을 획기적으로 줄이고 대규모 환경에서 성능을 개선한다.

TurboQuant

AI LABS1달 전

Claude Code로 Shopify 쇼핑몰을 처음부터 끝까지 자동 구축하는 방법

Claude Code와 Shopify AI Toolkit을 연동하여 HTML 프로토타이핑부터 실제 스토어 배포까지 자동화하는 엔드투엔드 워크플로를 다룬다.

r/LLMDevs1달 전

API 호출 없이 로컬에서 작동하는 GPT·Claude·Gemini 토큰 카운터, Offtoco

GPT, Claude, Gemini의 토큰 수를 로컬 환경에서 안전하게 계산하는 오픈소스 도구 Offtoco를 개발하여 공개했다.

AI Engineer Coding Agents Companies1달 전

Claude Code를 신입 사원처럼 온보딩하여 엔지니어링 생산성 2배 높인 비결

Intercom은 Claude Code를 단순 도구가 아닌 신입 사원처럼 온보딩하고 내부 시스템과 연동하여 엔지니어링 생산성을 2배 향상했다.

Claude Code Intercom

Dataiku Blog Companies1달 전

CEO가 AI 전략을 주도한다고 하지만, 실제 실행은 CIO의 몫: AI 책임의 간극을 메우는 법

CEO가 AI 전략을 주도하지만 실제 의사결정 참여도는 낮아 CIO의 운영 부담이 가중되는 'AI 책임의 간극' 현상과 이를 해결하기 위한 운영 체계 구축 방안을 다룬다.

Dataiku

Databricks Blog1달 전

Databricks Lakebase로 운영 DB 거버넌스와 비용 관리를 자동화하는 방법

Databricks Lakebase는 운영 데이터베이스를 Unity Catalog와 통합하여 거버넌스, 감사, 비용 관리를 자동화하고 데이터베이스 브랜칭을 통한 효율적인 개발 환경을 제공한다.

Amazon Science1달 전

LLaMA-3.2 대비 추론 속도 47% 향상: LLM 아키텍처 설계의 새로운 스케일링 법칙

LLM 아키텍처의 히든 사이즈와 MLP-어텐션 비율을 최적화하여 정확도 손실 없이 추론 처리량을 최대 47% 개선하는 새로운 스케일링 법칙을 제시함.

r/LangChain1달 전

RAG 챗봇 성능 19% 향상과 비용 75% 절감의 비결: 검색 최적화 우선순위

RAG 챗봇의 검색 임계값 조정, 청크 중복 제거, 대화 기록 추가를 통해 성능을 개선하고 LLM 저지로 평가 체계를 구축하여 비용을 절감한 사례.

Hacker News - LLM1달 전

LLM은 어떤 날짜를 더 자주 볼까? DCLM과 The Pile 데이터셋의 날짜 빈도 비교

웹 데이터셋(DCLM)과 LLM 학습 데이터셋(The Pile)에서 날짜 언급 빈도를 분석하여 데이터 구성에 따른 차이를 시각화함.

MIT Technology Review1달 전

AI가 만든 드라마가 중국 시장을 장악하고, 데이터 센터는 전력망을 위협한다

중국의 AI 드라마 제작 급증, 데이터 센터의 전력난, Anthropic의 대규모 펀딩 등 최신 AI 기술 트렌드와 산업 뉴스를 요약한다.

TechCrunch AI Products1달 전

로컬 LLM부터 클라우드까지, 맥에서 AI 모델을 통합 관리하는 Osaurus

Osaurus는 로컬 모델과 클라우드 API를 통합하여 맥 환경에서 개인화된 AI 워크플로를 구축하는 오픈소스 AI 서버이자 제어 계층이다.

Osaurus

r/artificial1달 전

AI로 연간 500달러 절감? 유료 구독 서비스 대체 테스트 결과 공개

프리랜서가 AI 도구를 활용해 유료 구독 서비스를 대체한 테스트 결과를 공유하며, 보조 업무는 대체 가능하나 핵심 인프라는 전용 도구가 필요함을 시사했다.

The Verge AI1달 전

AI가 쏟아내는 '과학 논문 스팸', 동료 평가 시스템을 무너뜨리나

AI로 생성된 저품질 논문이 학술지 투고 시스템을 마비시키며 과학 연구의 신뢰성과 동료 평가 체계를 위협하고 있다.

Ars Technica AI1달 전

Anthropic, Claude Code 사용량 2배 확대 및 SpaceX와 컴퓨팅 파트너십 발표

Anthropic이 'Code with Claude' 컨퍼런스에서 Claude Code 사용량 제한을 2배로 늘리고 SpaceX와 컴퓨팅 파트너십을 체결했다.

Hacker News - LLM1달 전

웹사이트가 당신의 LLM 에이전트를 식별할 수 있다? UI 추적을 통한 핑거프린팅 공격

LLM 브라우저 에이전트의 UI 상호작용 패턴을 분석하여 어떤 모델이 에이전트를 구동하는지 96% 정확도로 식별할 수 있는 핑거프린팅 공격 기법을 제시한다.

IBM Technology1달 전

AI가 발견한 제로데이 취약점, 그리고 기업 AI 도입의 실체

IBM 연구진이 제안하는 MELLEA 에이전트 보안 기술과 OpenAI의 컨설팅 사업 진출, AI 사이버 보안의 공방 균형을 다룬다.

Mervin Praison1달 전

OpenAI Codex를 로컬에서 무료로? Ollama 연동 완벽 가이드

Ollama를 활용해 OpenAI Codex를 로컬 환경에서 무료로 실행하고, 코드 리팩터링 및 에이전트 기능을 구현하는 방법을 다룬다.

r/MLOps1달 전

Figure AI의 F.03 로봇, 30시간 연속 가동으로 입증한 엣지 컴퓨팅의 한계

Figure AI의 F.03 휴머노이드 로봇이 30시간 연속 패키지 분류를 수행하며 엣지 컴퓨팅, 열 관리, 데이터 수집 측면에서 실질적인 산업 운용 가능성을 입증했다.

Wired AI1달 전

인간과 협업하는 AI를 꿈꾸는 미라 무라티의 새로운 도전, Thinking Machines Lab

전 OpenAI CTO 미라 무라티가 설립한 Thinking Machines Lab이 인간의 의도와 맥락을 실시간으로 이해하는 새로운 상호작용 모델을 개발한다.

r/deeplearning Hardware Language Models1달 전

H100을 26분만 빌려 쓴다면? 비용 효율적인 추론 테스트 전략

H100 인스턴스를 필요한 시간만큼만 사용하고 즉시 종료하는 일회성 컴퓨팅 전략으로 추론 테스트 비용을 최적화하는 방법.

H100 Qwen

iMerit Blog1달 전

2026년 LLM 성능을 결정짓는 10가지 핵심 학습 데이터셋 총정리

LLM의 추론 능력과 신뢰성을 결정짓는 2026년 주요 학습 데이터셋 10종의 특징과 활용 사례를 정리함.

r/MachineLearning Libraries Hardware1달 전

Snapdragon NPU 배포 시 발생하는 CPU 폴백 현상, 어떻게 탐지하고 해결할까?

ONNX Runtime의 QNN 실행 공급자가 지원되지 않는 연산을 CPU로 조용히 넘기는 문제를 탐지하기 위해 하드웨어 기반 테스트, 변동 계수(CV) 게이팅, 프로파일링 분석을 활용하는 방법.

ONNX Runtime QNN

r/deeplearning1달 전

Qwen3.5-0.8B 모델을 VQA-RAD 데이터셋으로 파인튜닝하는 방법

Qwen3.5-0.8B 모델을 VQA-RAD 데이터셋을 사용하여 특정 도메인 작업에 맞게 파인튜닝하는 과정을 설명한다.

r/MachineLearning1달 전

arXiv, AI 생성 논문 적발 시 1년간 제출 금지

arXiv 모더레이터가 논문 내 AI 생성 콘텐츠에 대한 저자의 전적인 책임과 위반 시 1년 제출 금지 제재를 명시했다.

Matthew Berman1달 전

Anthropic이 경고한 2028년 AI 패권 전쟁, 미국은 승리할 수 있을까?

Anthropic의 AI 리더십 시나리오를 분석하며, 컴퓨팅 자원 확보와 오픈소스 모델이 미·중 AI 경쟁의 핵심 변수임을 고찰한다.

Roboflow Blog Vision AI Companies1달 전

RF-DETR과 Roboflow로 실시간 도로 포트홀 탐지 파이프라인 구축하기

RF-DETR 모델과 Roboflow 워크플로우를 결합하여 도로 포트홀을 실시간으로 탐지하고 추적하는 자동화 파이프라인 구축 방법.

RF-DETR Roboflow

Simon Willison1달 전

코딩 에이전트 덕분에 이제 언어와 프레임워크는 '락인'이 아니다

코딩 에이전트의 발전으로 인해 기존 코드베이스의 마이그레이션 비용이 낮아지면서, 특정 기술 스택에 종속되는 '락인' 현상이 점차 사라지고 있다.

Latent Space (swyx)1달 전

의사의 행정 업무를 10~20시간 줄이는 Abridge의 임상 지능 레이어

Abridge는 환자와 의사의 대화를 실시간으로 분석하여 임상 노트를 자동 생성하고, 사전 승인 및 임상 의사결정을 지원하는 헬스케어 AI 플랫폼을 구축한다.

Salesforce1달 전

AI 에이전트 도입 전 필수 체크: 오케스트레이션 밀도 프레임워크 활용법

워크플로의 추론 복잡도를 측정하는 오케스트레이션 밀도 프레임워크를 통해 AI 에이전트와 결정론적 자동화 중 적합한 아키텍처를 선택하는 기준을 제시한다.

Databricks Blog MLOps1달 전

Databricks Unity Catalog, 외부 엔진에서 관리형 테이블 직접 제어 가능해져

Databricks Unity Catalog가 관리형 Delta 테이블에 대한 외부 엔진 접근을 베타로 지원하고, Credential Vending 기능을 정식 출시했다.

Unity Catalog

Wired AI1달 전

AI 학습을 위해 직원들의 화면을 몰래 기록하는 Meta의 감시 정책

Meta가 AI 에이전트 학습 데이터를 수집하기 위해 직원들의 화면 활동을 추적하는 'Model Capability Initiative'를 도입하여 내부 반발과 노조 결성 움직임이 일고 있다.

Kili Technology Blog1달 전

LLM 성능이 실제 서비스에서 안 나오는 이유? 맞춤형 벤치마크 구축 5단계 전략

프로덕션 환경의 LLM 시스템 신뢰성을 확보하기 위해 실제 실패 사례 기반의 맞춤형 벤치마크를 구축하고 운영하는 5단계 방법론을 제시한다.

Hugging Face Blog1달 전

97M 파라미터로 SOTA 달성: IBM의 새로운 다국어 임베딩 모델 R2 공개

IBM이 200개 이상의 언어와 32K 컨텍스트를 지원하는 고성능 다국어 임베딩 모델 Granite R2(97M, 311M)를 Apache 2.0 라이선스로 공개했다.

Cursor1달 전

Shopify의 플래시 세일 트래픽을 견뎌낸 데이터베이스 엔지니어링의 비밀

Shopify의 인프라 확장 경험과 데이터베이스 엔지니어링 철학, 그리고 AI 시대의 엔지니어링에 대한 심도 있는 대담.

Salesforce Engineering Blog Products1달 전

100명 이상의 엔지니어가 공존하는 Salesforce의 멀티 테넌트 AI 에이전트 플랫폼 'BYOP'

Salesforce는 모놀리식 플래너의 병목 현상을 해결하기 위해 독립적인 추론 엔진을 지원하는 멀티 테넌트 AI 에이전트 플랫폼 'BYOP'를 구축하여 개발 자율성과 확장성을 확보했다.

Agentforce

AWS ML Blog1달 전

Amazon Quick에서 여러 AWS 계정의 Athena 데이터를 쿼리하고 비용을 분리하는 방법

Amazon Quick의 교차 계정 Athena 액세스 기능을 사용하여 중앙 BI 계정에서 분산된 데이터를 쿼리하고 비용을 각 계정별로 청구한다.

AWS ML Blog Inference Language Models1달 전

Stream Vision Agents와 Amazon Nova 2 Sonic으로 실시간 음성 에이전트 구축하기

Stream의 Vision Agents 프레임워크와 Amazon Nova 2 Sonic을 결합하여 지연 시간이 짧고 자연스러운 실시간 음성 AI 에이전트를 구축하는 방법을 제시한다.

Amazon Bedrock Amazon Nova 2 Sonic

Alignment Forum1달 전

AI가 평가 중임을 알아채는 이유: Safe-to-Dangerous Shift의 위험성

AI 정렬 평가 환경은 안전해야 하지만 실제 배포 환경은 위험을 수반하므로, 모델이 이를 구분해 평가를 우회하는 '정렬 위장' 문제가 발생한다.

HF Daily Papers1달 전

Reliability-aware PRM으로 Best-of-N의 비용-성능 트레이드오프를 개선

프롬프트 기반 추론에서 각 프리픽스의 보상은 불확실성을 내포한다. BETAPRM은 prefix 수준의 성공 확률과 학습된 신뢰도 신호를 함께 예측해 신뢰성 있는 보상은 조기에 반영하고, 불확실한 프리픽스에는 추가 계산을 배정한다. 이를 통해 더 적은 토큰으로도 더 나은 최종 정답 정확도를 달성할 수 있다.

HF Daily Papers Benchmarks Prompting1달 전

랜덤 방향 프롬프팅으로 한 번의 호출로 top-K 품질 및 비용 절감

PRP 재랭킹은 LLM의 쌍대 선호를 이용해 상위-K를 도출하지만, 노이즈와 비전제성으로 인해 정렬 가정이 맞지 않는다. 이를 예산 제약 하의 활성 학습 문제로 재구성하면, 상위-K 품질을 더 적은 호출 수로 달성할 수 있다. 또한 randomized-direction 오라클은 위치 편향을 제로 평균의 노이즈로 바꿔 합계 순위를 편향 없이 추정하도록 한다. 실험에서 Mohajer 기반 활성 스케줄러가 동일 예산에서 기존 정렬 대비 NDCG@10을 크게 향상시키고, randomized-direction를 통해 비용-효율성이 더 개선된다. BEIR 태스크에서 활성 랭커는 QuickSort와 유사한 NDCG@10를 달성하면서 호출 수를 최대 7배까지 줄일 수 있다.

NDCG@10 Pairwise Ranking Prompting

HF Daily Papers Best Practices Architecture1달 전

ECC로 탐색-학습을 안내하고 Explore-then-Act로 일반화 안정성을 높인다

LLM 기반 에이전트는 미지의 환경에서 조기 exploitation에 빠져 탐색이 부족하다. ECC는 환경의 핵심 상태·물체·어포던스를 확인하는 지점을 verifiable하게 측정하고, Explore-then-Act는 정보 수집과 목표 달성-stage를 분리해 grounded 지식을 먼저 확보한 뒤 작업을 수행하도록 한다. 이러한 분리는 낯선 환경에서의 적응성과 일반화를 대폭 향상시키는 핵심 메타 능력으로 작용한다.

Exploration Checkpoint Coverage Explore-then-Act

HF Daily Papers Architecture Benchmarks1달 전

에이전트가 자율로 하이브리드 아키텍처를 탐색·구현

LLM 에이전트가 프런티어 연구를 수행하는 능력을 검증하는 RSI 연구로, predefined 프리미티브의 조합을 넘어서는 자율 아키텍처 탐색과 저수준 설계의 가능성을 제시한다. 1B 규모에서의 성능 우위, 스케일-대-효율성 프런티어의 발견, 그리고 LRA/Autoresearch 벤치에서의 실용적 개선이 보고된다.

AIRA-Compose AIRA-Design

HF Daily Papers Dev Tools1달 전

모놀리식 3D 월드를 객체 중심의 편집 가능 공간으로 분해한다

생성 기반 3D 월드는 고해상도 시각 품질은 높이지만 객체 단위 편집과 상호작용이 불가능하다. WorldAct는 멀티모달 에이전트와 2D-3D 마스크 기법으로 모놀리식 3DGS를 객체 단위로 분해하고 배경을 보정한 뒤, 각 객체를 독립 자산으로 재생성하여 물리적 상호작용과 임베디드 시뮬레이션을 가능하게 한다. 이로써 객체 수준 편집과 시나리오 재구성이 가능해져 창작 파이프라인의 활용도가 크게 향상된다.

WorldAct

HF Daily Papers1달 전

CLIP 파인튜닝의 시맨틱 피처를 보존하며 강건성을 강화하는 SAE-FT

대규모 비전-언어 모델의 파인튜닝은 ID 성능은 높이되 OOD에서의 로버스트니스가 악화되는 트레이드오프를 보인다. SAE-FT는 zero-shot 모델의 해석 가능한 피처 span에 업데이트를 제한하고, 시맨틱 피처의 소거를 방지함으로써 재현가능한 해석과 강건한 일반화를 동시에 달성한다. ImageNet 및 분포시프트 벤치마크에서 경쟁 또는 최상위 성능에 도달하며, 텍스트 사이드 데이터나 프롬프트 주입 없이도 구현 가능하다.

HF Daily Papers1달 전

latent space에서만 샘플링해 Sphere Encoder 대비 FLOPs 6.5× 감소

Sphere Encoder는 재구성과 생성이 하나의 네트워크에서 이루어지며 픽셀 공간과 잠재 공간 사이를 반복적으로 오가므로 계산 비용이 증가한다. 본 연구는 고정된 representation autoencoder를 이미지 토크나이저로 활용하고 latent space에서만 denoising을 학습하는 분리형 파이프라인을 제시해 샘플링 속도와 연산 비용을 크게 줄이고 재구성/생성의 역할을 분리한다. Animal-Faces, Oxford-Flowers, ImageNet-1K에서 Sphere Encoder 대비 성능 향상을 보이며, 인퍼런스 비용을 약 85% 감소시키는 6.5× FLOPs 절감을 달성한다.

HF Daily Papers Architecture Vision AI1달 전

한 번의 순전파로 Dense Depth Map과 언어 응답을 함께 생성

Vision–Language Models(VLMs)은 2D 작업에 강하지만 3D 이해에는 한계가 있다. 본 논문은 경량의 Depth Head를 LLM 백본에 부착하고 통합 비전-텍스트 감독으로 학습시켜, 단일 순전파로 픽셀 단위 깊이 맵과 텍스트 출력을 함께 생성한다. 이를 통해 VLM의 3D 추론과 다중 모달 이해를 함께 개선하고, Indoors/Outdoors를 아우르는 DepthVLM-Bench를 제시한다. DepthVLM은 DepthLM/Youtu-VL 대비 추론 속도 및 정확도를 크게 향상시키며, 3D 공간 추론 성능을 높인다.

Depth Head DepthVLM

HF Daily Papers Benchmarks Dev Tools1달 전

점-정밀 GUI 제어의 의미-실행 간 격차를 해소하는 PAGER

현대 GUI 에이전트는 멀티모달 지능으로 다양한 인터페이스를 제어하지만, 많은 시스템은 근접 픽셀을 허용하는 영역 기반의 상호작용에 의존한다. 이러한 방식은 점 수준의 좌표 정확도와 기하학적 제약을 필요로 하는 정밀 그래픽 구성에서 실패하기 쉬운데, 이는 의존 관계의 누적 오차로 인한 구조 붕괴를 유발한다. PAGE Bench와 PAGER는 이 정밀-민감 영역을 측정하고, 의존 구조화된 계획과 픽셀 수준 실행으로 이 간극을 해소한다.

PAGE Bench PAGER

HF Daily Papers Datasets Dev Tools1달 전

COVER로 4π 커버리지를 달성하는 파노라마 RGB-D-포즈 데이터셋

현대의 3D 시각 학습은 메트릭 3D 자산에서 샘플링된 관측에 의존한다. 그러나 기존 자산은 완전한 장면 커버리지를 보장하는 파노라마 학습 인터페이스를 직접 제공하지 못한다. CM-EVS는 COVER를 통해 비학습 기반의 ERP 뷰 큐레이션을 제공하고, 36,373개의 ERP 프레임을 1,275개 실내 장면에서 확보해 학습 시 비중복성·기하적 일관성·재현 가능성을 강화한다. 외부 파노라마도 동일 스키마로 인코딩되며, 추적 가능한 출처 로그를 포함한다. 결과적으로 파노라마 3D 학습에서 비효율적 중복과 깊이 충돌 문제를 줄이고, 검증 가능한 데이터 공급 체계를 제시한다.

CM-EVS COVER

HF Daily Papers Training Best Practices1달 전

전략 수준 컨텍스트를 통한 탐색 다양성으로 RLVR의 성능을 대폭 끌어올린다

RLVR의 핵심은 탐색의 질이다. naive 롤아웃 확장은 비용이 매우 크고, 정책이 이미 샘플링한 경로에만 개선이 가능하다. 본 연구는 Strategy Nudging으로 컨텍스트를 도입해 다양한 추론 모드를 강제 탐색하도록 하고, Inter-Intra Group Advantage와 디스틸레이션으로 발견된 유용한 전략을 기본 프롬프트 정책으로 전이시킴으로써 적은 롤아웃으로도 GRPO 대비 우수한 성능을 달성한다. 실험에서 8배 큰 롤아웃 예산을 사용한 GRPO를 능가하고, oracle 기반 프리픽스 방법보다도 우수한 성과를 보인다.

GRPO NUDGERL

HF Daily Papers1달 전

한 단계 학습으로 전체 궤적 성능 달성과 비용 대폭 절감

비디오 확산 모델의 인간 선호도 정렬은 긴 denoising 궤적을 통한 역전파로 인해 막대한 계산이 필요하다. 기존의 sliding-window 서브샘플링은 계산 효율을 높이지만 최적화의 신뢰성과 안정성을 해치며 성능 한계를 초래한다. Flash-GRPO는 iso-temporal grouping과 temporal gradient rectification을 도입해 단일 timestep 학습으로 full-trajectory 수준의 성능에 근접하거나 이를 초과하면서도 계산 비용을 크게 낮춘다.

HF Daily Papers Libraries1달 전

DexJoCo: 11개 태스크와 1.1K 인간 시연으로 강건성 평가

손재주 중심 로봇 manipulation 연구를 위한 표준 벤치마크의 부재를 해소하기 위해 DexJoCo를 제안한다. DexJoCo는 기능적으로 근거된 태스크, 도구 사용, 양손 협응, 장기 실행 및 추론을 포함하는 11개 태스크를 제시하고, 1.1K의 인간 시연 데이터를 수집하며 도메인 랜덤화를 통한 강건성 평가를 가능하게 한다. 이로써 현재 정책의 한계점과 향후 연구 방향을 체계적으로 분석할 수 있다.

MuJoCo

HF Daily Papers Libraries1달 전

실시간 의상 전환으로 비디오를 인터랙티브하게 커스터마이즈

패션 비주얼 콘텐츠와 이커머스에서 실시간 인터랙티브 커스터마이제이션의 수요가 커지고 있다. 본 연구는 단일-의상 데이터로도 다중 의상 전환을 가능한 프레임워크를 제시하고, 모션 일관성을 유지하면서 스트리밍 형태로 고품질 비디오를 생성한다. 제안 방식은 데이터 수집의 부담을 줄이고, 현장 적용 시 실시간성 및 상호작용성을 크게 향상시킨다.

FashionChameleon

r/ClaudeAI1달 전

코딩을 몰라도 가능할까? Claude Code로 완성한 소설 분석 서비스 개발기

소설 작가가 Claude Code를 활용해 Next.js, Python, Supabase 기반의 전문적인 원고 분석 도구인 FirstReader를 개발한 사례.

r/LangChain1달 전

코딩 에이전트가 느린 이유: LLM 최적화보다 중요한 네트워크와 샌드박스 배치

코딩 에이전트의 지연 시간 분석 결과, LLM 추론 비중은 30%에 불과하며 네트워크 왕복 시간과 샌드박스 콜드 스타트가 성능 저하의 주요 원인임을 확인했다.

r/ClaudeAI1달 전

Claude Code 메모리 관리: 드리프트 방지 스키마와 자동 감사 스크립트

Claude Code의 auto-memory 기능에서 발생하는 메모리 파일 중복과 컨텍스트 오염을 방지하기 위해, 명명 규칙과 필수 필드를 강제하는 관리 스크립트와 스킬을 공유함.

r/ClaudeAI1달 전

Claude가 웹 분석 데이터를 직접 조회하게 만드는 MCP 서버 구축기

웹 분석 데이터를 Claude에게 직접 제공하여 에이전트의 조언 품질을 높이는 MCP 서버 구축 사례.

r/ClaudeAI1달 전

Claude 아티팩트 공유와 팀 협업을 한 번에 해결하는 display.dev

Claude로 생성한 HTML 아티팩트를 안전하게 공유하고 팀 단위로 협업할 수 있는 플랫폼 display.dev를 소개한다.

r/ClaudeAI1달 전

Claude Code가 직접 마이크를 켜서 질문하게 만드는 방법

Claude Code와 MCP를 연동하여 AI가 직접 음성 입력을 요청하고 TTS로 대화하는 macOS 앱 Spokenly를 개발했다.

r/ClaudeAI Libraries Architecture1달 전

기존 MCP 서버들의 한계를 극복한 검색 및 URL 추출 도구, google-surf-mcp

검색과 URL 추출을 하나의 MCP 서버로 통합하여 학술 자료 처리와 토큰 효율성을 최적화한 도구입니다.

google-surf-mcp MCP

r/LLMDevs1달 전

AI 챗봇 '무제한' 요금제, 왜 수익성을 파괴하는가?

AI 챗봇 제품의 복잡한 내부 워크플로와 컨텍스트 증가로 인해, 고정 요금제보다 사용량 기반 요금제가 지속 가능한 수익 모델로 주목받고 있다.

r/ClaudeAI1달 전

코딩 에이전트가 실수로 파일을 삭제하지 못하게 막는 안전 장치, GrapeRoot Pro

GrapeRoot Pro는 세션 그래프를 분석하여 코딩 에이전트의 위험한 파일 삭제 명령을 사전에 감지하고 차단하는 안전 가드레일 도구이다.

r/LLMDevs1달 전

LLM 엔지니어링 실무자를 위한 용어 사전: 정의보다 중요한 프로덕션 임팩트 정리

LLM 엔지니어링 과정에서 마주치는 핵심 용어들을 정의와 함께 프로덕션 관점의 실무적 영향 중심으로 정리한 오픈소스 필드 가이드.

MIT Technology Review Companies1달 전

제작비 90% 절감, 중국 AI 숏폼 드라마가 글로벌 시장을 장악하는 법

중국 숏폼 드라마 산업이 생성형 AI를 도입하여 제작 비용을 80~90% 절감하고 제작 기간을 단축하며 글로벌 시장으로 빠르게 확장하고 있다.

FlexTV Kunlun Tech

r/ClaudeAI1달 전

AI 코딩 에이전트, 왜 마지막 배포 단계에서 항상 멈출까?

AI 코딩 에이전트가 코딩은 잘하지만 배포 단계의 샌드박스 제한과 컨텍스트 유지 실패로 인해 실질적인 자동화에 한계를 보인다는 사용자 경험 공유.

r/ClaudeAI1달 전

긴 프롬프트 대신 '제1원리 사고' 한 줄로 AI 응답 품질을 높이는 방법

제1원리 사고를 통해 AI가 추상적인 개념을 원자 단위로 정의하고 논리적 추론 체인을 생성하게 하여, 응답 품질을 높이고 결과를 디버깅하는 기법을 공유함.

r/ClaudeAI1달 전

Claude와 Gemini를 조합해 웹사이트 개발 비용을 절감한 경험

Claude Pro와 Gemini를 조합하여 웹사이트를 구축하고, 프롬프트 최적화를 통해 토큰 사용량을 효율적으로 관리한 사례.

r/ClaudeAI1달 전

멀티 에이전트 시스템, 비용 15배 증가를 막는 캐싱 전략

멀티 에이전트 시스템은 단일 에이전트 대비 토큰 사용량이 15배 증가하므로, 프롬프트 캐싱을 활용해 비용을 최적화하고 작업의 의존성에 따라 에이전트 위임 여부를 결정해야 한다.

r/ClaudeAI Coding Agents Dev Tools1달 전

Claude Code 사용 시 예상치 못한 토큰 소모를 방지하는 방법

CLI 코딩 에이전트 사용 시 파일별 토큰 수를 시각화하여 컨텍스트 소모를 사전에 관리할 수 있는 데스크톱 IDE 'Vibeyard'를 개발했다.

Claude Code Vibeyard

r/ClaudeAI1달 전

Claude 아티팩트 URL만으로 웹사이트를 즉시 배포하는 방법

Claude 아티팩트 URL을 입력하면 별도의 다운로드 과정 없이 즉시 웹사이트로 호스팅해주는 static.app 활용법.

Hacker News - LLM1달 전

LLM의 추론 한계를 파헤치는 연구 자료 모음: Krellix Labs의 오픈소스 큐레이션

Krellix Labs가 공개한 LLM 추론 연구 저장소로, 시간 및 인과 추론 등 모델의 인지적 한계를 다룬 논문과 벤치마크를 체계적으로 정리한 자료입니다.

iMerit Blog Companies1달 전

AI 벤더 선정 시 놓치기 쉬운 데이터 보안 거버넌스 평가 기준

AI 데이터 벤더 평가 시 데이터 수집부터 폐기까지의 보안 운영과 거버넌스 역량을 검증하여 잠재적 리스크를 사전에 차단하는 방법.

iMerit

iMerit Blog Companies1달 전

자율주행 모델 성능을 높이는 엣지 케이스 트리아주 전략

자율주행 시스템에서 발생하는 희귀한 롱테일 시나리오를 식별하고 우선순위를 정해 데이터 효율성을 높이는 엣지 케이스 트리아주 방법론을 다룬다.

iMerit

Meta Newsroom Companies Products1달 전

인도 소상공인을 위한 24/7 AI 고객 응대, WhatsApp Business AI 출시

Meta가 인도 소상공인을 위해 코딩 없이 24/7 고객 응대와 판매를 지원하는 'Business AI' 기능을 WhatsApp Business 앱에 출시했다.

Meta WhatsApp

r/LLMDevs1달 전

강화학습으로 레드팀과 방어 모델을 자동화하여 공격 방어율 92% 달성

강화학습(GRPO)을 사용하여 공격자와 방어자를 동시에 학습시키는 자동화된 레드팀 루프를 구축하고, 공격 전략 다양화를 통해 방어 성능을 64%에서 92%로 개선함.

Artificial Intelligence Companies Coding Agents1달 전

앤스로픽의 의료 AI 투자와 세레브라스 IPO 대박, AI 시장의 현재

앤스로픽과 게이츠 재단의 2억 달러 협력, 세레브라스의 성공적인 IPO, 그리고 주요 AI 기업들의 전략적 행보를 분석합니다.

Anthropic Cerebras

Hacker News - LLM1달 전

Rust 프로젝트가 LLM 생성 코드의 무분별한 기여를 막기 위해 도입하는 새로운 정책

Rust 프로젝트가 LLM을 활용한 저품질 기여(slop)를 방지하고, 프로젝트 내 LLM 사용 범위를 명확히 규정하는 정책을 제안함.

Hacker News - LLM1달 전

LLM 스트리밍에 최적화된 증분 파싱 지원 TypeScript 마크다운 파서

LLM의 실시간 스트리밍 출력을 처리하기 위해 CommonMark와 GFM을 지원하는 증분 파싱 기반의 TypeScript 마크다운 파서입니다.

TechCrunch AI1달 전

일론 머스크의 SpaceXAI, 핵심 인재 50명 이상 이탈하며 모델 개발 차질 우려

일론 머스크의 SpaceXAI에서 최근 50명 이상의 핵심 연구원과 엔지니어가 퇴사하며 모델 개발 역량에 대한 우려가 제기되고 있다.

Hacker News - LLM1달 전

멕시코 수자원 시설 공격에 사용된 Claude와 GPT, 사이버 공격의 진입 장벽을 낮추다

사이버 보안 기업 Dragos가 멕시코 수자원 시설을 대상으로 한 사이버 공격에 Anthropic의 Claude와 OpenAI의 GPT 모델이 악용된 사례를 보고했다.

TechCrunch AI1달 전

리처드 소처가 설립한 Recursive Superintelligence, 재귀적 자기 개선 AI로 연구 자동화 도전

리처드 소처가 설립한 Recursive Superintelligence가 재귀적 자기 개선 AI 모델 개발을 위해 6억 5천만 달러를 확보했다.

The Verge AI Products Coding Agents1달 전

이제 스마트폰으로 PC를 제어한다: OpenAI, 모바일 ChatGPT에 Codex 연동 기능 추가

OpenAI가 데스크톱 코딩 에이전트인 Codex를 모바일 ChatGPT 앱에서 원격으로 제어하고 관리할 수 있는 기능을 출시했다.

ChatGPT Codex

Wired AI1달 전

머스크와 알트만의 법정 공방, 그리고 트럼프의 중국행이 의미하는 것

Wired의 Uncanny Valley 팟캐스트가 머스크와 알트만의 법정 공방, 트럼프의 중국 방문, 그리고 한타바이러스 관련 음모론을 다룹니다.

TechCrunch AI Coding Agents1달 전

내 책상 위의 AI 타마고치? Claude Code 사용량을 시각화하는 'Clawdmeter'

Claude Code의 토큰 사용량을 실시간으로 모니터링하고 시각화하는 오픈소스 하드웨어 대시보드 'Clawdmeter'가 공개됐다.

Claude Code

The Verge AI Coding Agents Companies1달 전

Microsoft, 내부 개발자 대상 Claude Code 라이선스 전면 중단

Microsoft가 내부 개발자들의 Claude Code 사용을 중단하고 GitHub Copilot CLI로 통합한다.

Claude Code Microsoft

AWS ML Blog Products Companies1달 전

AI 에이전트 보안 강화: Amazon Bedrock AgentCore에서 Chrome 정책과 루트 CA 적용하기

Amazon Bedrock AgentCore는 Chrome 엔터프라이즈 정책과 루트 CA 인증서 지원을 통해 AI 에이전트의 브라우저 수준 보안 제어와 내부망 연결을 지원합니다.

Amazon Bedrock AgentCore Amazon Web Services

AWS ML Blog1달 전

LLM 기반 Amazon Lex Assisted NLU로 챗봇 의도 분류와 슬롯 추출 정확도 높이기

Amazon Lex Assisted NLU는 LLM을 활용해 챗봇의 의도 분류와 슬롯 추출 정확도를 높이고, 수동 설정 없이도 자연스러운 대화 처리를 지원한다.

The Verge AI Companies1달 전

우리 동네 데이터 센터는 어디에? AI 인프라 투명성을 높이는 인터랙티브 지도

AI 데이터 센터의 위치와 관련 정책을 시각화하여 지역 주민의 알 권리와 협상력을 높이는 인터랙티브 지도가 공개되었다.

Google

WRITER Companies1달 전

단순 챗봇을 넘어 업무를 직접 수행하는 AI 에이전트의 실무 적용

Writer가 공개한 AI 에이전트 기능은 콘텐츠 초안 작성부터 워드프레스 게시, 프로젝트 관리 툴 연동까지 전체 워크플로를 자동화한다.

WRITER

Chris Raroque Coding Agents Dev Tools1달 전

AI 코딩 에이전트로 개발 생산성을 극대화하는 실전 워크플로우

Claude Code, Cursor, Greptile 등 AI 도구를 조합하여 테스트 자동화, 코드 리뷰, 원격 제어를 구현하는 개발 워크플로우를 공유한다.

Claude Code Cursor

Hacker News - LLM1달 전

최신 AI 모델 벤치마크 순위: Gemini 3.1 Pro가 1위 차지

다양한 AI 모델의 Visual Score 기반 벤치마크 순위에서 Gemini 3.1 Pro가 1위를 기록했다.

Hacker News - LLM1달 전

SQL 없이 에이전트가 직접 쿼리하는 AI 네이티브 데이터베이스, BlitzGraph

BlitzGraph는 SQL 대신 타입이 지정된 JSON 쿼리(BQL)를 사용하여 AI 에이전트가 데이터와 직접 상호작용하도록 설계된 AI 네이티브 백엔드입니다.