2026년 5월 19일 AI 뉴스 아카이브

인도식 영어 인식에서 강점을 보인 Parakeet TDT 0.6B v2

작성자는 Parakeet TDT 0.6B v2가 인도식 영어 인식에서 우수하고 Hugging Face에서 사용 가능하다고 보고했다.

HF Daily Papers Best Practices Libraries1달 전

긴 비디오 이해를 위한 병렬 도구 호출 RL 프레임워크

긴 비디오 이해에서 도구 호출은 증거를 빠르게 모으는 핵심 방법이지만, 프리트레인 도구 priors가 RL 초기에 포맷 불안정과 도구 탐색의 급진적 증가를 유발한다. ParaVT는 단일 턴에 여러 창을 병렬로 평가하는 구조로 맥락 손실을 줄이고, 프레이밍 문제를 안정화하며, 도구 사용의 실제 가치가 충분히 보상되도록 설계된다. 이로써 긴 비디오 기반 추론에서의 효율성과 정확성을 함께 높인다.

PARA-GRPO ParaVT

HF Daily Papers1달 전

4-pixel 센서와 IMU로 planar odometry를 달성 — ATE 0.34m, drift 0.60

저전력 및 저해상도 하드웨어에서도 신뢰 가능한 로봇 주행 추정이 가능함을 보인다. 네 개의 광 검출기에서 얻은 신호를 Gabor 마스크로 필터링하고 Temporal Convolutional Network로 속도를 추정한 뒤 IMU yaw와 결합하여 평면 경로를 얻는다. 시뮬레이터에서 학습된 파라미터를 실제 프로토타입에 적용해 87분간 920m의 주행에서 강건한 성능을 보여준다.

The Verge AI1달 전

AI 딥페이크 규제법 'Take It Down Act' 시행, 실효성과 검열 논란

비동의 성적 이미지(NCII) 삭제를 의무화하는 'Take It Down Act'가 시행되었으나, 실효성 부족과 정치적 검열 악용 가능성이 제기된다.

All About AI1달 전

AI 에이전트로 앱 기획부터 스토어 배포까지 1시간 만에 끝내기

Claude Code와 자동화 도구를 사용하여 트렌드 분석부터 iOS 앱 개발 및 배포까지의 전 과정을 자동화하는 실전 사례를 다룬다.

KDNugget Products1달 전

Claude Cowork로 반복 업무 자동화하고 생산성 높이는 방법

Claude Desktop 내 자율 에이전트인 Claude Cowork의 기능, 설정법, 그리고 업무 효율을 극대화하는 프롬프트 활용 전략을 다룬다.

Claude Cowork

SentinelOne Blog1달 전

에이전트 AI 보안의 핵심, SentinelOne의 'Prompt for Agentic AI Security'로 실시간 거버넌스 구축하기

SentinelOne이 에이전트 AI의 자율적 실행으로 인한 보안 위험을 관리하고 실시간 거버넌스를 제공하는 'Prompt for Agentic AI Security'를 출시했다.

r/LangChain1달 전

멀티 에이전트가 실패하는 이유: 엔터프라이즈 작업에서의 실전 실험 결과

엔터프라이즈 솔루션 설계 작업에서 멀티 에이전트보다 도구를 잘 갖춘 싱글 에이전트가 더 높은 정확도와 효율을 보였다.

r/LangChain Companies Libraries1달 전

복잡한 연구 과제를 해결하는 4단계 멀티 에이전트 시스템 구축기

단일 RAG의 한계를 극복하기 위해 LangGraph와 Groq를 활용한 4단계 멀티 에이전트 연구 시스템을 구축하고 오픈소스로 공개함.

Groq LangGraph

Hacker News - LLM1달 전

컨텍스트 토큰 소모 없는 AI 에이전트용 장기 기억 솔루션, ECHOFORM

ECHOFORM은 FHRR 하이퍼벡터를 활용하여 컨텍스트 토큰 소모 없이 AI 에이전트의 장기 기억을 구현하고, 암호화된 삭제 증명으로 GDPR 규정을 준수하는 메모리 기판이다.

r/ClaudeAI1달 전

Laravel 앱에 직접 통합하는 MCP 지원 개인 지식 관리 도구

Laravel 애플리케이션 데이터베이스를 기반으로 작동하며, MCP를 통해 AI 에이전트가 노트를 읽고 쓸 수 있게 지원하는 개인 지식 관리 도구입니다.

r/ClaudeAI1달 전

Claude Code로 1인 개발한 로컬 오디오 분리 도구 StemDeck 공개

Claude Code를 활용해 개발한 로컬 기반의 오픈소스 오디오 스템 분리 도구 StemDeck을 소개한다.

r/artificial1달 전

Claude Code가 스스로 메모리를 생성하고 자아를 성찰한다? 창발적 행동인가, 패턴 매칭인가

Claude Code의 세션 간 학습을 지원하는 MCP 서버 도구 'claude-soul'을 통해 관찰된 AI의 자율적 메모리 생성 및 성찰 행동에 대한 분석과 토론.

DataRobot Blog Companies Libraries1달 전

IDE를 떠나지 않고 프로덕션급 AI 에이전트를 구축하는 DataRobot의 새로운 개발자 도구

DataRobot이 IDE 통합, MCP 지원, LLM Gateway를 통해 AI 에이전트의 개발부터 배포, 거버넌스까지의 과정을 간소화한다.

DataRobot LangGraph

Hacker News - LLM1달 전

컨텍스트 윈도우는 하드디스크가 아니다: LLM 에이전트 성능을 저하시키는 프롬프트 설계 오류

LLM 에이전트 개발 시 컨텍스트 윈도우를 단순히 늘리는 것은 성능 저하를 초래하므로, 상태 기반의 '예산, 압축, 재구성' 패턴을 적용해야 한다.

Gradient Flow (Ben Lorica)1달 전

기업용 AI 에이전트 도입이 실패하는 진짜 이유와 해결책

기업용 AI 에이전트 도입 실패는 모델 성능 문제가 아니라 레거시 시스템 통합, 데이터 품질, 조직적 변화 관리의 부재에서 기인한다.

Analytics Vidhya Dev Tools1달 전

로컬 브라우저 세션을 AI 에이전트와 연결하는 Kimi WebBridge 활용법

Kimi WebBridge는 로컬 브라우저 세션을 활용해 AI 에이전트가 웹 페이지를 직접 조작하고 데이터를 추출하도록 돕는 브라우저 확장 프로그램이다.

Kimi WebBridge

Salesforce1달 전

Indeed가 LLM 프롬프트 대신 결정론적 코드로 에이전트 신뢰성을 확보한 방법

Indeed는 대규모 운영 환경에서 에이전트의 신뢰성을 높이기 위해 LLM 프롬프트 기반 로직을 결정론적 코드 경로로 전환하고 API 기반 개발 워크플로를 구축했다.

Salesforce Products Companies1달 전

QR 코드로 시작하는 AI 언박싱 에이전트: SharkNinja의 고객 경험 혁신

SharkNinja는 Agentforce를 활용해 QR 코드로 접근 가능한 AI 언박싱 에이전트를 구축하여 고객에게 맞춤형 제품 설정 가이드를 제공한다.

Agentforce Salesforce

r/artificial1달 전

AI가 일자리를 대체하는 진짜 방식: 전문성보다 '조직적 마찰'이 먼저 사라진다

AI는 특정 직무를 직접 대체하기보다 정보 전달, 조율, 검증 등 조직 내 마찰을 줄임으로써 주니어 채용 감소와 팀 규모 축소라는 간접적인 고용 변화를 유발한다.

AI Supremacy1달 전

Anthropic과 OpenAI가 AI 수익의 89%를 독점하는 시대, 2026년 AI 시장의 실체

2026년 AI 산업은 Anthropic과 OpenAI 중심의 자본 집중과 IPO 열풍 속에 있으며, 금융권 자동화와 에너지 비용 상승 등 사회적 파장을 야기하고 있다.

r/MLOps1달 전

MLOps 파이프라인 구축 시 마주한 4가지 핵심 교훈

ETL부터 모델 배포까지 자동화된 MLOps 파이프라인을 구축하며 얻은 데이터 검증, 리소스 관리, 학습-서빙 편향 방지 및 모니터링에 관한 실무 경험 공유.

r/LLMDevs1달 전

RAG 검색 정확도 0.72에서 0.94로, 쿼리 변환만으로 성능 높이기

모호한 질문을 구체화하여 RAG 검색 정확도를 높이는 Multi-query, HyDE, Decomposition, Step-back 기법을 소개한다.

r/LLMDevs1달 전

분산 환경에서 에이전트 작업을 병렬화하는 agentfab 플랫폼

분산 컴퓨팅 환경에서 에이전트 작업을 병렬화하고 관리하는 오픈소스 플랫폼 agentfab을 소개한다.

r/MLOps1달 전

AI 에이전트의 스팸 PR로 인한 CI 비용 낭비, Git 작성자 검증으로 100% 차단하기

AI 에이전트가 생성한 무분별한 PR 스팸을 Git의 --author 플래그와 작성자 검증 로직을 통해 CI 파이프라인에서 효과적으로 차단하는 방법.

Artificial Intelligence1달 전

Meta의 AI 안경부터 AI 데이터센터 전력 대란까지, 지금 주목해야 할 AI 산업 뉴스

Meta와 Anduril의 군용 AI 안경 협력, AI 데이터센터 전력 수요 급증, 그리고 AI 기반 버그 바운티의 변화를 다룹니다.

Simon Willison1달 전

2025년 11월 이후 LLM 시장의 급격한 변화와 코딩 에이전트의 도약

2025년 11월 변곡점 이후 코딩 에이전트의 실용화와 주요 모델 간 성능 경쟁, 그리고 로컬 모델의 비약적 발전을 다룬다.

HF Daily Papers Architecture Datasets1달 전

저데이터에서 Dice를 높이는 episodic sampling의 CT 체구성 세그멘테이션

의료 영상 세그먼테이션에서 클래스 불균형은 작은 근육·지방 구조의 정확도에 큰 영향을 준다. 기존의 손실 가중치나 이미지 샘플링은 배치 내 클래스 구성을 명시적으로 제어하지 못한다. 본 연구는 episodic sampling을 도입해 배치 구성에서 클래스 균형을 확보하고 학습 예산과의 연관성(반복 횟수)에 따른 confound를 분리함으로써 샘플링 전략의 효과를 재평가한다.

Episodic Sampling SAROS

HF Daily Papers Datasets1달 전

뇌 간 비지도 학습으로 보편 기하학을 발견하는 연구

개별 뇌에서 학습된 fMRI 임베딩을 서로 다른 사람의 뇌로 옮겨 같은 좌표계에 배치할 수 있는지 탐구한다. 교차 피험자 조회를 위해 paired inputs 없이도 자가-supervised 방식으로 공간 정렬이 가능하다는 점을 제시하며, 신경생물학과 인공지능 모델 간의 표현 기하를 연결하는 새로운 가능성을 보여준다. 이를 통해 데이터가 서로 다른 사람 간에 재사용 가능하다는 실용적인 시사점을 제공한다.

Natural Scenes Dataset

HF Daily Papers Benchmarks Agents1달 전

다중 소스 증거 탐색으로 임상 의사결정 F1을 끌어올린 ClinSeekAgent

현실 세계의 임상 워크플로우는 고정된 증거 패키지가 아닌, 다양한 소스에서 동적으로 증거를 탐색하고 융합하는 에이전트를 필요로 한다. ClinSeekAgent는 EHR, 의료 영상, 외부 지식 소스를 통합적으로 탐색하는 자동화된 에이전트 파이프라인을 제시하며, 강력한 인퍼런스 모델의 성능을 개선하고 오픈 소스 모델 학습에도 활용 가능하다.

AgentEHR-Bench ClinSeekAgent

HF Daily Papers Domain AI Architecture1달 전

I/O-aware Expert Refresh로 MoE diffusion LLM 추론 throughput를 대

리소스 제약 환경에서 MoE-dLLM의 대용량 파라미터를 효율적으로 운용하려면 GPU-CPU 간의 I/O 비용과 CPU 계산 병목을 줄여야 한다. TIDE는 expert activations의 시간적 안정성을 이용해 interval-based refresh를 도입하고, 모델 정확도에 영향을 주지 않으면서 추론 속도를 높인다. LLaDA2.0-mini와 LLaDA2.0-flash에서 최대 1.4×, 1.5×의 처리량 개선이 보고된다.

LLaDA2.0-mini MoE

HF Daily Papers1달 전

MedGround-Bench와 MedFocus로 의학 LVLM의 시각적 근거를 실증적으로 검증하고 신뢰성을높

대형 Vision-Language 모델(LVLM)은 의료 분야에서 활용도가 높아졌지만 입력 영상의 시각적 증거에 대한 Grounding이 불충분하여 임상 신뢰에 위험이 있다. 기존 Attribution 방법은 내부 추론과 실제 근거가 일치하는지 확인하기 어렵고 Ground-Truth가 제한적이다. 이 연구는 Chest X-ray(CXR) 데이터에 대해 Ground-truth Attribution의 인과적 타당성을 검증하는 MedGround-Bench를 제시하고, 지역적 임상 개념에 기반한 MedFocus를 통해 시각적 근거를 공간-개념-토큰 차원에서 인과적으로 측정한다. 실험은 11개 Attribution 방법, 6개 LVLM, 3개 CXR 데이터셋, 2가지 출력 모드에서 수행되며, MedGround-Bench를 통해 기존 방법의 한계를 확인하고 MedFocus의 향상을 보여준다.

HF Daily Papers1달 전

Long-Horizon에서 Memory 간섭 문제를 다루는 MINTEVAL 벤치마크

실세계 에이전트는 정보가 시간이 지남에 따라 지속적으로 업데이트되며 간섭이 발생한다. 기존 벤치마크는 독립적 기억과 단기적 재현에 집중해 장기 맥락의 상호작용과 기억 구성의 한계를 포착하지 못한다. MINTEVAL은 four domains에서의 지속적 업데이트와 간섭으로 인해 메모리 관리가 어려운 환경에서 기억의 검색, 구성, 집계 추론의 강건성을 평가한다.

HF Daily Papers1달 전

Floorplan 기반 노드형 파노라마 합성으로 다룸 간 일관성 확보

다룸 규모의 파노라마 합성은 방·문·복도 간의 기하학적 일관성과 재질 일치를 동시에 보장해야 한다. 기존 2D diffusion은 공간 기억이 없어 뷰가 바뀌면 동일 요소의 형상·재질이 달라 보일 수 있고, 단일 3D 자원은 비용 증가와 텍스처 손실이 있다. PanoWorld는 floorplan을 글로벌 기하학적 프록시로 활용하고, 3DGS 캐시를 통한 렌더able 공간 기억으로 다룸 간 크로스-뷰 일관성을 유지한다. 이는 다룸 규모의 VR 투어에서 고해상도 질감과 일관된 구조를 동시에 달성하는 새로운 프레임워크를 제시한다.

HF Daily Papers Optimization Architecture1달 전

다목적 체비쇼프 어닐링으로 에이전트 스킬 Pareto 프런트를 탐색

에이전트의 스킬은 description, body, metadata 등 다중 필드로 구성되며, 각 필드의 플랫폼 제약이 존재한다. 단일 목표로 최적화를 시도하는 기존 방법은 이러한 다중 제약 하에서 발생하는 trade-off를 놓치기 쉽다. MOCHA는 Chebyshev 스칼라화와 하이퍼볼륨 기반의 탐색, 그리고 탐색-활용 전환을 통해 비선형(non-convex) 영역까지 포괄하는 Pareto front를 발견하고, 6개 스킬에서 일관된 성능 향상을 달성한다.

Chebyshev Scalarization MOCHA (Multi-Objective Chebyshev Annealing)

HF Daily Papers Architecture Libraries1달 전

노이즈 중간 latent에 대한 가치 모델을 한 번의 스티칭으로 대규모로 전이

diffusion/flow 기반 생성모델은 프롬프트 적합성이나 미적 선호도 같은 보상에 맞춰 조정되기 어렵다. 보상은 일반적으로 깨끗한 이미지에 대해 정의되고, 노이즈가 있는 latent에서의 가치 평가가 필요하다. Tweedie 또는 Monte Carlo 접근은 편향 혹은 비용 이슈를 동반한다. StitchVM은 pixel-space reward models를 노이즈 latent으로 이식해, 고정된 head와 작은 finetuning으로 보상 모델의 강점을 그대로 유지하면서 latent 공간에서의 정렬을 가능하게 한다.

diffusion model stitching

HF Daily Papers Products Inference1달 전

Z3 검증과 적대적 강화로 frontier LLM의 논리추론 한계 정밀 진단

대형언어모델의 논리추론은 주어진 전제에서 결론이 반드시 도출되어야 하는 규칙적 추론이다. 기존 벤치마크는 템플릿 의존성이나 불충분한 형식 주석으로 인해 실제 추론 능력을 왜곡할 수 있다. LLMEval-Logic은 현실적 시나리오를 기반으로 forward authoring과 Z3 검증, 전문가 루브릭을 결합하고, 5단계의 adversarial hardening 워크플로우를 통해 frontier 모델의 한계를 보다 명확하게 구분한다.

LLMEval-Logic Z3

HF Daily Papers1달 전

긴 호라이즌 멀티모달 GUI 워크플로우를 평가하는 벤치마크

전문적 미디어 편집은 인터페이스 밀집성과 장기간 실행 흐름으로 인해 일반 GUI 에이전트의 한계를 넘어선다. CutVerse는 186개의 작업, 7개 애플리케이션, Windows VM 기반 실행환경, 멀티모달 로그를 구조화된 GUI Trajectory로 변환하고 Milestone 기반 자동 평가를 통해 실제 포스트프로덕션 워크플로우에서의 에이전트 성능을 체계적으로 비교한다.

HF Daily Papers Hardware1달 전

프리필링에 NVFP4 양자화로 속도 대폭 증가, 디코딩은 BF16으로 안정 유지

에이전트형 LLM의 입력 컨텍스트가 길어지면서 프리필링이 주된 병목이 된다. 기존의 전체 파이프라인에 저비트 양자화를 적용하면 디코딩 품질이 악화될 수 있는데, Mix-Quant은 프리필링에만 NVFP4 양자화를 적용하고 디코딩은 BF16으로 유지해 계산 효율과 생성 품질의 균형을 달성한다. 이로써 긴 맥락과 다회 상호작용이 요구되는 에이전트형 인퍼런스의 효율을 크게 개선한다.

BF16 NVFP4

HF Daily Papers Benchmarks Architecture1달 전

단일 학습 레시피로 4m에서 2.5B 파라미터까지 예측 품질을 일관 개선

시계열 foundation model이 스케일링에 따라 예측 품질이 향상될 수 있음을 실증한다. Toto 2.0은 내부 observability 데이터와 합성 데이터를 혼합해 학습하고, CPM, quantile head, NorMuon, u-µP를 도입해 대규모에서도 안정적이고 빠른 추론을 보여주며 BOOM, GIFT-Eval, TIME에서 SOTA를 달성한다. 또한 u-µP를 통한 하이퍼파라미터 전이로 다중 규모 모델에서도 동일 구성을 재사용 가능하게 한다.

BOOM GIFT-Eval

HF Daily Papers Architecture Datasets1달 전

악조건에서도 WER를 대폭 낮추는 대규모 음향 시뮬레이션 기반 Mega-ASR

현실 세계 환경은 소음, 원거리 마이크, 에코, 전송 손실 등 다중 요인이 복합적으로 작용한다. 기존 모델은 단일 요인에 초점을 맞추거나 한정된 합성 조건에서 학습되어 일반화가 제한된다. VOICES-IN-THE-WILD-2M 데이터셋과 A2S-SFT, DG-WGPO를 결합해 음향-의미 간 연결을 단계적으로 강화하고, RL 기반의 동적 보상으로 복합 조건에서도 의미 재구성과 정확도 향상을 달성한다.

Mega-ASR VOICES-IN-THE-WILD-2M

HF Daily Papers Benchmarks Libraries1달 전

하나의 LLM 기반 시스템으로 코드·프롬프트·에이전트 아키텍처를 한꺼번에 최적화

다양한 도메인에 걸친 텍스트 아티팩트를 최적화하는 단일 LLM 기반 시스템의 범용성을 보인다. 이 시스템은 단일-task, multi-task, generalization 모드를 하나의 API로 통합하고, 사이드 정보(SI)를 피드백으로 활용해 수렴 속도와 최종 성능을 크게 향상시킨다.

ARC-AGI GEPA

HF Daily Papers Training Optimization1달 전

정책 인식 루브릭 보상으로 RLVR 학습 효율을 2.5–4배 끌어올린다

다차원 품질을 필요로 하는 RLVR에서 단일 스칼라 보상은 다양한 실패 모드를 은폐하고 특정 기준의 학습 가능성에 비례한 신호를 주지 못한다. 루브릭은 프롬프트별 여러 기준을 독립적으로 평가하지만, 전통적 합산 방식은 인간의 가중치가 최종 결과의 중요성과 현재 학습 신호의 유용성 둘 다를 나타낸다고 가정한다는 점에서 한계가 있다. POW3R은 루브릭 목표를 보존하면서 학습에 기여하는 기준에 집중하도록 within-category pressure를 재조정한다. 이를 통해 학습 신호의 분포를 넓히고, dead/saturated한 기준의 영향을 줄이며, 학습 효율과 최종 루브릭 점수를 함께 개선한다.

GRPO POW3R

HF Daily Papers1달 전

저자 신호의 깊이는 scoring mechanism에 달려 있다

저자 식별은 프리트레이닝된 백본이 스타일 특성을 선형적으로 읽을 수 있게 구성되어 있음에도, 이를 해석하는 읽기 방식의 차이가 AA 성능 차이를 만들어낸다. 본 연구는 availability–use 이분화를 통해 encoder가 이미 정보를 보유하고 있지만, 어떤 스코어링이 이를 언제 어떤 깊이에서 활용하는지가 핵심 문제임을 보인다. LI/PLI 계열은 더 깊은 층에서 신호를 활용하도록 허용하여 mean pooling 대비 성능을 크게 끌어올리는 경향이 확인된다.

HF Daily Papers Training Architecture1달 전

Triangulation-agnostic Flow Matching으로 고해상도 Mesh에서 다양하고 현실적인

메시 데이터는 비정형 삼각분할로 구성되어 학습·생성 시 triangulation 의존성 문제가 제기된다. Matérn Noise를 삼각분할 불변 분포로 활용하고 Flow Matching 프레임워크에 적용하여 denoising을 수행함으로써 다양한 변형을 고해상도 메시에 안정적으로 생성한다. 이를 통해 기존 방법 대비 삼각분할 변화에 대한 일반화 성능을 개선하고, 최대 수십만~백만 삼각Primitive를 가진 메시에 대해 실용적인 생성 가능성을 제시한다.

Flow Matching PoissonNet

HF Daily Papers Companies Architecture1달 전

베이스 모델의 출력이 AI 탐지기에 사람처럼 보이는 이유

상업용 AI 탐지기가 포스트-트레이닝Artifacts와 로컬 컨텍스트에 크게 의존한다는 실증적 패턴을 보인다. HIP는 베이스 모델을 패러프레이션 학습으로 재정의하고 이를 반복 적용해, 의미 보존을 유지하면서 탐지기의 인간화 판단에 더 잘 맞는 출력을 만들어낸다. 이러한 현상은 탐지기 설계가 텍스트의 기저 분포 변화에 더 민감해질 필요가 있음을 시사한다.

GPTZero HIP (Humanization by Iterative Paraphrasing)

HF Daily Papers1달 전

Stage-adaptive 토큰 선택으로 om-LLM의 추론 비용 대폭 감소

om-LLMs는 영상 프레임과 오디오 토큰을 텍스트 토큰과 결합해 멀티모달 추론을 수행한다. 다수의 비텍스트 토큰이 LLM 전체에 걸쳐 처리되면 계산량과 메모리 사용이 급증한다. 기존 토큰 선택 방법은 단일 모달에 편향되거나 LLM 내부에서 고정 비율로 토큰을 제거해 교차모달 의존성의 진화를 포착하지 못한다. 제안은 층별 의존성 패턴에 기초해 단계적으로 토큰을 선택·삭제함으로써 성능 저하를 최소화하면서 FLOPs와 프리필 대기시간을 감소시킨다.

HF Daily Papers1달 전

Draft-first 추론으로 토큰 비용 대폭 절감 및 정확도 향상

LLM의 Chain-of-Thought(COT) 추론은 정답 도출 전 사고를 요구해 응답 지연과 불필요한 토큰 비용을 야기한다. CopT는 draft-first 전략으로 먼저 답을 제시하고, continuous embeddings를 인퍼런스 시 verifiers로 활용하여 draft의 신뢰성을 판단한다. GSM8K, Math500, AIME24/AIME25, HumanEval 등에서 피크 정확도 최대 23% 향상과 토큰 사용량 최대 57% 절감으로 실험적으로 입증된다.

HF Daily Papers Architecture Language Models1달 전

Pruning으로 드래프트를 줄이고 retrieval으로 보완해 속도와 MAT를 동시에 끌어올린다

동적 깊이 prune은 드래프트 비용을 낮추지만 MAT를 떨어뜨려 Pareto frontier를 굳건히 만든다. Graft는 pruning으로 해방된 예산을 retrieval으로 보충해 동일 예산에서 후보 범위를 확장하고, lossless한 검증 경로를 유지하며 짧은 컨텍스트와 긴 컨텍스트 양쪽에서 실용적 속도 향상을 달성한다. 대형 모델에서의 평균 속도 up to 5.41×를 기록하고, Qwen3-235B에서 EAGLE-3 대비 평균 속도 향상을 최대 21.8% 달성했다. 또한 LLaMA3.1-8B의 장-context에서 3.22×의 평균 속도를 달성하고 Qwen3-14B에서 EAGLE3-64K 대비 16.6%를 넘었다. DFlash와의 확장 가능성에 대한 초기 탐색도 제시한다.

EAGLE-3 Graft

HF Daily Papers Architecture Libraries1달 전

단일 GPU로 1B Gaussian Splatting 학습 실현

3D Gaussian Splatting(3DGS)의 학습은 각 프리미티브가 59차원 파라미터를 갖고 전체 파라미터 테이블이 VRAM 용량을 빠르게 소모한다. TideGS는 SSD–CPU–GPU 계층에서 파라미터를 관리하고, GPU에는 현재 카메라 배치에서 활성화된 working set만 materialize하여 메모리 바운드를 완화한다. 그 결과 단일 24 GB GPU에서 1.1B Gaussian으로 대규모 장면의 학습이 가능해졌으며, 대규모 도시 스케일 장면에서도 Native 3DGS 품질을 유지하거나 상향할 수 있다.

Gaussian Splatting TideGS

HF Daily Papers1달 전

OOLONG에서 솔브 6–34% 상승, 비용 1.7–5.8× 감소

긴 컨텍스트에서 반복적으로 동일한 외부 컨텍스트를 다루는 상황에서, 에이전트는 외부 맥락의 구조와 가치 있는 엔터티를 재사용하는 지식을 필요로 한다. PEEK는 컨텍스트 맵이라는 작고 고정된 예산의 프롬프트 내 artefact를 도입해 외부 맥락에 대한 방향 지식을 지속적으로 축적·갱신하고, 반복 작업의 이해도와 추론 효율성을 높인다. 이를 통해 RAG, 컨텍스트 오프로깅, 프롬프트 학습 기반 방법의 한계를 보완한다.

HF Daily Papers Architecture1달 전

훈련 없이 4D 메시지 생성 13× 가속, 카메라 추정까지 가능

동적 3D 장면의 고품질 4D 메시지 생성을 위한 학습 데이터 의존성을 낮추고, 프레임 간 일관성을 유지하면서도 수십 초 단위의 속도로 처리한다. backbone이 고정된 상태에서 어텐션 체인을 활용해 앵커 메시지와 프레임 간 매핑을 얻으므로 추가 학습 없이도 4D 추적과 카메라 추정 같은 다운스트림 작업에 활용 가능하다. 더 길어진 시퀀스에서도 correspondences를 보강해 드리프트를 줄이고 안정성 있는 롤아웃을 달성한다.

4D Mesh Generation Spatio-Temporal Attention Chain

HF Daily Papers Benchmarks1달 전

다중 샷 AV 생성의 최초 포괄 벤치마크와 적응형 하이브리드 평가 프레임워크

현존 벤치마크는 데이터 다양성·생성 설정의 확장성 면에서 한계가 있다. MSAVBench는 비디오, 오디오, 샷 수, 레퍼런스의 네 차원에 걸친 포괄적 커버리지를 제공하고, 샷 경계의 self-correction과 주관 지표의 인스턴스-루브릭 기반 평점, 외부 도구를 활용한 증거 기반 평가를 도입해 현대 MSAV 모델의 다면적 성능을 더 신뢰성 있게 측정한다. 또한 19개 모델에 대한 체계적 비교를 통해 공개형 파이프라인의 개선 가능성과 현행 시스템의 한계를 진단한다.

MSAVBench

HF Daily Papers Optimization1달 전

대조적 증거로 결정 토큰의 신호를 강화하는 CEPO

RLVR에서 모든 토큰에 동일한 보상 신호를 주는 문제를 해결한다. CEPO는 올바른 답(r+)과 잘못된 답(r−)를 구별해 토큰 단위의 대조 신호를 계산하고, 결정적인 토큰에만 큰 신호를 부여한다. 그 결과 학습 속도와 샘플 효율이 개선되며 정보 누수 문제를 방지한다.

CEPO

HF Daily Papers Inference Domain AI1달 전

창의적 의도 인지로 비디오 제어를 구현하는 종합 프레임워크

다중 모달 입력의 추상적· sparse한 제어 신호를 이해하고 싶은 프로덕션 워크플로우에서 기존 모델은 의도와 출력의 불일치를 겪었다. CogOmniControl은 CogVLM으로 창의적 의도를 인지하고 CogOmniDiT로 해당 의도에 맞춘 비디오 출력을 생성하며, Best-of-N 선택과 evaluator-harness를 통해 클로즈드 루프를 구현한다.

CogOmniDiT CogVLM

HF Daily Papers Domain AI Datasets1달 전

다중 에이전트 토론과 Pivot/Refine로 실패를 배움으로 바꾸는 자동 연구 파이프라인

연구는 아이디어에서 논문까지의 선형 경로가 아니라 다각적 검토와 실패로부터의 학습을 축적하는 순환 과정이다. AutoResearchClaw는 구조적 multi-agent debate, self-healing execution, verifiable result reporting, HITL 협업, cross-run evolution의 다섯 가지 메커니즘을 결합해 가설 품질, 실행 강건성, 과거 경험의 누적을 함께 향상시킨다. ARC-Bench에서 AI Scientist v2 대비 54.7%의 성능 차이를 보여주며, 인간의 판단을 보완하는 연구 확장자(리서치 어플리파이어)로 자리매김한다.

AI Scientist v2 ARC-Bench

HF Daily Papers Architecture Benchmarks1달 전

데스크탑 소프트웨어 상태를 직접 검사하는 검증 기반 벤치마크를 제시

다양한 데스크탑 소프트웨어를 사용하는 에이전트의 평가와 학습은 화면 기반 신호에 의존하기 쉽다. OpenComputer는 앱별 상태 검증기, 실행 기반 피드백 루프, 검증-지향 태스크 생성, auditable 평가 해Harness를 결합해 실제 소프트웨어 상태를 기반으로 보상을 산출하고 재현 가능성을 확보한다. 이로써 LLM-judge에 의한 평가 편향을 줄이고, 복잡한 애플리케이션 상태의 정합성을 확보한다.

OpenComputer OSWorld

HF Daily Papers1달 전

능력 지향 데이터로 장문맥 RL의 한계를 넘고 다중 작업 정렬을 통한 개선

긴 문서 및 다중 문서 분석에 필요한 장문맥 이해 능력을 강화하기 위한 실용적 경로를 제시한다. 23K 샘플의 RLVR 데이터세트와 9개 태스크로 구성된 다중 보상 구조, 그리고 TMN-Reweight를 통해 cross-task 보상 스케일과 난이도 편향을 함께 조정한다. 이 조합은 기존 GRPO 기반 접근보다 장문맥 성능과 일반화 능력을 향상시키는 실질적 효과를 나타낸다.

r/LangChain Libraries Architecture1달 전

브라우저에서 직접 실행되는 AI 에이전트, LangGraph.js와 WebMCP로 구현한 Brow

LangGraph.js와 WebMCP를 활용해 브라우저 사이드패널에서 직접 실행되는 오픈소스 AI 에이전트 Brow를 소개한다.

LangChain LangGraph.js

r/LangChain1달 전

LangChain이 너무 복잡하다면? 에이전트를 단순 Python 함수로 구현하는 방법

LangChain의 LCEL과 같은 추상화가 에이전트 구현을 복잡하게 만든다는 비판과 함께, 에이전트를 단순 Python 함수로 정의하는 방식이 더 효율적이라는 주장을 담은 토론.

r/ClaudeAI1달 전

Anthropic Claude Code의 오픈소스 대안, cdesktop 공개

Anthropic의 Claude Code Desktop을 대체하는 오픈소스 프로젝트 cdesktop으로, 다양한 모델과 에이전트를 지원하며 로컬에서 실행 가능함.

r/ClaudeAI Coding Agents Architecture1달 전

MCP 툴 142개로 월 700달러? Claude Code 성능 최적화와 게이트웨이 패턴

Claude Code에서 MCP 서버를 과도하게 사용하면 컨텍스트 윈도우 낭비와 모델 성능 저하가 발생하며, 이를 해결하기 위해 BM25 기반 게이트웨이 패턴을 도입해야 한다.

Claude Code MCP

Hacker News - LLM1달 전

모델 가중치 접근 없이 LLM의 행동을 분석하는 PSA 프레임워크

모델 가중치에 접근하지 않고도 LLM의 행동을 외부에서 분석하여 위험을 탐지하는 블랙박스 행동 분석 프레임워크 PSA를 소개합니다.

Dataiku Blog Companies1달 전

기후 변화 리스크를 재무적 기회로 전환하는 PCRAM 방법론과 데이터 인프라

기업은 기후 변화로 인한 물리적 리스크를 재무적 관점에서 평가하고, 데이터 인프라를 통해 적응 투자를 체계화한다.

Dataiku

r/LangChain1달 전

버그·보안·성능을 스스로 검증하는 에이전트 기반 PR 코드 리뷰어 구축기

버그, 보안, 성능을 담당하는 3개의 서브 에이전트와 자체 평가 루프를 통해 코드 수정안을 검증하는 에이전트 기반 PR 리뷰어 프로젝트.

r/ClaudeAI1달 전

챗봇을 넘어선 개인용 AI 에이전트, 6주간의 구축 경험과 100가지 실전 팁

챗봇을 넘어 업무를 자동화하고 데이터를 관리하는 개인용 AI 에이전트를 구축하기 위한 시스템 설계, 메모리 관리, 에이전트 운영 등 100가지 실전 가이드.

r/ClaudeAI1달 전

TMUX와 MCP로 Claude CLI를 대화형으로 제어하는 새로운 SDK 공개

Claude CLI를 TMUX 세션에서 대화형으로 실행하고 MCP를 통해 함수 도구를 지원하는 ClaudeInteractiveClient가 공개되었습니다.

r/ClaudeAI1달 전

Claude Code로 1년 만에 검색 노출 18배 성장시킨 SEO 자동화 파이프라인

Claude Code의 슬래시 명령어를 활용하여 콘텐츠 생성부터 발행까지 자동화하는 SEO 파이프라인 구축 사례와 성과.

IBM Technology Companies1달 전

자산 관리의 미래: 시스템 기록에서 지능형 행동 시스템으로

에이전트 AI는 자산 수명 주기 관리에서 단순 데이터 기록을 넘어 실시간 추론과 행동을 수행하여 운영 효율을 높인다.

IBM

The Verge AI Products Language Models1달 전

구글 Gemini가 Copilot의 전철을 밟고 있다: 어디에나 있는 스파클 아이콘의 피로감

구글이 Workspace 전반에 Gemini를 공격적으로 통합하면서 사용자 경험 저하와 AI 피로감을 유발하고 있다.

Copilot Gemini

Hacker News - LLM1달 전

파편화된 이벤트 정보를 LLM으로 통합하는 오픈소스 캘린더, Tokoro

Tokoro는 LLM을 활용해 웹상의 이벤트 정보를 추출하고 지리적 위치 기반으로 통합 관리하는 오픈소스 이벤트 캘린더 플랫폼입니다.

r/ClaudeAI1달 전

Claude 에이전트를 위한 셀프 호스팅 샌드박스와 MCP 터널 기능 공개

Claude 플랫폼에서 에이전트를 제어 가능한 환경에서 실행하는 셀프 호스팅 샌드박스와 보안 연결을 위한 MCP 터널 기능이 추가되었다.

r/ClaudeAI Coding Agents Architecture1달 전

암기보다 설계 능력이 핵심, Claude Certified Architect 시험 합격 전략

Claude Certified Architect – Foundations 시험은 단순 암기가 아닌 에이전트 설계, 최소 권한 원칙, 과잉 설계 방지 등 실무적 아키텍처 판단 능력을 평가한다.

Claude Claude Code

r/ClaudeAI Coding Agents1달 전

AI의 부당한 거절을 뒤집는 법: 실제 법률 논리로 AI를 설득하는 FixAI

AI 시스템의 부당한 거절 결정에 맞서 실제 법률 근거를 제시하며 설득하는 법을 연습하는 시뮬레이션 플랫폼 FixAI.

Claude Claude Code

r/ClaudeAI1달 전

Claude Code와 Cursor, 이제 하나의 메모리를 공유할 수 있을까?

코딩 에이전트 간 파편화된 메모리 문제를 해결하기 위해 프로젝트 인프라로서의 공유 메모리 계층인 AgentMemory를 개발했다.

r/ClaudeAI1달 전

Claude Code 작업 흐름을 끊지 않고 아이디어를 기록하는 방법

Claude Code 사용 중 작업 흐름을 방해하지 않고 아이디어를 별도로 기록할 수 있는 플러그인 'claude-stash'를 개발하여 공유함.

r/ClaudeAI1달 전

터미널에 갇힌 AI 에이전트, 세션 독립적인 오케스트레이터가 필요한 이유

현재의 프로세스 종속적인 AI 에이전트 구조를 넘어, 세션과 기기를 초월해 의도와 맥락을 유지하는 오케스트레이터 계층의 필요성을 제안함.

r/ClaudeAI1달 전

모델의 페르소나에 따라 프롬프트 인젝션 성공률이 달라진다?

롤플레잉 모델의 성격에 따라 프롬프트 인젝션 공격의 성공 여부가 크게 달라진다는 실험 결과와 '인질극' 기법에 대한 토론.

r/ClaudeAI Coding Agents Dev Tools1달 전

Claude와 Cursor로 UI를 만들 때 정확도를 100% 높이는 디자인 명세 활용법

AI가 UI를 더 정확하게 생성하도록 돕는 200개 이상의 구조화된 디자인 명세 라이브러리를 공유하고 활용 방안을 논의함.

Claude Cursor

Hacker News - LLM1달 전

긴 문서를 계층적 지식 트리로 변환하여 RAG 효율을 극대화하는 Chunker

Chunker는 문서를 의미 단위로 분할하고 계층적 요약을 생성하여, AI 모델이 전체 문서를 로드하지 않고도 필요한 정보에 단계적으로 접근하게 돕는 도구입니다.

Hacker News - LLM1달 전

LLM 에이전트의 토큰 낭비를 줄이는 태그 기반 편집 도구 설계

LLM 에이전트가 코드를 수정할 때 전체 텍스트를 다시 쓰지 않고, 라인 번호와 체크섬 태그를 활용해 토큰 사용량을 줄이는 효율적인 편집 도구를 제안한다.

Latent Space (swyx)Companies Dev Tools1달 전

프론티어 랩 취업을 위한 커널 튜닝과 최신 AI 에이전트 인프라 동향

프론티어 랩 취업을 위한 커널 튜닝 역량의 중요성과 에이전트 인프라, 최신 모델 및 추론 최적화 기술 동향을 정리함.

Anthropic Cursor

r/ClaudeAI1달 전

로컬 LLM과 연동하여 개인화된 메모리를 구축하는 오픈소스 RAG 도구 Glia

Glia는 SQLite와 Ollama를 기반으로 로컬에서 실행되는 RAG 및 메모리 레이어로, 다양한 AI 웹 채팅과 개발 도구를 통합하여 개인화된 지식 관리를 지원한다.

r/artificial1달 전

Claude Design과 TTS/STT를 조합해 1달러 미만으로 전문적인 설명 영상 만들기

Claude Design, TTS, STT 모델을 결합하여 오디오와 영상이 정렬된 설명 영상을 제작하는 워크플로우를 소개한다.

r/LLMDevs1달 전

멀티 테넌트 RAG에서 공유 인덱스 사용 시 발생하는 검색 품질 저하와 해결책

멀티 테넌트 RAG 시스템에서 공유 인덱스 사용 시 발생하는 BM25 가중치 왜곡과 운영 병목 문제를 해결하기 위한 아키텍처 설계 고민.

r/LLMDevs1달 전

AI 에이전트가 작성한 코드의 의도를 PR 리뷰에서 어떻게 추적할 것인가?

AI 에이전트의 세션 컨텍스트를 Git Notes에 저장하여 PR 리뷰 시 코드 변경 의도와 추적성을 확보하는 접근 방식을 제안함.

r/LLMDevs1달 전

AI 에이전트의 모호한 답변을 해결하는 'Bounce Protocol' 기반 워크플로우

AI 에이전트 간의 명시적 불일치와 명확화를 강제하여 코드 품질을 높이는 오픈소스 워크플로우 'Co-Evolution'을 소개합니다.

Databricks Blog Companies Dev Tools1달 전

2,000개 이상의 노트북을 15분 만에 마이그레이션하는 방법

Databricks Apps로 구조를 자동 변환하고 Genie로 로직을 재구성하여, 복잡한 노트북 마이그레이션 시간을 수 시간에서 15분으로 단축했다.

Databricks Zeppelin

r/ClaudeAI1달 전

Strava와 Runna 데이터를 연동한 개인 맞춤형 AI 러닝 대시보드 구축기

Strava 활동 데이터와 Runna 훈련 일정을 연동하여 개인 맞춤형 영양 목표와 운동 계획을 제공하는 로컬 서버 기반 대시보드 구축 사례.

r/ClaudeAI Coding Agents1달 전

AI 에이전트의 자율성보다 중요한 것은 '검토 가능한 아티팩트' 생성이다

AI 에이전트가 매 실행마다 연구, 초안, 평가, 메모 등 검토 가능한 아티팩트를 생성하게 하여 워크플로의 투명성과 개선 가능성을 높이는 방법론.

Claude Code

r/ClaudeAI1달 전

관리자 권한 없이 Claude를 Microsoft 365와 연결하는 MCP 활용법

Microsoft 365 Graph API 권한 없이 Power Automate 웹훅과 MCP 서버를 결합하여 Claude의 M365 자동화 기능을 구현함.

r/LLMDevs1달 전

AI가 당신을 기억하게 하려면? Fathom으로 구축하는 개인화된 AI 메모리

Fathom은 모든 상호작용을 '델타'로 저장하고 '아이덴티티 크리스탈'을 통해 사용자의 맥락을 기억하는 AI 메모리 및 정체성 시스템이다.

r/LLMDevs Libraries Inference1달 전

GPU 대여 시마다 환경 재설정하느라 45분씩 낭비하지 마세요

GPU 인스턴스 환경을 S3에 동기화하고 유휴 자원을 자동 종료하여 비용과 시간을 절감하는 오픈소스 관리 도구 swm 소개.

ComfyUI Ollama

r/ClaudeAI1달 전

Claude Code를 18개 프로젝트에 적용하는 OS 수준의 워크플로 구축법

Claude Code를 단순한 채팅 인터페이스가 아닌, 템플릿 기반의 OS처럼 활용하여 18개 프로젝트를 동기화하고 관리하는 시스템 구축 전략.

r/ClaudeAI Libraries Coding Agents1달 전

Claude Code로 티켓 생성하고 AI 에이전트가 야간에 자동 수정까지 완료

Claude Code와 연동하여 개발 중 발견한 이슈를 티켓으로 생성하고, AI 에이전트가 코드를 수정, QA, PR까지 자동 수행하는 MCP 서버 'notesasm' 소개.

Claude Agent SDK Claude Code

r/ClaudeAI1달 전

6개월 뒤에는 모두가 에이전트 오케스트레이션을 하게 될 것입니다

개별 터미널 세션 관리에서 벗어나, 컨텍스트와 도구를 갖춘 전담 에이전트를 오케스트레이션하는 미래 워크플로를 제안합니다.

Hacker News - LLM1달 전

PCIe 대역폭 한계를 넘는 LLM 추론: NVLink-C2C와 Superchip의 역할

LLM 추론 시 발생하는 메모리 및 PCIe 인터커넥트 병목 현상을 NVIDIA GH200과 같은 Superchip의 고속 NVLink-C2C로 해결하는 기술적 접근을 다룸.

Hacker News - LLM Products Architecture1달 전

고정된 GPU 자원에서 LLM 서빙 처리량 5.3배 높이는 Nitsum

Nitsum은 텐서 병렬 처리를 런타임에 동적으로 재구성하여, 다양한 SLO 요구사항을 가진 LLM 요청을 고정된 GPU 자원에서 효율적으로 처리하는 서빙 시스템이다.

Nitsum Tensor Parallelism

r/LangChain1달 전

웹 스크래핑 비용 90% 절감, AI 에이전트용 Markdown 변환 MCP 서버

로컬 AI 에이전트가 웹 데이터를 효율적으로 수집할 수 있도록 돕는 종량제 기반 Markdown 스크래퍼 MCP 서버를 개발하여 공유했다.

Google Cloud AI Blog Companies Hardware1달 전

구글과 블랙스톤, 2027년까지 500MW 규모 TPU 클라우드 인프라 구축

블랙스톤과 구글이 50억 달러 규모의 합작 투자를 통해 2027년까지 500MW 규모의 TPU 클라우드 인프라를 구축한다.

Blackstone Google