2026년 5월 18일 AI 뉴스 아카이브

HF Daily Papers Benchmarks Optimization1달 전

장기-지향 에이전트의 학습 효율과 성능을 동시에 향상시키는 타깃 히인사이트 자기증류

긴 호라이즌 태스크에서 보상은 희소하고 중간 단계의 기여를 해석하기 어렵다. 히인사이트 기반 피드백은 전체 롤아웃을 분석해 실패 원인을 파악하고, 타깃 턴에만 피드백-조건부 증류를 적용함으로써 효율성과 효과를 모두 개선한다.

BFCL v3 HINT-SD

HF Daily Papers Architecture1달 전

잠재 공간 정렬과 롤아웃으로 이해-생성 간 일관성 강화

Unified multimodal models(UMMs)은 이해와 생성의 성능을 하나의 공유 잠재 공간에서 학습하지만, 이해·생성 간 매핑의 비정렬로 인해 기능적 일관성이 손실된다. LatentUMM은 두 단계의 정합(dual latent alignment)과 잠재 다이내믹스의 안정화(latent dynamics stabilization)를 통해 모달 간 및 능력 간의 일관성을 명시적으로 보강한다.

LatentUM

Meta Newsroom Products1달 전

메타 AI 글래스, 시각 및 지체 장애인을 위한 핸즈프리 기능 대거 업데이트

메타가 AI 글래스에 Be My Eyes 연동, 음성 제어, 실시간 자막 등 접근성 기능을 추가하고 개발자 툴킷을 통해 서드파티 앱 생태계를 확장한다.

Ray-Ban Meta

TechCrunch AI Products Companies1달 전

아마존 Alexa+가 사용자가 원하는 주제로 팟캐스트를 즉석에서 생성한다

아마존이 사용자가 요청한 주제를 바탕으로 AI가 팟캐스트 에피소드를 즉석에서 생성하고 AI 음성으로 읽어주는 Alexa+ 신기능을 출시했다.

Alexa+Amazon

Weaviate1달 전

Booking.com은 어떻게 수억 개의 벡터 데이터를 실시간으로 처리할까?

Booking.com의 벡터 검색 도입 과정과 파트너-게스트 메시징 에이전트 구축, 그리고 대규모 AI 플랫폼 엔지니어링 전략을 다룬다.

Hugging Face Blog1달 전

모델보다 시스템이 중요하다: AI 에이전트 성능과 비용을 평가하는 오픈 리더보드

AI 에이전트 시스템의 성능과 비용을 종합적으로 평가하는 오픈 리더보드와 Exgentic 프레임워크를 공개한다.

Import AI (Jack Clark)1달 전

Muon 최적화기의 치명적 버그와 이를 해결할 Aurora의 등장, 그리고 AI 연구의 자동화

Muon 최적화기의 신경망 손상 문제와 이를 개선한 Aurora, 그리고 AI 에이전트의 연구 최적화 능력과 긍정적 정렬에 대한 논의를 다룬다.

Latent Space (swyx)1달 전

우크라이나 드론 전쟁이 증명한 AI 자율 무기의 파괴적 위력과 서방의 과제

우크라이나 전쟁에서 AI 기반 FPV 드론이 전장의 판도를 바꾸고 있으며, 서방은 중국의 제조 역량과 자율 무기 기술 격차를 극복해야 한다.

Ars Technica AI1달 전

AI가 생성한 저품질 버그 리포트, 보안 업계를 마비시키다

AI 도구로 생성된 저품질 보안 취약점 리포트가 급증하면서, 기업들이 버그 바운티 프로그램을 중단하는 사태가 발생하고 있다.

AI LABS1달 전

기존 SDLC는 버리세요, AI 에이전트 개발을 위한 7단계 ADLC 가이드

기존 소프트웨어 개발 생명주기(SDLC)를 대체하는 AI 에이전트 개발 생명주기(ADLC)의 7단계 프레임워크와 실무 적용 방법을 상세히 설명한다.

Hacker News - LLM1달 전

AI 에이전트 상태 추적 토큰 92% 절감, Agent Braille(AB-1) 프로토콜 공개

Unicode Braille 패턴을 활용해 AI 에이전트 간 상태 정보를 효율적이고 결정론적으로 교환하는 8비트 통신 프로토콜 AB-1을 구현한다.

AI Andy1달 전

Claude Code 에이전트 20개 이상을 한 번에 관리하는 법

Claude Code 에이전트의 복잡한 관리 문제를 해결하고 로컬 음성 제어와 생산성 탭을 통합한 오픈소스 인터페이스 AgentFlow를 소개한다.

Hacker News - LLM1달 전

LLM도 코딩할 때 '자아'를 가질까? 모델의 나태함과 방어적 태도 분석

LLM이 코딩 작업 중 오류를 외부 탓으로 돌리며 수정을 거부하는 현상을 통해, 모델이 학습 데이터로부터 인간의 방어적인 태도와 나태함을 모방하고 있음을 관찰한다.

DataRobot Blog Companies1달 전

DataRobot과 Dell이 공개한 엔터프라이즈 에이전트 AI 운영 플랫폼

DataRobot과 Dell이 NVIDIA 인프라 기반의 에이전트 AI 운영 플랫폼을 통해 기업용 에이전트의 배포, 거버넌스, 보안 문제를 해결한다.

DataRobot Dell

KDNugget1달 전

클라우드 없이 로컬 LLM으로 구현하는 프라이빗 AI 워크플로 5가지

Ollama를 활용해 데이터 보안과 비용 효율을 극대화하는 로컬 LLM 기반의 5가지 실무 활용 사례를 제시한다.

MIT CSAIL1달 전

AI가 인간의 의도를 더 잘 이해하게 만드는 3가지 핵심 격차 해소법

MIT CSAIL 연구원이 AI 설계 워크플로에서 의도, 물성, 조립의 격차를 해소하여 인간과 AI가 협업하는 미래를 제시한다.

SentinelOne Blog Companies1달 전

시맨틱 가드레일은 왜 구조적 공격에 무력한가? AI 레드팀 평가 사례

시맨틱 필터링 중심의 AI 보안 체계가 JSON 터널링 및 Base64 난독화와 같은 구조적 공격에 취약함을 입증한 레드팀 평가 사례.

SentinelOne

r/LangChain1달 전

AI 에이전트의 환각과 오류를 즉시 진단하는 무료 디버깅 도구 공개

AI 에이전트의 실행 추적을 시각화하고 환각, 지연 시간, 논리 오류를 자동으로 진단하는 무료 디버깅 도구입니다.

r/LangChain1달 전

매번 반복되는 에이전트 개발 환경 설정, 이제 보일러플레이트로 한 번에 해결하세요

LangGraph, Langfuse, Docker를 통합하여 에이전트 프로젝트 시작을 가속화하는 개발자용 보일러플레이트입니다.

r/deeplearning1달 전

AI 답변마다 신뢰도 퍼센트를 표기하면 유용할까? Grok 4 실험 결과

AI 모델이 답변의 각 문장마다 신뢰도 퍼센트를 출력하게 하여 사용자가 정보의 정확성을 판단하도록 돕는 실험적 접근 방식.

IBM Technology1달 전

AI 에이전트 개발, MCP와 ADK를 언제 어떻게 사용해야 할까?

MCP는 외부 도구 연결을 표준화하고, ADK는 에이전트의 구조와 오케스트레이션을 담당하여 상호 보완적인 역할을 수행한다.

r/ClaudeAI1달 전

AI 코딩 에이전트 사용 후 찾아온 낯선 피로감: 개발인가, 관리인가?

AI 코딩 도구는 개발자의 역할을 직접 구현에서 관리 및 검토로 전환하며, 기존의 문제 해결과는 다른 형태의 인지적 피로감과 기술 퇴화에 대한 우려를 야기한다.

r/ClaudeAI1달 전

모델 업데이트 후 프롬프트가 망가졌다면? 'Skill 파일'로 해결하기

모델 업데이트로 인한 프롬프트 성능 저하를 해결하기 위해 'Skill 파일'과 계층적 CLAUDE.md를 도입하여 프롬프트 의존성을 줄이고 안정성을 높인 사례.

r/MachineLearning1달 전

AAVE 프롬프트가 MoE 모델의 안전성 필터를 우회하고 라우팅을 변경하는가?

AAVE와 AE 프롬프트 간의 MoE 모델 라우팅 차이가 안전성 필터링과 응답 생성에 미치는 영향을 분석한 실험 결과.

sudoremove1달 전

로봇 손의 정교한 제어, RLDX-1의 아키텍처와 데이터 전략 완벽 분석

RLWRLD가 공개한 로보틱스 파운데이션 모델 RLDX-1의 모션, 피직스, 메모리 모듈 구조와 데이터 파이프라인을 기술적으로 분석한다.

r/artificial1달 전

유럽 시장 진출 시 필수, 2026년 시행되는 EU AI Act 대응 전략

유럽 시장 대상 AI 제품은 2026년 8월부터 시행되는 EU AI Act의 규제 대상이며, 고위험 시스템은 엄격한 로그 기록과 문서화가 필수적이다.

r/LLMDevs1달 전

트레이딩 봇의 LLM JSON 할루시네이션, 모델 Failover로 해결할 수 있을까?

MTF 트레이딩 봇 개발 과정에서 DeepSeek-V3와 Gemini 2.0 Flash를 활용한 모델 Failover 및 Circuit Breaker 아키텍처를 구축하고 JSON 할루시네이션 대응 방안을 논의했다.

Product Hunt Dev Tools1달 전

AI 에이전트 개발을 위한 샌드박스 런타임, AnyFrame

AnyFrame은 AI 에이전트의 워크스페이스를 즉시 생성하고 상태를 관리할 수 있는 런타임 제어 플랫폼이다.

AnyFrame

r/MachineLearning Best Practices Libraries1달 전

16세 개발자가 만든 블랙박스 모델 민감도 분석 도구 sage-explainer

16세 개발자가 블랙박스 모델의 예측 민감도를 계산하여 위험 관리에 활용할 수 있는 XAI 도구인 sage-explainer를 개발했다.

LIME sage-explainer

r/LLMDevs1달 전

TTS API 구축 시 겪는 청킹과 동시성 문제 해결 전략

텍스트를 MP3로 변환하는 TTS API 구축 과정에서 발생한 청킹, 캐싱, 동시성 제어 문제를 해결한 엔지니어링 사례.

Nicolai Nielsen1달 전

키보드 없이 말로 코딩한다, Typeless와 Claude Code 연동 실전 가이드

음성 받아쓰기 앱 Typeless와 Claude Code를 연동하여 모바일 환경에서 코딩 및 업무를 효율적으로 처리하는 워크플로를 다룬다.

StatQuest (Josh Starmer)1달 전

선형 회귀의 핵심 원리: 최소 제곱법과 R-제곱, p-값 완벽 정리

선형 회귀의 기본 개념부터 최소 제곱법을 이용한 모델 적합, R-제곱과 p-값을 통한 예측 정확도 평가 방법을 단계별로 다룬다.

공원나연1달 전

단순 RAG를 넘어선 에이전틱 RAG, LangGraph로 직접 구현하기

LangGraph를 활용해 검색 증강 생성(RAG) 시스템을 에이전트 아키텍처로 확장하고, 상태 관리와 도구 호출을 구현하는 실전 가이드.

r/MLOps Architecture Inference1달 전

코딩 에이전트의 API 비용이 폭증하는 이유: grep 기반 검색의 종말과 Semble의 등장

코딩 에이전트가 사용하는 기존의 grep 기반 검색 방식은 토큰 낭비와 컨텍스트 오염을 유발하며, Semble과 같은 로컬 MCP 기반의 의미론적 검색이 대안으로 제시됨.

MCP Ollama

캐슬 AI1달 전

Claude Code로 개발 생산성 200% 높이는 6가지 핵심 스킬

Claude Code를 활용하여 기획부터 코드 개선까지 개발 워크플로를 자동화하는 6가지 실무 스킬을 소개한다.

AI Engineer1달 전

AI가 AI를 디버깅한다? Incident.io의 에이전트 운영 자동화 전략

Incident.io는 AI SRE의 복잡한 추론 과정을 디버깅하기 위해 에이전트 기반의 평가 자동화, 파일 시스템 직렬화, 군집 분석 패턴을 도입했다.

AI Engineer Language Models1달 전

프롬프트 탓이 아니다: 에이전트 실패를 막는 하네스 설계법

GPT-3.5 Turbo 기반 브라우저 에이전트에서 하네스, 가드레일, 검증 단계 도입을 통해 로그인 및 작업 성공률을 높이는 아키텍처를 제시한다.

GPT-3.5 Turbo

TechCrunch AI1달 전

GM의 AI 인재 채용과 자동차 업계의 AI 도입 현황

자동차 업계가 AI 도입을 위해 IT 인력을 재편하고 있으며, 자율주행 및 인프라 관리 분야에서 구체적인 AI 활용 사례와 투자가 이어지고 있다.

Shaw Talebi1달 전

Claude를 AI 직원으로 고용해 주당 15시간 업무를 자동화하는 방법

Claude를 단순 도구가 아닌 신입 사원처럼 대우하여 반복 업무를 위임하고 생산성을 극대화하는 4단계 프레임워크를 제시한다.

엥지유니버스1달 전

로봇이 미래를 상상하고 행동한다? 최신 World Model 연구 5가지 분석

로봇 제어의 새로운 패러다임으로 주목받는 World Foundation Model(WFM)의 개념과 최신 연구 사례를 분석한다.

HF Daily Papers Architecture Datasets1달 전

자연어 프롬프트만으로 비디오의 미세 객체를 정확히 지시하는 SWIM

MLLM은 텍스트로 언급된 객체를 특정 시각 영역에 정렬하는 능력이 불완전하다. 기존 방법은 시각 프롬프트(마스크/포인트 등)가 필요해 인터랙션과 계산 복잡성을 증가시키며, 객체 명사가 높은 수준의 의미 표현으로 인해 공간적 정합이 약해진다. SWIM은 학습 단계에서 object noun과 시각 영역 간의 정합을 명시적으로 강화해 인퍼런스 시 추가 프롬프트 없이도 미세 객체 grounding을 달성한다. NL-Refer 데이터셋의 도입으로 텍스트-시각 매핑의 가치를 높이고, 벤치마크에서 시각 프롬프트 기반 방법을 능가한다.

Cross-Attention NL-Refer

HF Daily Papers1달 전

오디오-비주얼 융합 기반의 진정한 프로액티브 스트리밍 벤치마크

OmniPro는 옴니모달(perception) 인지, 프로액티브 응답, 그리고 다양한 비디오 이해 태스크를 하나의 프레임워크로 평가하는 최초의 벤치마크이다. 2,700샘플, 9개 서브태스크로 구성되고 84%의 샘플이 오디오 의존성을 가지며, 모달리티 분리 라벨을 제공해 미세한 멀티모달 분석이 가능하다. Probe 모드와 Online 모드를 모두 이용한 이중 평가 프로토콜을 도입하여 콘텐츠 이해도와 실제 스트리밍 상의 자율 응답 능력을 함께 측정한다. 실험 결과, 오디오-비주얼 입력이 비디오 단독 입력보다 일관되게 이득을 주며, 트리거가 영상의 뒤쪽으로 갈수록 성능 저하가 커지고 비언어(non-speech) 음향 인식의 한계가 드러난다.

HF Daily Papers Libraries Products1달 전

버전-robust 다목적 Lean 증명 리팩토링

Lean/Mathlib의 잦은 업데이트 주기 속에서 LLM의 지식 cutoff이 현실과 동떨어진 경우가 많다. Lean Refactor는 전략 은행을 이용한 inference-time retrieval으로 다중 목표를 조정하고 버전 호환성을 유지하며 재학습 없이도 성능을 달성한다.

Lean Lean Refactor

HF Daily Papers1달 전

DE가 보정과 실패 탐지에서 우수, CV 엔샘블은 모호성 반영에 강하다

의료 영상 분할에서 불확실성 추정은 임상 의사결정의 신뢰성에 직접 영향을 준다. 이 논문은 5-fold CV와 5-member DE를 같은 조건에서 비교해, 각 방식이 불확실성 평가의 목표에 따라 다르게 작동함을 실험적으로 입증한다. CV 엔샘블은 데이터 노출의 차이를 포함해 모호성까지 일부 반영하는 반면, DE는 보정과 실패 탐지에서 더 일관된 성능을 보인다.

HF Daily Papers Optimization Architecture1달 전

스트레스 하에서도 학습 안정성과 효율을 유지하는 LBW-Guard

AdamW 위에 작동하는 bounded autonomous training-control 거버넌스 계층 LBW-Guard가 도입되었다. 런타임에서 instability를 감지-해석하고 bounded control을 통해 optimizer 실행을 제어함으로써 스트레스 조건에서 학습 가능성과 compute 효율성을 높이고, 최종 perplexity를 개선하며 엔드투엔드 시간을 단축한다. 7B 스케일에서 final perplexity가 13.2086에서 10.7353으로 감소하고 E2E 시간이 392.54초에서 357.02초로 단축된 사례가 있다.

AdamW LBW-Guard

HF Daily Papers Training Architecture1달 전

언어 피드백으로 RL 학습의 표본 효율을 높이는 Variational EM 기반 교사-학생 공동 진화

강화학습에서 verifiable rewards의 희소성으로 인한 탐험 문제를 완화하기 위해 언어 피드백을 이용한 학습이 제시된다. SDPO 등의 기존 방법은 피드백 해석의 고정된 교사에 의존하는 한계를 가진다. 본 논문은 교사와 학생을 함께 진화시키는 Variational EM 프레임워크를 도입하고, 동적 신뢰 영역으로 교사 업데이트를 제한하여 토큰 수준의 풍부한 피드백 신호를 지속적으로 활용한다. 이로써 코드 생성, 과학 추론, 수학적 문제 해결 등 다양한 도메인에서 RLVR 및 기존 자기-증류 baselines를 일관되게 능가한다.

On-Policy Distillation RLVR

HF Daily Papers1달 전

Stable Audio 3: 텍스트에서 길이 가변 음향 생성과 편집을 한 번에

Stable Audio 3은 텍스트 프롬프트로 길이가 가변인 음향을 빠르게 생성하고, inpainting을 통한 대상 구간 편집 및 continuation을 지원한다. SAME(Semantic-Aligned Music Autoencoder) 기반의 고충실도 잠재 공간과 adversarial post-training으로 추론 단계 수를 줄이면서도 음향 품질과 프롬프트 충실도를 높인다. CPU/소비자급 하드웨어에서도 작동하도록 설계되어 실무 및 개발 환경에서 접근성이 향상된다.

HF Daily Papers Best Practices Architecture1달 전

CI-유지와 태스크 유용성의 교차점에서 두 가지 피드백 기반 Self-Distillation로 프라이버시-유

대형 언어 모델이 민감한 맥락에서 개인 비서를 수행하도록 확산되면서 Contextual Integrity의 준수가 중요해졌다. 기존 CI 정렬은 단일 스칼라 보상으로 프라이버시를 강제하는 경향이 있어 태스크 성능이 저하되거나 비효율이 발생했다. SELFCI는 retain/ suppress를 독립적으로 조정하는 두 개의 피드백 기반 교사를 도입해, 두 목표의 교차점에서 정책을 학습하도록 한다.

Contextual Integrity Product-of-Experts

HF Daily Papers Architecture Best Practices1달 전

훈련 없이 무한 프레임으로 긴 비디오의 일관성 확보

긴 비디오 생성에서 프레임 간 일관성을 유지하는 것이 핵심 문제다. 제안하는 MIGA는 Two-Stage Training-Inference Alignment(TTA)와 Dual Consistency Enhancement(DCE)을 통해 training과 inference 간 노이즈 스팬 차이를 줄이고, 초기 고노이즈 프레임의 자기 반영과 후반 프레임의 장거리 가이던스로 장기 일관성을 강화한다. VBench와 NarrLV에서 state-of-the-art 성능을 확인했다.

FIFO-Diffusion MIGA

HF Daily Papers1달 전

Open-book Benign Rewriting으로 BA 공격 방어를 대폭 향상

현대의 LLM은 backdoor 공격으로 인해 훈련 데이터에 삽입된 트리거에 반응해 악의적 출력을 야기할 수 있다. 기존의 반응 기반(reactive)·학습 중 개입(intraactive) 방어는 실전에서 일관되게 효과를 보이지 않는 경우가 많다. 본 연구는 training 데이터를 fine-tuning 이전에 안전한 프롬프트 공간으로 매핑하는 proactive 방어인 Open-Book Benign Rewriting(OBBR)을 제안하고, 4개의 LLM과 5개의 BA 패턴에서 SOTA 방어 대비 평균 ASR을 약 51% 감소시키고, Closed-Book 재작성 대비 26.8% 감소를 달성한다. 또한, PIAs에 대해서도 효과적으로 방어하며, 엔드-투-엔드 런타임 오버헤드가 기존 고비용 방어에 비해 작다.

HF Daily Papers Safety Datasets1달 전

SAGA로 10년 horizon에서 CRPS 31.9% 감소 및 신뢰구간 보정

불규칙한 시계열 형 데이터와 다수의 연속적 특성을 포함하는 패널에서, 파라메트릭 Earnings Process의 한계를 넘어서는 예측이 필요하다. SAGA는 시퀀스-적응 tokenization과 공동 점/분포 헤드로 불확실성까지 보정하고, Monte Carlo 집계를 통해 Lifetime earnings 분포를 재구성한다. downstream microsimulation에서 정책지표(세금, Gini, 상위 1%)의 정확도를 향상시키고, 분포-자유한 방법으로 신뢰구간을 제공한다.

Conformal Inference LISA Register

HF Daily Papers1달 전

잠재적 우회 경로를 통해 언어 전환 트리거를 해부하다

백도어 공격은 모델이 정상적으로 작동하는 것으로 보이면서도 특정 트리거가 있을 때 공격자가 원하는 출력을 내보내게 한다. 이 논문은 언어 전환(backdoor) 트리거의 회로를 세 단계로 분해하고, 중간 표현이 자연어 방향과 직교하는 잠재 공간으로 신호를 운반함을 밝힘으로써, 중간 계층의 단순한 언어-유사성 탐지로는 들여다볼 수 없는 취약점을 규명한다. 결과적으로 언어-정체성 기반 탐지 기법은 이 트리거를 놓칠 수 있음을 시사한다.

HF Daily Papers Architecture1달 전

Gaussian Splatting으로 반사-투과를 실시간으로 함께 재현

3D Gaussian Splatting은 실시간 렌더링에 강점이 있지만 얇은 반투명 표면에서 반사와 투과를 동시에 정확히 모델링하기 어렵다. RT-Splatting은 각 가우시안의 기하학적 점유와 광학적 불투명도를 분리하여 표면-부피의 단일 표현으로 결합하고, 이를 통해 반사와 전방향 전파 투과를 동시에 고해상도로 재현한다. 또한 Specular-Aware Gradient Gating으로 복잡한 스펙큘러 영역에서의 잘못된 그래디언트 흐름을 억제해 floaters를 줄이고 투과부의 선명도를 개선한다. 실험은 반투명 표면이 특징인 실제 씬에서 SOTA 성능을 달성하고, 실시간 렌더링과 자유로운 장면 편집을 가능하게 한다.

Gaussian Splatting RT-Splatting

HF Daily Papers1달 전

지각-동작 루프를 닫는 구현형 공간 지능 벤치마크

본 연구는 고정 관찰만으로는 해결하기 어려운 공간 지능 문제를 다루며, 에이전트가 필요에 따라 관찰을 선택하고 몸체를 활용해 정보를 적극적으로 수집하도록 요구한다. 3D grounding의 이점은 깊이-가시성 이슈가 해소될 때 크게 나타나지만, 불완전한 3D 재구성은 오히려 성능을 악화시킨다. 인간과 모델 간의 메타인식 차이를 밝히고, embodied 시스템의 안전성과 신뢰성 진단에 기여한다.

HF Daily Papers Architecture Language Models1달 전

Attention-State Memory로 긴 prefix의 추론 비용과 지연을 줄인다

긴 컨텍스트에서 prefix를 재사용할 때 매 스텝마다 prefix에 대한 self-attention이 필요하면 비용과 지연이 증가한다. Attention-State Memory(ASM)는 training-free로 prefix를 memory에 외부화하고 inference 시 조회하여 prefix-attention을 제거한다. ManyICLBench와 NBA 벤치마크에서 ASM은 1K–8K 메모리 예산에서 ICL 대비 성능을 유지하거나 향상시키고 prefix-attention 지연을 감소시킨다.

Attention-State Memory LLaMA-3.1-8B

HF Daily Papers Architecture1달 전

Segmentation을 프록시로 삼아 이해-생성 시너지를 실현

다양한 모달을 하나의 프레임에서 다루는 UMMS의 학습은 이해와 생성 간의 상호 보완성을 약화시키는 신호 불일치를 야기한다. 본 연구는 고수준 시맨틱 태스크를 생성 프록시로 활용해 이해와 생성의 표현 공간을 맞추고 시너지를 끌어올린다. 이를 통해 표현 공간의 선형 분리성과 시각-텍스트 주의 분포가 개선되어 벤치마크 전반의 성능이 증가한다.

Semantic Generative Tuning

HF Daily Papers Best Practices Benchmarks1달 전

인터랙티브 평가로 벤치마크를 재정의한다

LLM은 도구, 환경, 사용자, 다른 에이전트와 함께 작동하도록 설계되었으나, 기존 벤치마크는 응답 중심의 평가에 의존한다. 인터랙티브 평가는 인터랙션 생성 트래젝토리를 증거로 삼아 프로세스, 복구성, 조정성, 강건성, 시스템 수준의 성능을 평가하는 패러다임으로 진화한다. 이로써 벤치마크 간 비교 가능성과 실세계 적용 가능성이 향상된다.

Interactive Evaluation Trajectory

HF Daily Papers Products Architecture1달 전

underspecification 해결로 비디오 편집을 고도화하는 도구를 활용한 에이전트

다수의 비디오 편집 모델은 텍스트, 원본 비디오, 참조 이미지 등을 하나의 conditioning으로 처리한다. 그러나 실제 요청은 이러한 입력이 부족한 경우가 많아 편집 목표가 불완전하게 주어진다. Aurora는 VLM 에이전트가 원시 요청을 모델에 맞는 네 가지 필드 계획으로 확장하고, 필요시 웹 이미지 검색과 grounded segmentation으로 누락된 시각적 조건을 보충한다. 그 뒤 비디오 DiT가 단일 conditioning tuple로 이를 수용해 일관된 편집 결과를 낸다. AgentEdit-Bench를 통해 텍스트/시각적 underspecification 하에서의 전체 프레임워크를 평가하며, 동일 VLM 에이전트가 다른 비디오 편집 모델로도 전달 가능함을 보인다.

Aurora Diffusion Transformer

HF Daily Papers Benchmarks1달 전

AI 생성 비디오의 현실성 아티팩트 진단 벤치마크

AI 생성 비디오의 아티팩트는 현실성 판단의 핵심 신호다. 기존 벤치마크는 진위 판단이나 선호도 평가에 편중되어 아티팩트의 원인 해석과 세밀한 인지에 한계가 있었다. Artifact-Bench는 3단계 계층의 아티팩트 분류와 3가지 작업으로 MLLMs의 인식 및 추론 능력을 체계적으로 평가한다. 이를 통해 모델 개발 시 현실성 이해와 세밀한 추론 능력의 필요성을 입증한다.

Artifact-Bench

HF Daily Papers1달 전

실행 가능한 PF로 에이전트의 실패를 즉시 바로잡는 HASP 프레임워크

텍스트로 제시된 스킬은 조언 수준에 머물고 정책 루프에 실제로 개입하는 실행 가능 인스트루먼트로 작동하지 않는다. HASP는 스킬을 Program Functions(PFs)로 변환해 인퍼런스 시점, 이후(post-training), 또는 자기 개선(self-improvement) 시점에 실행 개입을 수행하도록 구성한다. 이를 통해 에이전트의 실패 패턴을 런타임에 수정하고, PF 기반의 피드백을 통해 학습 루프를 강화한다. 웹 검색, 수학 추론, 코딩 등 다양한 도메인에서 기법의 유효성을 보이며, PF-선별과 라이브러리 진화를 통해 지속적 개선이 가능하다.

HF Daily Papers Architecture Language Models1달 전

실제 도구 생태계 기반의 실행 가능 환경 자동 합성으로 RL 학습 효율을 대폭 향상

도구를 사용하는 에이전트 학습은 실행 가능한 환경과 데이터의 품질에 좌우된다. 프로덕션 API나 시뮬레이션에 의존하면 확장이 어렵고 불안정해진다. EnvFactory는 authentic online resources에서 실행 가능 환경을 자동으로 구성하고 topology-aware sampling으로 자연스러운 다-turn 트젝을 합성하여 데이터 효율성과 일반화 성능을 높인다. 이로써 벤치마크에서의 성능 향상과 학습 비용 감소가 가능하다.

EnvFactory Qwen3-series

TechCrunch AI Companies1달 전

AI 스마트 글래스 시장의 핵심, LetinAR의 초경량 광학 기술 PinTILT

LetinAR이 AI 스마트 글래스의 배터리 효율과 착용감을 개선하는 독자적인 광학 모듈 기술 PinTILT로 1850만 달러 투자를 유치했다.

LetinAR

r/ClaudeAI1달 전

Claude로 2일 만에 만든 대시보드가 인기 폭발, 하지만 유지보수 지옥이 시작됐다

Claude로 빠르게 구축한 대시보드가 사용자들의 호응을 얻었으나, 확장성 부족으로 인해 대규모 리팩터링이 필요해진 개발자의 경험담.

r/ClaudeAI1달 전

Claude Code를 단순 챗봇에서 실무 파트너로 바꾸는 2가지 무료 전략

Claude Code에 Obsidian 기반 지식 베이스와 Superpowers 플러그인을 결합하여 문맥 유지와 체계적인 사고 프로세스를 구축하는 방법.

r/ClaudeAI1달 전

AI가 문서를 읽기 전, 실시간 데이터로 자동 업데이트하는 MarkdownAI

MarkdownAI는 AI가 읽는 마크다운 파일 내의 지시문을 사전에 실행하여, AI가 항상 최신 상태의 프로젝트 정보를 참조하도록 돕는 도구입니다.

r/ClaudeAI Dev Tools Coding Agents1달 전

Claude Code의 블랙박스 문제를 해결하는 오픈소스 디버거 Argus

Claude Code의 에이전트 동작을 실시간으로 추적하고 의존성 그래프를 시각화하여 토큰 낭비와 무한 루프를 방지하는 VS Code용 디버깅 도구 Argus를 소개한다.

Argus Claude Code

r/ClaudeAI1달 전

Claude Code로 앱을 만들 때 API, SDK, CLI, MCP 중 무엇을 써야 할까?

Claude Code를 활용한 애플리케이션 구축 시, 연동 목적에 따라 API, SDK, CLI, MCP의 차이점과 적절한 선택 기준을 설명한다.

r/ClaudeAI1달 전

AI 코딩, '앱 만들어줘'라고 시작하면 망하는 이유와 해결책

AI 코딩 도구를 사용할 때 무작정 개발을 시작하기보다 기획 구체화, 에이전트 규칙 설정, 컨텍스트 관리 등 체계적인 접근이 필요하다는 조언.

r/ClaudeAI1달 전

Claude Code로 분산 시스템의 데드락과 레이스 컨디션을 자동 검증하는 방법

TLA+ 모델 체커를 Claude Code의 도구로 통합하여 분산 시스템의 동시성 문제를 채팅 인터페이스 내에서 직접 검증할 수 있는 MCP 서버 tla-mcp를 개발했다.

r/ClaudeAI1달 전

AI 도구로 생산성 3배 향상? 60일간 직접 추적해 본 실제 ROI와 숨겨진 비용

60일간 AI 도구 사용을 추적한 결과, 생산성은 1.7-2배 향상되었으나 42시간의 오버헤드 비용이 발생했으며, 코드 검증 도구의 ROI가 가장 높았다.

r/ClaudeAI Dev Tools Companies1달 전

Claude Code 사용 중 레이트 리밋 차단 방지하는 agent-baton

Claude Code가 레이트 리밋을 인지하고 대응할 수 있도록 Anthropic API를 활용해 실시간 사용량을 모니터링하고 제어하는 도구인 agent-baton을 개발했다.

agent-baton Anthropic

r/LangChain Libraries1달 전

ReAct 에이전트가 엉뚱한 답을 내놓는다면? 4줄 코드로 해결하는 루프 패턴

ReAct 에이전트가 도구 결과를 검증하지 않고 즉시 답변하는 문제를 조건부 엣지(Conditional Edge)를 추가하여 해결한 사례.

React

r/LangChain1달 전

RAG 구현이 실패하는 진짜 이유: 청킹 전략과 하이브리드 검색의 부재

RAG 튜토리얼은 벡터 DB에만 집중하지만, 실제 구현 실패는 부적절한 청킹 전략과 정확한 식별자 검색을 놓치는 하이브리드 검색 부재에서 발생함.

Hacker News - LLM Libraries1달 전

코딩 에이전트 내부가 궁금하다면? MLflow AI Gateway로 LLM 호출 추적하기

MLflow AI Gateway를 프록시로 설정하여 코딩 에이전트의 프롬프트와 도구 호출 과정을 자동으로 기록하고 디버깅하는 방법.

MLflow

r/LLMDevs1달 전

EEG 뇌파 신호로 LLM의 감정적 일관성을 제어하는 새로운 방법

EEG에서 추출한 감정 확률 분포를 프롬프트 컨텍스트로 주입하여 LLM의 자전적 기억 생성 시 감정적 일관성을 높이는 연구.

r/LangChain1달 전

AI 코딩 에이전트의 토큰 낭비를 잡는 컨텍스트 분석 도구, getprismo

Claude Code와 Codex 사용 시 발생하는 불필요한 컨텍스트와 토큰 낭비를 분석하고 비용을 최적화하는 CLI 도구 getprismo를 개발하여 공유함.

r/ClaudeAI1달 전

GPT5.5가 막힌 코딩 문제, Claude 3 Opus로 해결한 방법

GPT5.5가 해결하지 못한 코딩 문제를 Claude 3 Opus에게 요약 전달하여 성공적으로 디버깅한 사례 공유.

r/ClaudeAI Dev Tools1달 전

인간이 아닌 AI 에이전트만을 위한 언어 'kernl', 토큰 사용량 최대 40% 절감

인간 가독성보다 에이전트 효율성에 집중한 프로그래밍 언어 kernl이 공개되었으며, Rust와 Python 환경에서 토큰 사용량을 각각 40%, 25% 절감한다.

kernl

r/ClaudeAI1달 전

Claude의 답변 품질을 높이는 6가지 실전 프롬프트 패턴

Claude 사용 시 계획 수립, 예시 제공, 부정적 제약 조건 설정, 지속적 컨텍스트 활용을 통해 답변 품질을 향상하는 실전 가이드.

r/ClaudeAI1달 전

Obsidian MCP 서버 업데이트: BM25 검색과 OCR 기능으로 노트 검색 강화

Obsidian MCP 서버 3.2.0 버전이 Omnisearch 모드와 MCP 표준 커서 페이지네이션, 정규식 필터링 기능을 추가하여 노트 검색 및 관리 효율을 개선했다.

r/ClaudeAI1달 전

인간의 편의성을 덜어내고 LLM 효율을 극대화한 프로그래밍 언어, Tacit

LLM의 강점을 활용하고 인간 중심의 불필요한 문법을 제거하여 토큰 효율성을 높인 실험적 프로그래밍 언어 Tacit을 개발했다.

r/ClaudeAI Companies Coding Agents1달 전

Claude Code의 휘발성 컨텍스트를 해결하는 로컬 마크다운 기반 관리 도구

Claude Code 세션 간 컨텍스트 유실을 방지하고 로컬 마크다운 파일로 경험을 구조화하여 저장하는 오픈소스 플러그인 LockedIn.

Anthropic Claude Code

r/ClaudeAI Language Models Audio AI1달 전

Claude로 만든 AI 캐릭터가 예측 시장 베팅을 논쟁하는 1분 영상 자동화 파이프라인

Polymarket 데이터를 기반으로 Claude, ElevenLabs, Hedra를 조합하여 1분 분량의 AI 캐릭터 논쟁 영상을 15분 만에 자동 생성하는 파이프라인을 구축했다.

Claude ElevenLabs

r/LLMDevs1달 전

Claude Desktop과 Cursor에서 영구적인 구조화된 메모리를 구축하는 방법

오픈소스 파이썬 라이브러리 memv가 MCP 서버를 지원하여 별도의 통합 코드 없이도 Claude Desktop, Cursor 등에서 영구적인 구조화된 메모리 기능을 사용할 수 있게 되었다.

r/LLMDevs1달 전

LLM 외부 오케스트레이션으로 AI 신뢰성 문제를 해결하는 Tama Engine

LLM 외부에서 오케스트레이션을 수행하여 복잡한 도메인 제약 조건을 처리하고 신뢰성을 높이는 Tama Engine 아키텍처를 소개한다.

Hacker News - LLM1달 전

프롬프트 엔지니어링의 한계와 파인튜닝으로 달성한 91% 정밀도 분류기 구축기

고객 리뷰 분류를 위해 프롬프트 엔지니어링의 낮은 재현율 문제를 파인튜닝된 GPT 모델로 해결한 사례.

The Verge AI Companies Products1달 전

애플의 AI 전략, 프라이버시 강화로 차별화 시도

애플이 iOS 27의 차세대 Siri에 대화 기록 자동 삭제 기능을 도입하여 프라이버시를 강화하고 경쟁사와 차별화를 꾀한다.

Apple Siri

Hacker News - LLM Dev Tools1달 전

코드 파일에 @piqo만 적으면 LLM이 내용을 채워주는 자동화 도구

파일 내 @piqo 마커를 감지해 LLM이 코드를 생성하고 삽입하는 파일 감시 기반 자동화 확장 도구.

pi piqo-extension

Hacker News - LLM1달 전

LLM으로 TLA+ 명세 작성하기: 시스템 검증의 문턱을 낮추다

LLM을 활용해 복잡한 TLA+ 명세 작성을 자동화하고, 모델 체커 TLC로 시스템의 정확성을 검증하는 방법.

AI Engineer1달 전

SSE 연결 끊김 해결: AI 에이전트의 지속 가능한 세션 관리 전략

SSE의 연결 의존성 문제를 해결하기 위해 세션을 연결과 분리하여 다중 기기 동기화와 자동 재연결을 지원하는 지속 가능한 세션 아키텍처를 제안한다.

Hacker News - LLM1달 전

Claude와 MCP로 구축하는 AI 에이전트용 영구적 작업 공간

MCP와 리눅스 서버를 활용해 여러 AI 도구가 공유하는 영구적인 작업 공간과 메모리 계층을 구축하는 방법.

Hacker News - LLM1달 전

데이터셋 준비부터 GGUF 변환까지, LLM 파인튜닝 전체 파이프라인 완벽 가이드

LLM 파인튜닝의 전체 과정을 환경 설정, 데이터셋 구성, 학습, LoRA 적용, GGUF 변환 단계로 상세히 다룬다.