2026년 5월 9일 AI 뉴스 아카이브

Prototype-Guided MIL로 로그 이상 탐지와 인스턴스 로컬라이제이션 강화

대규모 로그 시스템에서 인스턴스 단위 라벨링은 비용이 많이 든다. MIL은 가방 단위 레이블로 학습할 수 있지만, 노이즈·고주파 패턴에 의한 로컬라이제이션 오염과 해석의 불투명성이 남는다. 본 연구는 prototype와 counterfactual perturbation를 도입해 로컬라이제이션의 신뢰성과 해석 가능성을 높여 실무 적용 가능성을 높인다.

Counterfactual Perturbation ConsistencyLogMILP

HF Daily Papers Libraries Best Practices

Tamper-evident attestations로 실험 결과를 검증하는 새로운 표준 제안

ML 연구에서 재현성 문제는 구조적이며, 체크리스트나 코드 공유만으로는 결과의 진실성을 보장하기 어렵다. 논문은 결과 수치를 실제 실행과 결합하는 독립적 검증 체계를 구축해야 한다고 주장한다. 이는 연구의 신뢰성 향상과 재현성 검증의 효율성 개선에 기여한다.

K-VeritasNonrepudiation

TechCrunch AI

Nvidia의 공격적 행보: OpenAI 300억 달러 포함 총 400억 달러 투자

Nvidia가 2026년 초 OpenAI에 대한 300억 달러 투자를 포함하여 AI 생태계에 총 400억 달러 이상의 지분 투자를 단행했다.

r/LangChain

법률 RAG 시스템이 실무에서 버림받는 3가지 결정적 이유와 해결책

법률 RAG 시스템은 문서의 위계, 해석의 충돌, 로펌 내부 지식을 반영하지 못할 때 실무 신뢰를 잃으며, 이를 해결하기 위해 메타데이터 가중치와 불일치 탐지 로직이 필수적이다.

Hacker News - LLM Language Models

DeepSeek V4 Flash로 추론 처리량 4.3배 향상 및 토큰 비용 50% 절감

DeepSeek V4 Flash 엔진과 Telegraph English 프로토콜을 통해 LLM 추론 효율을 극대화하고 토큰 비용을 50% 절감하는 기술적 진보가 확인됐다.

DeepSeek-V4-Flash

r/artificial Companies

Anthropic과 OpenAI, 종교계와 손잡고 AI에 도덕성 심는다

주요 종교 지도자들과 Anthropic, OpenAI 등 AI 기업들이 뉴욕에서 만나 AI 기술에 윤리와 도덕을 반영하기 위한 첫 라운드테이블을 진행했다.

AnthropicOpenAI

AI Engineer Audio AI

채팅 에이전트에 목소리를 입히는 가장 빠른 방법: ElevenLabs Voice Engine

ElevenLabs의 Voice Engine을 사용하여 기존 채팅 기반 AI 에이전트를 로직 수정 없이 실시간 음성 인터페이스로 확장하는 방법과 SDK 활용법을 제시한다.

ElevenLabsVoice Engine

r/ClaudeAI Coding Agents

15,000달러 외주 견적을 Claude Code로 해결한 스타트업 BI 구축기

스타트업 운영자가 Claude Code를 활용해 Google Cloud와 다양한 API를 통합하고 3일 만에 자체 BI 시스템을 구축하여 막대한 외주 비용을 절감했다.

Claude Code

AI Jason

에이전트가 스스로 멈추지 않고 목표를 달성하게 만드는 /goal 기능 활용법

OpenAI Codex와 Hermes Agent에 도입된 /goal 기능을 통해 AI 에이전트가 복잡한 장기 과제를 스스로 판단하며 완수하도록 만드는 기술적 방법론을 제시한다.

r/LLMDevs Language Models

GPT-4o 비용이 부담된다면? 로컬 LLM 판사 구축 실전 팁

LLM-as-a-judge 구현 시 단순 판정은 8B 모델로 충분하지만, 정교한 채점은 Llama 3.3 70B급 모델과 간결한 루브릭이 필수적이다.

Llama 3.1Llama 3.3Mixtral 8x7B

Wired AI

내 크롬에 4GB짜리 AI가? 구글 Gemini Nano 자동 설치 논란

구글 크롬의 Gemini Nano 자동 설치 논란과 로봇 잔디깎이 보안 취약점 등 한 주간의 주요 AI 및 사이버 보안 뉴스를 요약합니다.

David Ondrej Coding Agents Companies

비디오 편집의 종말? 코드로 영상을 만드는 HyperFrames 실전 튜토리얼

AI 코딩 에이전트 Codex와 HyperFrames 라이브러리를 결합하여 텍스트 프롬프트만으로 HTML/CSS 기반의 고품질 모션 그래픽과 비디오를 생성하는 방법을 다룹니다.

CodexHeyGenHyperFrames

AICodeKing

단순 코딩 에이전트를 넘어 AI CTO로 진화한 Verdent Manager

Verdent Manager는 단순한 코드 생성을 넘어 프로젝트 기획, 작업 할당, 테스트 및 배포까지 관리하는 AI CTO 역할을 수행합니다.

r/MLOps MLOps Dev Tools

면접에서 점수 따는 ML 데이터 파이프라인 설계의 핵심 전략

ML 시스템 디자인 면접에서 외부 API 데이터를 효율적으로 수집하고 관리하기 위한 아키텍처 설계 원칙과 실무 고려사항을 제시한다.

AirflowKubernetesPostgreSQL

Krish Naik

벡터 DB 없이 RAG가 가능하다? Vectorless RAG의 충격적 성능 차이

전통적인 벡터 기반 RAG와 트리 구조를 활용한 Vectorless RAG의 작동 원리, 비용, 지연 시간 및 도메인별 적합성을 비교 분석하여 최적의 검색 아키텍처 선택 가이드를 제공한다.

Vizuara

수학 공포증 극복: 확산 모델이 이미지를 그리는 대신 노이즈를 지우는 이유

DDPM은 이미지를 직접 생성하는 대신 데이터에 추가된 노이즈를 예측하고 제거하는 법을 학습하여 복잡한 데이터 분포를 복원하는 생성 모델이다.

r/LangChain Companies

AI 에이전트가 며칠씩 혼자 일한다면? '지속적 거버넌스' 아키텍처 제안

장기 실행 AI 에이전트의 정체성 유지와 안전한 실행을 위해 인지(확률적)와 거버넌스(결정론적)를 분리한 4계층 모듈형 아키텍처를 제안한다.

LangChain

r/ClaudeAI

Claude Code 보안 강화: 데이터 유출 차단하는 Hard Deny 규칙 도입

Claude Code v2.1.136 업데이트를 통해 자율 에이전트의 보안 경계를 강화하고 데이터 유출 및 파괴적 작업을 제어하는 새로운 시스템 프롬프트 규칙이 도입되었다.

Hacker News - LLM

로컬 모델부터 Claude까지 하나로 제어하는 파워 유저용 LLM 앱 Meltdown

llama.cpp와 주요 LLM API를 지원하며 수백 개의 인자값과 명령어로 고도의 커스터마이징이 가능한 파이썬 기반 데스크톱 애플리케이션입니다.

r/artificial Inference

내 파일을 훔쳐보고 일기를 쓰는 자율형 데스크톱 AI 캐릭터

Ollama를 기반으로 로컬에서 구동되며 사용자의 화면과 파일을 인식해 자율적으로 행동하고 일기를 쓰는 데스크톱 AI 캐릭터 프로젝트이다.

Ollama

딥러닝논문읽기모임 Architecture Language Models

LLaMA3보다 2.5배 빠르다? Diffusion LLM의 반전 드라마 D2F

D2F는 Diffusion 모델의 병렬성과 AR 모델의 KV cache 효율성을 결합하여 기존 LLM보다 2.5배 빠른 추론 속도를 구현한 하이브리드 디코딩 기술이다.

KV CacheLlama 3Qwen2.5

HF Community Blogs

DeepSeek Engram을 OLMo-core에 이식하여 분산 학습 성능 검증

DeepSeek의 Engram 메모리 레이어를 OLMo-core 프레임워크에 통합하여 4개의 NVIDIA A40 GPU 환경에서 분산 학습 가능성을 증명한 개념 실증(PoC) 프로젝트입니다.

Simon Willison

OpenAI 음성 AI의 비밀, WebRTC가 프롬프트를 누락시키는 이유

WebRTC 프로토콜의 지연 시간 우선 정책이 OpenAI의 실시간 음성 AI 서비스에서 오디오 데이터 손실과 프롬프트 정확도 저하를 유발한다.

This Week's Tech

Anthropic의 1조 달러 도전과 Apple의 AI 이어폰 전략

Anthropic의 대규모 펀딩 계획, OpenAI 내부 갈등을 보여주는 텍스트 메시지 공개, 그리고 Apple의 카메라 탑재 AI AirPods 개발 소식을 다룹니다.

HF Community Blogs

139GB 거대 모델 ZAYA1을 위한 멀티 GPU 패치 가이드

Zyphra의 ZAYA1-74B 모델을 멀티 GPU 환경에서 실행할 때 발생하는 6가지 장치 불일치 버그를 분석하고 코드 수정 방법을 제시합니다.

임커밋 Optimization

AI 모델 크기 획기적으로 줄이는 양자화 기술의 모든 것

TurboQuant의 핵심인 양자화 기법의 기본 원리와 비트 수에 따른 정밀도 변화 및 오차 발생 메커니즘을 시각적으로 분석한다.

TurboQuant

r/PromptEngineering Products

NotebookLM과 ChatGPT로 연봉 상승과 재택 근처 이직을 동시에 잡은 비결

IT 보안 전문가가 NotebookLM의 구조화된 프롬프트와 ChatGPT 면접 시뮬레이션을 활용해 원하는 조건으로 이직에 성공한 실무 사례이다.

ChatGPTNotebookLM

r/LLMDevs

AI 에이전트들이 서로의 업무 성과를 평가하기 시작했다?

멀티 에이전트 시스템에 공유 메모리를 도입하자 에이전트들이 서로의 작업 방식을 비판하고 성능 리뷰를 남기는 현상이 관찰됐다.

r/MachineLearning

수식으로만 보던 KL Divergence, 직접 조작하며 직관을 얻으세요

두 확률 분포 사이의 차이를 측정하는 KL Divergence의 작동 원리를 직접 파라미터를 조절하며 시각적으로 탐색할 수 있는 웹 도구가 공개됐다.

r/MachineLearning Vector DB Dev Tools

단순한 '액션' 태그는 지겹다? LLM으로 게임의 '바이브'를 추출하는 법

LLM을 사용하여 8만 개의 스팀 게임 리뷰에서 미세한 특징을 추출하고, 이를 벡터화하여 사용자에게 추천 이유를 설명해 주는 개인 맞춤형 추천 시스템을 구축했다.

Chroma DBDockerReact

Claude

Heavy Scaffolding은 끝났다, 모델 내부로 들어온 에이전트 핵심 기능

과거에 복잡한 외부 코드로 구현해야 했던 도구 사용, 컨텍스트 관리, 코드 실행 기능을 모델 내부 역량으로 통합하여 더 강력한 에이전트를 구축하는 방법을 다룹니다.

Modal

인프라 관리 없이 강화학습을 확장하는 법: Modal의 RL 아키텍처 실전 가이드

Modal의 서버리스 프리미티브를 활용하여 복잡한 강화학습 파이프라인의 안정성과 처리량을 극대화하고, 멀티 노드 학습 및 샌드박스 환경을 효율적으로 구축하는 방법을 제시합니다.

ClearML Blog

Kubernetes AI 인프라 보안의 완성: 제로 트러스트와 ClearML 통합 전략

Kubernetes 기반 AI 인프라에서 네트워크 세그멘테이션, mTLS, SSO 및 감사 로그를 통해 제로 트러스트 보안 모델을 구현하는 방법과 ClearML의 역할을 설명한다.

TechCrunch AI

Cloudflare 16년 만의 첫 대규모 해고, 원인은 AI로 인한 100배 생산성 향상?

Cloudflare가 AI 도입을 통한 비약적인 생산성 향상을 이유로 전체 인력의 20%인 1,100명을 감원하며 AI 시대의 새로운 기업 운영 모델을 제시했다.

Claude

Claude 에이전트가 잠자는 동안 학습한다? Dreaming으로 성능 6배 높이는 법

Anthropic의 Managed Agents API에 추가된 Memory와 Dreaming 기능을 통해 에이전트가 세션 간 지식을 공유하고 스스로 오류를 수정하며 성능을 최적화하는 아키텍처를 제시한다.

AI Engineer

CNN을 밀어낸 Transformer, 비전 AI의 패러다임 전환과 미래

컴퓨터 비전의 주류가 CNN에서 Transformer로 전환된 기술적 배경과 ViT, Swin, SAM 등 주요 모델의 진화 과정을 통해 확장성 중심의 비전 아키텍처를 분석한다.

Hugging Face Blog

AMD MI300X로 학습한 4B 보안 특화 모델, 8B 모델 성능을 뛰어넘다

AMD MI300X에서 학습된 CyberSecQwen-4B는 절반 크기로 8B급 보안 모델의 성능을 구현하며 민감한 보안 데이터의 로컬 처리를 가능하게 합니다.

Reinforcement Learning Libraries Training

강화학습 환경에 메모리와 반성 기능을? CogniCore 프레임워크 공개

메모리, 반성, 8개 성분 보상 체계 등 인지 기능을 환경 수준에서 제공하는 의존성 없는 순수 파이썬 강화학습 프레임워크 CogniCore가 공개됐다.

CogniCoreGymnasiumQ-Learning

Hugging Face Blog

전체 전문가의 12.5%만 사용해도 성능 유지? 새로운 MoE 모델 EMO 공개

문서 경계를 활용한 학습 제약으로 전문가들이 의미론적 도메인별로 군집화되어, 일부 전문가만으로도 높은 성능을 내는 모듈형 MoE 모델 EMO가 공개되었습니다.

The Verge AI

소니, 너티독·산타모니카 스튜디오에 AI 애니메이션 툴 도입

소니가 PlayStation 게임 개발 효율을 높이기 위해 AI를 도입하고, 너티독 등 주요 스튜디오에서 실제 애니메이션 공정에 활용 중임을 확인했다.

WorldofAI

NotebookLM에 자동화가 더해지면? Codex 연동으로 구축하는 AI 리서치 에이전트

OpenAI Codex의 Chrome 확장 프로그램을 통해 Google NotebookLM을 연동하고, 유튜브 영상 등 외부 소스를 자동으로 수집하여 이메일로 요약본을 발송하는 자동화 워크플로 구축 방법을 제시한다.

Techpresso

카메라 달린 에어팟? 애플의 새로운 시도와 OpenAI의 실시간 음성 혁신

애플이 시각 정보를 Siri에 전달하는 카메라 탑재 에어팟 생산을 준비 중이며, OpenAI는 추론과 번역 성능이 강화된 3종의 실시간 음성 모델을 출시했다.

The Verge AI

머스크 대 오픈AI 소송에서 밝혀진 MS의 초기 투자 비화

머스크와 오픈AI 간 소송 과정에서 공개된 법정 문서를 통해 마이크로소프트가 초기 투자 당시 오픈AI의 경쟁사 이탈과 평판 훼손을 우려했음이 드러났다.

Figure AI

Figure F.03 로봇 2대가 스스로 침대를 정리하는 놀라운 속도

Figure AI의 F.03 로봇 두 대가 2분 이내에 침실을 정리하고 침대 시트를 정돈하는 완전 자율 작업을 수행했다.

Wired AI

AI가 내 일자리를 뺏는다면? 캘리포니아의 파격적인 일자리 보장 계획

캘리포니아 주지사 후보 톰 스테이어가 AI로 인해 실직한 노동자들에게 공공 부문 일자리를 보장하고 이를 위해 빅테크에 토큰세를 부과하는 정책을 발표했다.

Cohere

코딩 몰라도 교육용 AI 앱 만든다? Vibe Coding이 바꾸는 교육의 미래

교육 전문가 James Bedford 박사가 LLM을 활용해 기술적 배경 없이도 교육자가 직접 맞춤형 교육 도구를 제작하는 Vibe Coding의 개념과 실무 프레임워크를 소개합니다.

HF Daily Papers

100개 예시로 학습 없이 이미지 편집 보상 정확도 47.4% 달성

이미지 편집 평가에서 인간 선호를 반영하는 보상 신호를 얻기 위한 대규모 주석·모형 학습의 데이터 비용이 큰 문제이다. RewardHarness는 파라미터 업데이트 없이 컨텍스트를 확장하는 방식으로 평가 지식을 외부 라이브러리로 진화시키며 100개의 예시만으로 벤치에서 강력한 성능을 달성한다. 이는 API 기반 모델에서도 활용 가능하며 해석가능한 추론 흐름을 제공한다.

HF Daily Papers Inference Libraries

12-code taxonomy로 인용 할루시네이션 탐지를 필드 단위에서 자동화

대학술 연구의 인용은 신뢰성의 핵심이다. LLM이 생성한 인용은 표면적으로 타당해 보이지만 실제 출처와의 검증이 필요하며, 필드 단위의 진단이 없으면 수정이 어렵다. 본 연구는 12-code taxonomy와 CITETRACER 파이프라인을 통해 필드 수준으로 REAL/POTENTIAL/HALLUCINATED를 구분하고, 증거를 모아 판정 근거를 제시한다. 합성 벤치마크에서 97.1%의 정확도, 실세계 데이터에서 97.1%의 재현율을 달성했다.

CITETRACERScholar Connectors

HF Daily Papers Prompting

클립-안전 경계 λ⋆를 예측하는 Cliff 분석

온-정책 증류(OPD)에서 reward extrapolation 계수 λ를 1보다 크게 설정하면 학생 모델이 교사의 영역을 넘어설 수 있지만, 특정 임계값을 넘기면 출력 계약이 붕괴한다. 본 연구는 단일 위치 Bernoulli 축소를 통해 λ⋆를 닫힌 형태로 도출하고, Fashion 데이터에서 이를 교차 검증함으로써 실전 시스템에서의 안정적 운영 포인트를 제시한다. 이로써 OPD 튜닝이 단순한 λ 스윕이 아닌 예측 가능한 경계 설정 문제로 바뀐다.

ListOPD

HF Daily Papers

Adafactor 전처리로 LoRA의 성능을 끌어올리면서 메모리는 LoRA 수준으로 유지

LoRA의 factor-space 최적화는 JG의 차원 축약으로 인해 역전이 불가능한 특이성을 내재한다. 이로 인해 W-space preconditioner Ft를 적용하더라도 (JG의) 역연산은 고유하게 정의되지 않는 문제가 생긴다. AdaPreLoRA는 gradient-statistics-aware Ft와 Ht-imbalance 규칙을 결합해 JG의 해공간에서 W 업데이트에 가장 근접한 해를 닫힌 형태로 얻고, 메모리는 O((m+n)r)로 유지한다. 이 방식은 GPT-2(E2E), Mistral-7B, Qwen2-7B 및 diffusion 모델 개인화에서 기존 LoRA 계열과 경쟁하거나 우수한 성능을 보여주며 LoRA 프로토콜의 메모리 오버헤드를 증가시키지 않는다.

HF Daily Papers Architecture

의미 공간의 클러스터로 패러프레이징에 강건한 워터마킹

LLM 생성 텍스트의 출처를 검증하고 추적하는 필요성은 커졌지만, 의미를 보존하는 변형(패러프레이즈 등)에는 토큰 수준 워터마킹이 취약하다. PASA는 latent embedding space의 semantic cluster에 공유 난수를 고정하여 token-수준이 아닌 semantic-level 워터마킹을 구현하고, distortion-free 생성을 보장하며 낮은 FPR에서 강한 탐지 성능을 제공한다. 이로써 여러 모델과 데이터셋에서 의미 보존 공격에 대한 내성을 입증한다.

PASA

HF Daily Papers Prompting Agents

BYOWM으로 MCP에서 예측적 계획과 실행 품질을 향상

MCP의 도메인에서 단순히 반응적으로 작동하는 에이전트의 한계를 극복하기 위해, 환경의 다이나믹스를 예측하는 World Model을 도입한다. 이를 통해 실행 전 latent 공간에서 경로를 시뮬레이션하고 합리적 계획을 보강함으로써 tool 호출의 실패를 줄이고 파라미터 정확성을 높이며 Execution Quality를 신설하는 등 실용적 지표를 제시한다. MCP-Bench에서의 대규모 실험은 평균적으로 도구 선택과 실행 효율성에서 개선을 확인하게 한다.

BYOWM (Bring Your Own World Model)MCPWorld Model

HF Daily Papers Architecture

스킬 계층의 최소 권한 경계에서의 과도권한 상승을 실험적으로 드러냄

대형 언어 모델 에이전트는 사용자 의도와 실행 사이에 중간 스킬 계층을 두고 작동한다. 이 계층은 권한 경계의 축으로 작동하지만 모델은 이를 자주 넘긴다. FORTIS는 스킬 계층의 과도권한 여부를 두 단계(Task 1, Task 2)로 측정해 시스템 차원의 안전성을 진단한다.

Skill Layer

HF Daily Papers

다중샷 서사 생성을 위한 대규모 데이터셋과 크로스샷 매칭으로 S2V의 복사-붙여넣이 문제를 제거

현행 영상 기초 모델은 단일 샷 생성에 최적화되어 있어 실제 영화적 서사를 구현하는 다중샷 시퀀스의 제어와 연속성 확보가 어렵다. MuSS는 3,000편이 넘는 영화에서 추출한 다중샷 비디오/S2V 생성을 위한 이중 트랙 데이터셋을 제시하고, 로컬 샷 수준의 정확성에서 글로벌 서사 일관성으로 점진적으로 확립하는 프로그레시브 캡션 파이프라인과 크로스샷 매칭 메커니즘을 통해 S2V의 복사-붙여넣이 문제를 근본적으로 제거한다. 또한 시각적 논리 기반 벤치마크와 ACP-Var 지표를 도입해 연속적 서사성과 3D 구조적 일관성을 엄밀히 평가한다. 이로써 현재의 베이스라인이 연속적 서사를 유지하기보다는 2D 스티커 생성에 빠지는 한계를 극복할 수 있다.

HF Daily Papers

온라인 감사로 접두사에서 조기 실패를 감지하고 개입 창을 여는 방법

대형 언어 모델 기반의 다중 에이전트 시스템은 긴 수평(task-long)에서 실행되며 단 하나의 결정적 오류가 downstream 에이전트의 누적 작용으로 전체 실패로 번질 수 있다. 기존 연구는 이를 주로 사후(post-hoc)로 분석해 실패의 원인을 찾는 데 집중하지만, 실행 도중 개입할 수 있는 창을 놓친다. 본 논문은 온라인 감사(online auditing) 프레임워크를 제안하여 접두사(prefix) 수준에서 매 단계를 감시하고, 최초의 결정적 오류가 발생하는 시점에 경보를 발동하여 배포 시점에서의 개입 가능성을 연다. 이를 통해 실패의 루트를 조기에 차단하는 안전체인을 구축한다.

HF Daily Papers Prompting Architecture

MoE 프리-training에서 structured pruning과 KD로 성능 유지와 효율 향상

대형 MoE LLM의 사전학습은 비용이 큰 문제다. 본 연구는 depth/width/experts를 모두 포함하는 구조적 pruning과 추후 학습 전략으로 프리training에서의 성능 회복을 분석하고, progressively pruning이 one-shot보다 더 안정적이고 효과적임을 보여준다. 또한 NTP KD와 LM loss의 결합과 MTP KD가 지식 집중형 태스크에서 이점을 준다.

Knowledge DistillationMoEStructured Pruning

HF Daily Papers Architecture

Point cloud 입력만으로 mesh-free 다중 객체 시뮬레이션을 가능케 하는 Transformer

메시 기반 그래프가 필요한 기존 시뮬레이터와 달리, 점 구 representation에서의 다중 객체 상호작용을 학습하는 것은 계산 비용과 확장성에서 큰 도전이다. RigidFormer는 object-centric Transformer로 객체 간 상호작용을 중심으로 모델링하고, Anchor-Vertex Pooling 및 ARoPE를 통해 기하 정보를 주입하여 서로 다른 점 해상도와 객체 수에서도 일반화와 속도 모두를 개선한다. 또한 3D rigid-효과를 유지하기 위한 differentiable Kabsch 정합을 도입해 장기간 롤아웃의 안정성을 높인다.

Anchor-based RoPEAnchor-Vertex PoolingDifferentiable Kabsch Alignment

HF Daily Papers

Slice 기반 인코딩과 Intra-ViT 초기 압축으로 고해상도 입력의 계산 비용 55.75% 절감

고해상도 입력에서 비전 인코더의 Self-Attention은 토큰 수 제곱에 비례하는 계산 비용을 유발한다. SE(Slice-based Encoding)는 로컬 패치를 독립적으로 인코딩하여 지역 세부 정보를 보존하면서 전체 대역의 연산을 줄인다. 또한 intra-ViT 초기 압축 D를 도입해 ViT의 앞 단계에서 토큰을 미리 감소시키면 이후 계층의 FLOPs가 크게 감소하고,OCR/문서 이해/일반 VQA 벤치마크에서 성능 저하 없이 효율성을 크게 높일 수 있다.

HF Daily Papers

VLM과 VGM의 협업으로 긴 시나리오 비디오 추론의 정확도 향상

비디오 추론은 짧은 시퀀스의 시각적 우수성과 긴 호라이즌의 계획적 추론 간의 간극으로 인해 문제가 발생한다. CollabVR은 step-level로 VLM이 즉시 다음 액션을 계획하고 VGM의 clip를 검증·보정하는 폐회로를 구성함으로써 long-horizon drift와 mid-clip 오류를 효율적으로 제어한다. 이는 기존의 단일 샘플링 방식이나 전체 비디오에 대한 후처리 방식보다 오류를 조기에 발견하고 수정하는 데 유리하다.

HF Daily Papers

연구수준 수학 문제에서 LLM의 한계를 드러내는 신규 벤치마크

LLM의 다단계 추론 능력을 고도화된 수학 문제로 평가하는 벤치마크가 필요하다. SOOHAK는 연구-수준 수학 지식과 창의적 추론을 요구하는 문제를 expert-저작으로 구성하고, contamination 위험을 줄이는 이원 구성을 통해 frontier 모델의 실전적 한계를 정밀하게 측정한다. 또한 ill-posed 문제에 대한 거절(Refusal) 능력을 평가하는 새로운 축을 제시한다.

r/ClaudeAI Language Models

단순 프롬프트가 아닌 '스킬'을 만들어야 하는 이유와 설계 방법

단순 프롬프트를 넘어 입력 계약, 출력 스키마, 학습 기록을 갖춘 '스킬' 단위의 설계가 AI 파이프라인의 안정성을 결정한다.

Claude

시민개발자 구씨 Companies

ChatGPT 답변만 받으시나요? Codex로 PPT 제작·검수까지 끝내는 법

OpenAI Codex 앱을 활용하여 프로젝트 폴더 기반의 기준 문서를 세팅하고, PPT 제작부터 Computer Use 기능을 통한 최종 검수까지의 에이전틱 워크플로를 학습합니다.

OpenAI

r/ClaudeAI Language Models

Claude로 단 몇 시간 만에 만든 전 세계 UFO 목격 데이터 지도

미국 국방부의 공개 데이터를 활용해 Claude로 수 시간 만에 구축한 연도별 UFO 목격 위치 및 기상 정보 시각화 웹 도구이다.

Claude

Hacker News - LLM

LLM 평가 비용 낭비 끝, nexa-gauge의 캐시 기반 그래프 평가 엔진

nexa-gauge는 LLM 및 RAG 시스템의 출력 품질을 측정하기 위해 비용 추정, 캐싱, 구조화된 리포트를 제공하는 그래프 기반 파이썬 평가 툴킷입니다.

1littlecoder Companies Coding Agents

프롬프트 한 줄로 전문가급 모션 그래픽과 프로토타입을 만드는 Claude Design

Anthropic이 출시한 Claude Design을 활용하여 복잡한 코드 없이 프롬프트만으로 인터랙티브 프로토타입, 모션 그래픽, 프레젠테이션을 제작하는 방법을 소개합니다.

AnthropicClaude Code

r/PromptEngineering Language Models Dev Tools

Suno 음악의 일관성 문제 해결을 위한 Claude 기반 멀티 에이전트 워크플로

Claude Opus 4.6과 n8n을 활용해 Suno의 음악적 일관성을 극대화하는 멀티 에이전트 프롬프트 자동화 파이프라인 Antigravity를 구축했다.

Claude Opus 4.6n8nSuno

r/ClaudeAI Language Models Inference

Claude 에이전트 운영에 비싼 GPU 서버가 필요 없는 이유

API 기반 Claude 에이전트는 고성능 GPU 없이 저사양 VPS만으로도 충분히 운영 가능하다는 실무 경험 공유이다.

ClaudeOllamaQdrant

r/ClaudeAI Coding Agents Agents

포켓몬 잡듯 코딩 에이전트를 관리한다? 오픈소스 Pokegents 공개

여러 코딩 에이전트 세션을 포켓몬 테마의 대시보드에서 통합 관리하고 MCP 메시징으로 협업시키는 오픈소스 워크스페이스 Pokegents가 출시됐다.

Claude CodeMCP

r/ClaudeAI Prompting

사용자에게 무조건 동조하는 AI는 이제 그만, Epistemic Calibration Protocol 공개

사용자의 편향된 프레임에 동조하는 AI의 아첨 현상을 방지하기 위해 논리와 증거 기반의 인식론적 교정 프로토콜이 오픈소스로 공개됐다.

Epistemic Calibration Protocol

r/ClaudeAI Coding Agents Vector DB

에이전트의 DB 삭제 사고를 막는 4가지 핵심 파일과 안전 장치

Claude Code 에이전트가 프로덕션 DB를 안전하게 다룰 수 있도록 정교한 메모리 구조와 다중 검증 워크플로를 구축한 실무 사례이다.

Claude CodeConvex

r/ClaudeAI Coding Agents Dev Tools

AI가 직접 관리하는 문서화 시스템, 컨텍스트 드리프트 해결할까?

AI 에이전트가 코드 변경과 문서 동기화를 동시에 수행하며 프로젝트의 의도와 기억을 유지하는 'Living Docs' 프레임워크가 제안됐다.

AiderClaude CodeCursor

r/artificial Companies Libraries

코딩 AI가 자기가 짠 코드를 왜 자꾸 망칠까? 새로운 해결책 등장

코딩 에이전트가 작업 중 이전의 아키텍처 결정을 유지하고 일관성을 지키는지 측정하는 Continuity Benchmarks가 공개됐다.

LangChainLlamaIndex

The AI Grid Companies

OpenAI의 독주가 끝났다? Anthropic이 기업용 AI 시장을 장악한 비결

Anthropic이 강력한 코딩 성능, 빠른 제품 출시 속도, 그리고 윤리적 브랜드 이미지를 바탕으로 기업용 AI 시장에서 OpenAI를 추월하고 있는 현상을 분석한다.

AnthropicOpenAI

Hacker News - LLM

내 AI 에이전트 스킬은 정말 '좋은'가? LLM으로 객관적 품질 측정하기

AI 에이전트 스킬의 품질을 명확성, 실행 가능성, 토큰 효율성 등 6가지 차원에서 LLM-as-judge 기법으로 정량화하고 개선하는 방법론을 제시합니다.

Simon Willison Companies Coding Agents

LLM에게 마크다운 대신 HTML을 요청해야 하는 이유: 더 풍부한 시각화와 인터랙티브한 설명

LLM 출력 형식을 마크다운에서 HTML로 전환하여 SVG 다이어그램, 인터랙티브 위젯 등 더 풍부하고 이해하기 쉬운 기술 설명을 생성하는 방법과 사례를 제시한다.

AnthropicClaude CodeGPT-5.5

r/PromptEngineering Language Models Coding Agents

Claude가 대본 쓰고 코딩까지? 24시간 무중단 AI 라디오 방송국 등장

Claude Code와 Kokoro TTS를 활용해 5명의 AI 호스트가 실시간으로 대본을 쓰고 방송하는 24시간 라디오 스테이션을 구축했다.

ClaudeClaude CodeKokoro

Ars Technica AI Companies

소니가 예측하는 게임의 미래: AI로 개발 장벽 낮추고 출시량 늘린다

소니 인터랙티브 엔터테인먼트 CEO 히데아키 니시노는 AI 개발 도구가 제작 장벽을 낮추어 게임 출시 속도와 콘텐츠 다양성을 크게 증대시킬 것이라고 밝혔다.

Sony

r/ClaudeAI Language Models Agents

Claude의 부족한 메모리 해결을 위해 직접 만든 MCP 배포 플랫폼 KitStack

Claude의 비정형 메모리 한계를 극복하기 위해 MCP 기반의 구조화된 데이터 관리 앱을 쉽게 구축하고 배포할 수 있는 플랫폼 KitStack이 공개됐다.

ClaudeMCP

r/ClaudeAI Products Coding Agents

AI가 가구 설계도 할 수 있을까? 3대 모델 3D 모델링 실전 비교

사용자가 주방 수납장 설계 복제 작업을 통해 Claude, ChatGPT, Gemini의 파라메트릭 모델링 및 설계 정확도를 비교 분석했다.

ChatGPTGemini CLI

r/ClaudeAI Coding Agents

Claude Code 효율을 극대화할 4가지 무료 AI 코딩 도구

Claude Code의 프롬프트 최적화, 튜토리얼 생성, 버그 패턴 탐지 및 잠재적 오류 감사를 수행하는 4가지 Apache 2.0 기반 AI 스킬이 공개됐다.

Claude Code

r/ClaudeAI Coding Agents

Claude Code 성능 극대화 비결은? Nelson 스킬과 벤치마크 공개

Claude Code를 위한 멀티 에이전트 조정 도구 Nelson의 출시와 함께 13개 모델/도구 조합의 시뮬레이션 성능 벤치마크 결과가 공개됐다.

Claude Code

r/artificial Companies Language Models

규제보다 진흥? 아시아 10개국의 독특한 AI 국가 전략 총정리

아시아 주요 국가들이 서구권의 규제 중심 모델과 달리 인프라 구축과 인센티브 중심의 진흥 정책을 통해 AI 주권을 확보하려는 흐름이 확인됐다.

DeepSeekHugging FaceQwen

Claude Dev Tools

Cursor는 어떻게 에이전트가 스스로 PR을 만들고 테스트하게 만들었나

Cursor 팀이 코딩 에이전트에게 독립된 가상 머신을 제공하여 자율적인 코드 실행, 브라우징, 테스트 및 병렬 PR 생성을 가능하게 만든 기술적 여정과 원칙을 공유한다.

Cursor

Claude Companies Dev Tools

Replit이 공개한 AI 에이전트 성능 평가의 비밀: ViBench

Replit의 AI 책임자가 실제 프로덕션 환경에서 AI 에이전트의 성능을 예측하고 개선하기 위해 구축한 새로운 벤치마크 ViBench와 온/오프라인 평가 루프 시스템을 소개한다.

AnthropicReplit

Claude

Claude Code와 Google Cloud로 30분 만에 풀스택 앱 배포하기

Claude Code와 Google Cloud 인프라를 결합하여 기획부터 디자인, 백엔드 구축, 보안 검토 및 배포까지 전체 소프트웨어 개발 생명주기를 30분 만에 완료하는 실전 데모이다.

Claude

Claude가 더 깊게 생각하게 만드는 법: Anthropic의 새로운 노력 제어 가이드

Anthropic의 Matt Bleifer가 Claude의 추론 성능을 최적화하기 위한 적응형 사고, 노력 수준 설정 및 예산 관리 전략을 소개합니다.

Claude Companies Coding Agents

Claude Code 팀이 밝히는 AI 네이티브 조직의 5가지 변화

Anthropic의 Claude Code 팀이 코딩 에이전트 도입 후 변화된 엔지니어링 병목 지점과 이를 해결하기 위해 재정립한 조직 운영 원칙을 공유한다.

AnthropicClaude Code

Claude Companies Language Models

Asana가 Claude Managed Agents로 구현한 차세대 AI 협업 워크플로

Asana가 Anthropic의 Claude Managed Agents를 활용하여 기업 내 복잡한 다단계 업무를 자율적으로 수행하는 AI Teammates를 구축한 사례와 비전을 제시합니다.

AsanaClaude

r/deeplearning Companies Libraries

Anthropic의 해석 기술을 내 모델에? LLM 출력을 직접 조종하는 오픈소스 도구

Anthropic의 기계적 해석 가능성 연구를 기반으로 LLM의 특정 특징 활성화를 조절하여 출력을 제어하는 오픈소스 라이브러리 drrik이 공개됐다.

AnthropicTransformerLens

r/artificial

RAG 검색 정확도 향상시키는 새로운 CFS 기법과 벤치마크 결과

이미 선택된 영역에 페널티를 부여해 중복을 줄이고 검색 품질을 높이는 CFS 기법이 기존 방식 대비 높은 성능을 기록했다.

Databricks Companies

금융 AI의 승패는 모델이 아니라 '데이터 맥락'에서 결정된다

금융 서비스에서 AI의 성공은 범용 모델 선택이 아닌, 기업 고유의 독점적 데이터와 맥락을 안전하게 결합하여 에이전트 시스템을 구축하는 데 달려 있다.

Databricks

HF Community Blogs

JFrog Artifactory로 Hugging Face 모델 관리하기: 429 에러 해결과 2026년 필수 마이그레이션 가이드

엔터프라이즈 환경에서 JFrog Artifactory를 Hugging Face 프록시로 사용할 때 발생하는 속도 제한, 스토리지 비효율성 문제와 2026년 6월 예정된 필수 레이아웃 마이그레이션 대응 방안을 제시합니다.

OpenAI Companies

OpenAI Codex, 이제 Chrome 확장 프로그램으로 브라우저 업무 자동화

OpenAI가 브라우저 내에서 자율적으로 작업을 수행하고 병렬 탭 처리가 가능한 Codex용 Chrome 확장 프로그램을 출시했다.

OpenAI

r/LLMDevs Libraries

단순 수집을 넘어 전략을 읽는 AI 시장 모니터링 에이전트

경쟁사의 개별 활동을 시간 순으로 연결하여 전략적 의도를 파악하는 메모리 계층 기반 시장 모니터링 에이전트 구축 사례이다.

Hindsight

r/LLMDevs Libraries Companies

LLM 에이전트의 무의미한 반복을 잡아내는 실행 분석 엔진 X-Ray

X-Ray는 멀티스텝 LLM 워크플로의 실행 구조와 유효성을 결정론적으로 분석하여 반복이나 중복 구간을 식별하는 엔진이다.

CrewAILangChain

TechCrunch AI

엔터프라이즈 AI 시장의 격변, Anthropic과 OpenAI의 합작 투자와 SAP의 인수 소식

엔터프라이즈 AI 시장 선점을 위한 Anthropic, OpenAI의 합작 투자와 SAP의 Prior Labs 인수 등 주요 기업들의 공격적인 행보를 분석한다.

Wired AI

슈퍼인텔리전스 저자 닉 보스트롬, AI가 가져올 유토피아를 논하다

철학자 닉 보스트롬이 AI의 실존적 위험보다 인류의 수명 연장과 노동 해방이라는 긍정적 잠재력에 집중한 신작 Deep Utopia의 핵심 개념을 설명합니다.