2026년 3월 31일 AI 뉴스 아카이브

Vizuara

수식 없이 이해하는 확산 모델(DDPM)의 작동 원리

확산 모델(DDPM)은 이미지를 직접 그리는 대신 이미지에 섞인 노이즈를 제거하는 법을 학습하여 데이터 분포를 복원하는 생성 AI 기술이다.

r/LangChain Libraries

AI 에이전트가 며칠씩 혼자 일한다면? '지속적 거버넌스' 아키텍처 제안

장기 실행 AI 에이전트의 정체성 유지와 안전한 실행을 위해 인지(확률적)와 거버넌스(결정론적)를 분리한 4계층 모듈형 아키텍처를 제안한다.

LangChain

r/ClaudeAI

Claude Code 보안 강화: 데이터 유출 차단하는 Hard Deny 규칙 도입

Claude Code v2.1.136 업데이트를 통해 자율 에이전트의 보안 경계를 강화하고 데이터 유출 및 파괴적 작업을 제어하는 새로운 시스템 프롬프트 규칙이 도입되었다.

Hacker News - LLM

로컬 모델부터 Claude까지 하나로 제어하는 파워 유저용 LLM 앱 Meltdown

llama.cpp와 주요 LLM API를 지원하며 수백 개의 인자값과 명령어로 고도의 커스터마이징이 가능한 파이썬 기반 데스크톱 애플리케이션입니다.

시민개발자 구씨 Companies

ChatGPT 답변만 받으시나요? Codex로 PPT 제작·검수까지 끝내는 법

OpenAI Codex 앱을 활용하여 프로젝트 폴더 기반의 기준 문서를 세팅하고, PPT 제작부터 Computer Use 기능을 통한 최종 검수까지의 에이전틱 워크플로를 학습합니다.

OpenAI

r/artificial Inference

내 파일을 훔쳐보고 일기를 쓰는 자율형 데스크톱 AI 캐릭터

Ollama를 기반으로 로컬에서 구동되며 사용자의 화면과 파일을 인식해 자율적으로 행동하고 일기를 쓰는 데스크톱 AI 캐릭터 프로젝트이다.

Ollama

딥러닝논문읽기모임 Architecture Language Models

LLaMA3보다 2.5배 빠르다? Diffusion LLM의 반전 드라마 D2F

D2F는 Diffusion 모델의 병렬성과 AR 모델의 KV cache 효율성을 결합하여 기존 LLM보다 2.5배 빠른 추론 속도를 구현한 하이브리드 디코딩 기술이다.

KV cacheLLaMA3Qwen2.5

HF Community Blogs

DeepSeek Engram을 OLMo-core에 이식하여 분산 학습 성능 검증

DeepSeek의 Engram 메모리 레이어를 OLMo-core 프레임워크에 통합하여 4개의 NVIDIA A40 GPU 환경에서 분산 학습 가능성을 증명한 개념 실증(PoC) 프로젝트입니다.

Simon Willison

OpenAI 음성 AI의 비밀, WebRTC가 프롬프트를 누락시키는 이유

WebRTC 프로토콜의 지연 시간 우선 정책이 OpenAI의 실시간 음성 AI 서비스에서 오디오 데이터 손실과 프롬프트 정확도 저하를 유발한다.

r/ClaudeAI Language Models

Claude로 단 몇 시간 만에 만든 전 세계 UFO 목격 데이터 지도

미국 국방부의 공개 데이터를 활용해 Claude로 수 시간 만에 구축한 연도별 UFO 목격 위치 및 기상 정보 시각화 웹 도구이다.

Claude

Hacker News - LLM

LLM 평가 비용 낭비 끝, nexa-gauge의 캐시 기반 그래프 평가 엔진

nexa-gauge는 LLM 및 RAG 시스템의 출력 품질을 측정하기 위해 비용 추정, 캐싱, 구조화된 리포트를 제공하는 그래프 기반 파이썬 평가 툴킷입니다.

This Week's Tech

Anthropic의 1조 달러 도전과 Apple의 AI 이어폰 전략

Anthropic의 대규모 펀딩 계획, OpenAI 내부 갈등을 보여주는 텍스트 메시지 공개, 그리고 Apple의 카메라 탑재 AI AirPods 개발 소식을 다룹니다.

1littlecoder Companies Coding Agents

프롬프트 한 줄로 전문가급 모션 그래픽과 프로토타입을 만드는 Claude Design

Anthropic이 출시한 Claude Design을 활용하여 복잡한 코드 없이 프롬프트만으로 인터랙티브 프로토타입, 모션 그래픽, 프레젠테이션을 제작하는 방법을 소개합니다.

AnthropicClaude Code

HF Community Blogs

139GB 거대 모델 ZAYA1을 위한 멀티 GPU 패치 가이드

Zyphra의 ZAYA1-74B 모델을 멀티 GPU 환경에서 실행할 때 발생하는 6가지 장치 불일치 버그를 분석하고 코드 수정 방법을 제시합니다.

임커밋 Optimization

AI 모델 크기 획기적으로 줄이는 양자화 기술의 모든 것

TurboQuant의 핵심인 양자화 기법의 기본 원리와 비트 수에 따른 정밀도 변화 및 오차 발생 메커니즘을 시각적으로 분석한다.

TurboQuant

r/PromptEngineering Products

NotebookLM과 ChatGPT로 연봉 상승과 재택 근처 이직을 동시에 잡은 비결

IT 보안 전문가가 NotebookLM의 구조화된 프롬프트와 ChatGPT 면접 시뮬레이션을 활용해 원하는 조건으로 이직에 성공한 실무 사례이다.

ChatGPTNotebookLM

r/PromptEngineering Language Models MLOps

Suno 음악의 일관성 문제 해결을 위한 Claude 기반 멀티 에이전트 워크플로

Claude Opus 4.6과 n8n을 활용해 Suno의 음악적 일관성을 극대화하는 멀티 에이전트 프롬프트 자동화 파이프라인 Antigravity를 구축했다.

Claude Opus 4.6n8nSuno

r/LLMDevs

AI 에이전트들이 서로의 업무 성과를 평가하기 시작했다?

멀티 에이전트 시스템에 공유 메모리를 도입하자 에이전트들이 서로의 작업 방식을 비판하고 성능 리뷰를 남기는 현상이 관찰됐다.

r/artificial Libraries

코딩 AI가 자기가 짠 코드를 왜 자꾸 망칠까? 새로운 해결책 등장

코딩 에이전트가 작업 중 이전의 아키텍처 결정을 유지하고 일관성을 지키는지 측정하는 Continuity Benchmarks가 공개됐다.

LangChainLlamaIndex

HF Daily Papers

Apple, 희귀 토큰 학습 문제를 해결한 TIDE 아키텍처 공개

현대 LLM은 입력 단계에서만 토큰의 정체성을 확인하고 이후 레이어에서는 문맥 정보에만 의존하여, 자주 나오지 않는 희귀 토큰을 제대로 학습하지 못하거나 비슷한 문맥에서 토큰을 구분하지 못하는 한계가 있다. TIDE는 모든 레이어에 토큰 고유의 정보를 직접 주입하여 희귀 단어 처리 능력을 대폭 향상시키고 모델의 전반적인 성능을 개선한다.

HF Daily Papers Datasets Language Models

4B 소형 모델로 GPT-5.1을 압도하는 생물 의학 도구 호출 성능 달성

생물 의학 분야는 전문 데이터베이스 검색 없이는 정확한 답변이 불가능하지만, 기존 LLM은 이러한 도구 활용 능력이 부족하여 심각한 환각 현상을 겪는다. BioTool은 7,040개의 정교한 데이터셋을 통해 소형 오픈소스 모델도 전문적인 생물학 도구를 정확히 호출하여 전문가 수준의 답변을 생성할 수 있게 한다.

BioToolGPT-5.1

r/MachineLearning

수식으로만 보던 KL Divergence, 직접 조작하며 직관을 얻으세요

두 확률 분포 사이의 차이를 측정하는 KL Divergence의 작동 원리를 직접 파라미터를 조절하며 시각적으로 탐색할 수 있는 웹 도구가 공개됐다.

r/MachineLearning Vector DB MLOps

단순한 '액션' 태그는 지겹다? LLM으로 게임의 '바이브'를 추출하는 법

LLM을 사용하여 8만 개의 스팀 게임 리뷰에서 미세한 특징을 추출하고, 이를 벡터화하여 사용자에게 추천 이유를 설명해 주는 개인 맞춤형 추천 시스템을 구축했다.

Chroma DBDockerReact

Claude

Heavy Scaffolding은 끝났다, 모델 내부로 들어온 에이전트 핵심 기능

과거에 복잡한 외부 코드로 구현해야 했던 도구 사용, 컨텍스트 관리, 코드 실행 기능을 모델 내부 역량으로 통합하여 더 강력한 에이전트를 구축하는 방법을 다룹니다.

Modal

인프라 관리 없이 강화학습을 확장하는 법: Modal의 RL 아키텍처 실전 가이드

Modal의 서버리스 프리미티브를 활용하여 복잡한 강화학습 파이프라인의 안정성과 처리량을 극대화하고, 멀티 노드 학습 및 샌드박스 환경을 효율적으로 구축하는 방법을 제시합니다.

ClearML Blog

Kubernetes AI 인프라 보안의 완성: 제로 트러스트와 ClearML 통합 전략

Kubernetes 기반 AI 인프라에서 네트워크 세그멘테이션, mTLS, SSO 및 감사 로그를 통해 제로 트러스트 보안 모델을 구현하는 방법과 ClearML의 역할을 설명한다.

TechCrunch AI

Cloudflare 16년 만의 첫 대규모 해고, 원인은 AI로 인한 100배 생산성 향상?

Cloudflare가 AI 도입을 통한 비약적인 생산성 향상을 이유로 전체 인력의 20%인 1,100명을 감원하며 AI 시대의 새로운 기업 운영 모델을 제시했다.

Claude

Claude 에이전트가 잠자는 동안 학습한다? Dreaming으로 성능 6배 높이는 법

Anthropic의 Managed Agents API에 추가된 Memory와 Dreaming 기능을 통해 에이전트가 세션 간 지식을 공유하고 스스로 오류를 수정하며 성능을 최적화하는 아키텍처를 제시한다.

AI Engineer

CNN을 밀어낸 Transformer, 비전 AI의 패러다임 전환과 미래

컴퓨터 비전의 주류가 CNN에서 Transformer로 전환된 기술적 배경과 ViT, Swin, SAM 등 주요 모델의 진화 과정을 통해 확장성 중심의 비전 아키텍처를 분석한다.

Hugging Face Blog

AMD MI300X로 학습한 4B 보안 특화 모델, 8B 모델 성능을 뛰어넘다

AMD MI300X에서 학습된 CyberSecQwen-4B는 절반 크기로 8B급 보안 모델의 성능을 구현하며 민감한 보안 데이터의 로컬 처리를 가능하게 합니다.

r/LLMDevs Vector DB

단순 수집을 넘어 전략을 읽는 AI 시장 모니터링 에이전트

경쟁사의 개별 활동을 시간 순으로 연결하여 전략적 의도를 파악하는 메모리 계층 기반 시장 모니터링 에이전트 구축 사례이다.

Hindsight

Hugging Face Blog

전체 전문가의 12.5%만 사용해도 성능 유지? 새로운 MoE 모델 EMO 공개

문서 경계를 활용한 학습 제약으로 전문가들이 의미론적 도메인별로 군집화되어, 일부 전문가만으로도 높은 성능을 내는 모듈형 MoE 모델 EMO가 공개되었습니다.

The Verge AI

소니, 너티독·산타모니카 스튜디오에 AI 애니메이션 툴 도입

소니가 PlayStation 게임 개발 효율을 높이기 위해 AI를 도입하고, 너티독 등 주요 스튜디오에서 실제 애니메이션 공정에 활용 중임을 확인했다.

WorldofAI

NotebookLM에 자동화가 더해지면? Codex 연동으로 구축하는 AI 리서치 에이전트

OpenAI Codex의 Chrome 확장 프로그램을 통해 Google NotebookLM을 연동하고, 유튜브 영상 등 외부 소스를 자동으로 수집하여 이메일로 요약본을 발송하는 자동화 워크플로 구축 방법을 제시한다.

Techpresso

카메라 달린 에어팟? 애플의 새로운 시도와 OpenAI의 실시간 음성 혁신

애플이 시각 정보를 Siri에 전달하는 카메라 탑재 에어팟 생산을 준비 중이며, OpenAI는 추론과 번역 성능이 강화된 3종의 실시간 음성 모델을 출시했다.

TechCrunch AI

엔터프라이즈 AI 시장의 격변, Anthropic과 OpenAI의 합작 투자와 SAP의 인수 소식

엔터프라이즈 AI 시장 선점을 위한 Anthropic, OpenAI의 합작 투자와 SAP의 Prior Labs 인수 등 주요 기업들의 공격적인 행보를 분석한다.

The Verge AI

머스크 대 오픈AI 소송에서 밝혀진 MS의 초기 투자 비화

머스크와 오픈AI 간 소송 과정에서 공개된 법정 문서를 통해 마이크로소프트가 초기 투자 당시 오픈AI의 경쟁사 이탈과 평판 훼손을 우려했음이 드러났다.

Figure AI

Figure F.03 로봇 2대가 스스로 침대를 정리하는 놀라운 속도

Figure AI의 F.03 로봇 두 대가 2분 이내에 침실을 정리하고 침대 시트를 정돈하는 완전 자율 작업을 수행했다.

Wired AI

AI가 내 일자리를 뺏는다면? 캘리포니아의 파격적인 일자리 보장 계획

캘리포니아 주지사 후보 톰 스테이어가 AI로 인해 실직한 노동자들에게 공공 부문 일자리를 보장하고 이를 위해 빅테크에 토큰세를 부과하는 정책을 발표했다.

Wired AI

슈퍼인텔리전스 저자 닉 보스트롬, AI가 가져올 유토피아를 논하다

철학자 닉 보스트롬이 AI의 실존적 위험보다 인류의 수명 연장과 노동 해방이라는 긍정적 잠재력에 집중한 신작 Deep Utopia의 핵심 개념을 설명합니다.

Cohere

코딩 몰라도 교육용 AI 앱 만든다? Vibe Coding이 바꾸는 교육의 미래

교육 전문가 James Bedford 박사가 LLM을 활용해 기술적 배경 없이도 교육자가 직접 맞춤형 교육 도구를 제작하는 Vibe Coding의 개념과 실무 프레임워크를 소개합니다.

Databricks Blog

데이터 에이전트의 한계 돌파: Databricks Genie가 정확도를 90%까지 끌어올린 비결

Databricks는 특화 지식 검색, 병렬 사고, 멀티 LLM 설계를 통해 데이터 에이전트 Genie의 정확도를 기존 32%에서 90% 이상으로 향상시켰다.

r/ClaudeAI Language Models Inference

Claude 에이전트 운영에 비싼 GPU 서버가 필요 없는 이유

API 기반 Claude 에이전트는 고성능 GPU 없이 저사양 VPS만으로도 충분히 운영 가능하다는 실무 경험 공유이다.

ClaudeOllamaQdrant

r/ClaudeAI Coding Agents Agents

포켓몬 잡듯 코딩 에이전트를 관리한다? 오픈소스 Pokegents 공개

여러 코딩 에이전트 세션을 포켓몬 테마의 대시보드에서 통합 관리하고 MCP 메시징으로 협업시키는 오픈소스 워크스페이스 Pokegents가 출시됐다.

Claude CodeMCP

r/ClaudeAI Prompting

사용자에게 무조건 동조하는 AI는 이제 그만, Epistemic Calibration Protocol 공개

사용자의 편향된 프레임에 동조하는 AI의 아첨 현상을 방지하기 위해 논리와 증거 기반의 인식론적 교정 프로토콜이 오픈소스로 공개됐다.

Epistemic Calibration Protocol

r/ClaudeAI Coding Agents Vector DB

에이전트의 DB 삭제 사고를 막는 4가지 핵심 파일과 안전 장치

Claude Code 에이전트가 프로덕션 DB를 안전하게 다룰 수 있도록 정교한 메모리 구조와 다중 검증 워크플로를 구축한 실무 사례이다.

Claude CodeConvex

r/ClaudeAI Coding Agents Dev Tools

AI가 직접 관리하는 문서화 시스템, 컨텍스트 드리프트 해결할까?

AI 에이전트가 코드 변경과 문서 동기화를 동시에 수행하며 프로젝트의 의도와 기억을 유지하는 'Living Docs' 프레임워크가 제안됐다.

AiderClaude CodeCursor

HF Daily Papers Language Models

대학 수준 STEM 과제 채점, MLLM의 숨겨진 인식 오류가 성적을 바꾼다

멀티모달 모델이 교육 현장에 도입되고 있지만, 복잡한 수식과 회로도가 섞인 대학 수준 STEM 과제를 정확히 이해하는지 검증하는 벤치마크는 부족했다. 이 논문은 실제 학생들의 손글씨 데이터를 통해 모델의 인식 실패가 채점 결과에 미치는 연쇄적 영향을 분석하고, 인간 개입을 최소화하면서도 정확도를 높이는 해결책을 제시한다.

GPT-5.1

HF Daily Papers

ENERGYFLOW: 확산 모델에서 보상 신호를 직접 추출하여 로봇 학습 성능 극대화

기존의 확산 기반 로봇 제어 방식은 전문가의 행동을 단순히 흉내 내는 데 그쳐 새로운 환경에 적응하는 능력이 부족했습니다. 이 논문은 확산 모델 내부에 숨겨진 보상 체계를 수학적으로 증명하고 추출함으로써, 로봇이 단순 모방을 넘어 스스로 학습하고 낯선 상황에서도 더 똑똑하게 대처할 수 있는 길을 열었습니다.

HF Daily Papers

양자 화학 계산의 효율성 혁명, 파라미터 66% 줄이고 속도는 높였다

양자 컴퓨터를 이용한 분자 에너지 계산 시 발생하는 막대한 연산 비용 문제를 해결하기 위해 고안됐다. 기존의 거대한 인공지능 모델 구조를 효율적인 수학적 함수 형태로 대체하여, 훨씬 적은 메모리와 계산량으로도 정밀한 화학적 정확도를 달성할 수 있음을 입증했다.

HF Daily Papers Safety

정답지 없는 노르웨이어 LLM 안전성 평가, SimpleAudit으로 해결

특정 국가의 언어나 전문 분야처럼 기존 안전성 벤치마크가 없는 환경에서 LLM을 도입해야 하는 실무자들에게 필수적인 평가 방법론을 제시한다. 정답 레이블 없이도 통계적 검증 체인을 통해 모델 간의 안전성을 신뢰할 수 있는 수치로 비교할 수 있게 해준다.

PetriSimpleAudit

HF Daily Papers

비디오 배경 교체 품질 28% 향상 및 14만 쌍의 대규모 데이터셋 Sparkle 공개

기존 비디오 편집 모델은 배경 교체 시 정적인 결과물을 생성하거나 전경 객체의 구조가 무너지는 한계가 있었다. 이 논문은 전경과 배경의 가이드를 분리하여 처리하는 새로운 데이터 생성 파이프라인을 통해 실제 영화 제작 수준의 역동적이고 자연스러운 배경 합성을 가능하게 한다.

HF Daily Papers

25만 개의 피아노 연주와 악보를 정밀하게 정렬한 역대 최대 MIDI 데이터셋

기존 피아노 MIDI 데이터셋은 작곡가 범위가 좁거나 악보와 연주 간의 음표 단위 정렬이 부족해 고품질 연주 모델 학습에 한계가 있었다. PianoCoRe는 2만 시간 이상의 방대한 연주 데이터를 통합하고 정밀한 정렬 알고리즘을 적용해 차세대 음악 생성 및 분석 연구를 위한 표준 기반을 제공한다.

HF Daily Papers

DeScore: 추론과 점수 산출을 분리해 비디오 평가 정확도 18% 향상

기존 비디오 리워드 모델은 복잡한 동작을 논리적으로 분석하지 못하거나 학습 과정이 불안정한 문제가 있었다. 이 논문은 사고 과정(CoT)과 실제 점수 산출을 분리하는 DeScore 구조를 통해 학습 효율을 76% 높이면서도 인간의 선호도를 더 정확하게 예측하는 방법을 제시한다.

HF Daily Papers

7,402개 모델 학습으로 밝혀낸 멀티모달 AI의 도메인 일반화 한계

멀티모달 학습이 도메인 변화에 강인하다는 통념과 달리, 실제로는 일관되지 않은 평가 프로토콜로 인해 성능이 과대평가되었을 가능성을 제기합니다. MMDG-Bench라는 표준화된 벤치마크를 통해 기존 특화 알고리즘들이 단순한 ERM 베이스라인보다 큰 우위를 점하지 못하고 있음을 실증적으로 보여주며 연구 방향의 전환을 촉구합니다.

HF Daily Papers

GRPO 학습 불안정성 해결, Balanced Aggregation으로 성능 극대화

DeepSeek-R1 등에서 사용되는 GRPO 알고리즘의 토큰 집계 방식이 모델 성능과 학습 안정성에 미치는 영향을 분석했습니다. 기존 방식들이 가진 길이 편향 문제를 해결하는 Balanced Aggregation 기법을 통해 추론 및 코딩 작업에서 더 안정적이고 높은 성능을 달성할 수 있음을 입증했습니다.

HF Daily Papers

모델 깊이만 늘려도 중간 과정 없이 복잡한 논리 추론 가능해진다

기존 AI 모델은 복잡한 문제를 풀 때 단계별로 생각하는 Chain-of-Thought 과정이 필수적이었으나, 이 논문은 모델의 깊이를 충분히 확보하고 적절한 학습 기법을 적용하면 중간 과정 없이도 높은 수준의 추론이 가능함을 입증했다. 이는 AI의 내부 사고 과정을 효율화하고 추론 속도를 획기적으로 개선할 수 있는 이론적 토대를 제공한다.

HF Daily Papers Libraries

LLM이 짠 GPU 커널, 46.6%가 기본 코드보다 느리다

LLM을 이용한 GPU 커널 자동 생성 연구가 활발하지만, 생성된 코드의 실제 성능과 신뢰성에 대한 검증은 부족했다. 이 논문은 176개의 과제를 통해 LLM이 생성한 커널이 컴파일에는 성공하더라도 실제 하드웨어 효율성이 낮거나 수치적 오류를 범하는 지점을 정확히 짚어내어 향후 연구 방향을 제시한다.

Triton

HF Daily Papers Benchmarks

데이터 부족 시대의 해법: 과적합을 예측하는 새로운 스케일링 법칙

고품질 데이터의 공급이 컴퓨팅 파워의 성장 속도를 따라가지 못하는 데이터 부족 문제를 해결하기 위한 새로운 가이드라인을 제시한다. 기존 Chinchilla 법칙이 간과했던 데이터 반복 학습 시의 과적합 비용을 수학적으로 모델링하여, 한정된 데이터로 최상의 성능을 내는 모델 크기와 학습 횟수를 정확히 예측할 수 있게 한다.

Chinchilla Scaling Law

HF Daily Papers Optimization Language Models

LLM 내부에는 '개인'과 '국가'를 구분하는 기하학적 축이 존재한다

LLM이 사회적 역할을 수행할 때 단순히 텍스트 스타일을 흉내 내는 것이 아니라, 내부 표현 공간에서 '개인적 관점'과 '제도적 관점'을 명확히 구분하는 기하학적 축을 가지고 있음을 발견했다. 이 축을 조절함으로써 모델의 답변을 더 거시적이거나 미시적인 관점으로 자유롭게 유도할 수 있어, 보다 정교한 사회 시뮬레이션과 에이전트 설계가 가능해진다.

Activation SteeringLlama-3.1-8B-InstructQwen3-8B

HF Daily Papers

RemoteZero: 정답 좌표 없이도 지리공간 추론 성능 3.18% 향상

원격 탐사 데이터 분석에서 가장 큰 병목 현상인 수작업 좌표 라벨링 문제를 해결합니다. 모델이 스스로 생성한 결과를 검증하고 학습하는 자기 진화 메커니즘을 통해 방대한 양의 미라벨링 위성 영상을 학습 데이터로 활용할 수 있는 길을 열었습니다.

HF Daily Papers

구글 딥마인드, FrontierMath 48% 달성한 AI 공동 수학자 공개

기존 AI가 단발적인 문제 풀이에 집중했다면, 이 논문은 수학자의 실제 연구 흐름인 가설 설정, 문헌 조사, 계산 실험을 통합적으로 지원하는 에이전트 시스템을 제안합니다. 특히 고난도 수학 벤치마크인 FrontierMath Tier 4에서 48%의 정답률을 기록하며 AI의 수학적 탐구 능력을 새로운 차원으로 끌어올렸습니다.

HF Daily Papers

2K 고해상도 비디오 생성 비용 202배 절감, RTX 4090에서도 가능

고해상도 이미지-비디오(I2V) 생성은 막대한 연산 비용과 입력 이미지의 세부 사항 유지라는 두 가지 난제를 안고 있다. SwiftI2V는 움직임과 세부 묘사를 분리한 2단계 접근법과 세그먼트 단위 생성 기법을 통해 기존 SOTA 모델 대비 GPU 시간을 202배 단축하면서도 2K 해상도의 고품질 비디오를 생성한다. 이는 고성능 데이터센터 GPU뿐만 아니라 일반 소비자용 GPU에서도 전문적인 영상 제작이 가능함을 시사한다.

HF Daily Papers

표 형식 데이터도 LLM처럼 하나로 통한다: TabEmbed의 혁신

기존의 표 형식 데이터 처리는 분류와 검색을 위해 각각 별도의 모델이 필요했으나, TabEmbed는 이를 하나의 공통 임베딩 공간으로 통합했다. 이는 RAG 시스템이나 대규모 데이터베이스에서 표 데이터를 텍스트처럼 자유롭고 정확하게 검색하고 분석할 수 있게 해준다.

HF Daily Papers

자율주행 AI의 판단 오류를 스스로 수정하여 성능 1.9 PDMS 향상

기존의 모방 학습 기반 자율주행 모델은 전문가 데이터를 단순히 따라 하느라 예기치 못한 상황에서 발생하는 오류를 스스로 수정하지 못하는 한계가 있었다. ReflectDrive-2는 별도의 네트워크 없이도 주행 계획을 스스로 검토하고 수정하는 AutoEdit 메커니즘을 도입하여 안전성과 주행 효율을 동시에 개선했다.

HF Daily Papers Language Models Architecture

MoE 전문가 공유로 파라미터 40% 절감하고 성능은 더 높였다

기존 MoE 모델이 레이어마다 별도의 전문가를 두어 파라미터가 낭비되던 문제를 전역 공유 풀(Global Shared Pool) 구조로 해결했다. 이를 통해 전문가 파라미터 수를 최대 60%까지 줄이면서도 기존 방식보다 더 낮은 손실값과 높은 정확도를 달성할 수 있음을 입증했다.

LLaMAMoEUniPool

HF Daily Papers

RL 학습 효율, 논리적 표현력에 따라 멱법칙으로 결정된다

LLM이 복잡한 다단계 추론에서 겪는 한계를 해결하기 위해 학습 데이터의 논리적 복잡도와 강화학습 효율 사이의 상관관계를 규명했다. 단순한 반복 학습보다 데이터의 논리적 표현력이 모델의 추론 능력 전이에 더 결정적인 역할을 한다는 사실을 입증하여 효율적인 사후 학습 방향을 제시한다.

HF Daily Papers

외부 평가 모델 없이 에이전트 성능을 멀티홉 QA에서 +1.75점 향상

멀티턴 에이전트 학습 시 각 도구 호출의 가치를 정확히 평가하기 어려웠던 문제를 외부 모델 없이 해결했다. 정보 이득(Information Gain) 신호를 턴 위치별로 정규화하고 업데이트 강도를 조절하여 학습 안정성과 성능을 동시에 확보했다.

HF Daily Papers

AI 에이전트가 스스로 코드를 수정하며 모델 학습 성능을 최대 38.7% 향상

사람의 개입 없이 AI 에이전트가 스스로 가설을 세우고 코드를 수정하며 실험 결과로부터 배우는 폐쇄 루프 연구 시스템을 구현했다. 단순한 하이퍼파라미터 튜닝을 넘어 아키텍처와 시스템 최적화까지 수행하여 실제 학습 효율을 크게 개선할 수 있음을 입증했다.

HF Daily Papers Training Agents

전략적 추상화로 LLM 에이전트의 긴 작업 성공률 93.1% 달성

기존 LLM 에이전트는 매 순간 즉흥적으로 행동을 결정하는 반응형 방식에 의존하여 긴 작업에서 일관성을 잃기 쉬웠다. 이 논문은 고수준 전략을 먼저 세우고 이를 따르게 하는 StraTA 프레임워크를 통해 복잡한 과학 실험 및 웹 탐색 작업에서 성능을 획기적으로 개선했다.

GRPOStraTA

HF Daily Papers Video Gen

시청각 지능의 모든 것: 2026년까지의 AVI 기술 로드맵 총정리

인간의 지각은 본질적으로 시각과 청각이 결합된 형태이며, 진정한 AI 구현을 위해서는 이 두 양식의 통합이 필수적입니다. 이 논문은 파편화되어 있던 시청각 지능(AVI) 연구를 하나의 체계적인 프레임워크로 통합하여, 향후 멀티모달 모델이 나아가야 할 방향과 기술적 토대를 제시합니다.

Veo-3

HF Daily Papers Training

Lorem Ipsum이 LLM의 수학 추론 능력을 높인다? LOPE 프롬프트 기법 공개

강화학습 중 모델이 어려운 문제에 대해 정답을 전혀 찾지 못해 학습이 중단되는 제로 어드밴티지 문제를 해결한다. 의미 없는 라틴어 문구(Lorem Ipsum)를 프롬프트 앞에 붙이는 것만으로도 모델의 사고 경로를 다각화하여 정답 발견 확률을 높일 수 있음을 입증했다.

GRPOLOPE

HF Daily Papers

단 4단계로 고해상도 이미지 생성, CDM으로 디테일과 속도 모두 잡았다

기존의 확산 모델 증류 방식은 고정된 이산적 시간 단계에 의존하여 이미지의 세부 사항이 뭉개지거나 아티팩트가 발생하는 한계가 있었다. 이 논문은 분포 매칭 증류를 연속 시간 영역으로 확장하여, 추가적인 GAN이나 보상 모델 없이도 단 몇 번의 추론만으로 고품질의 이미지를 생성할 수 있는 새로운 패러다임을 제시한다.

HF Daily Papers

로봇의 상상과 현실을 비교해 추론 횟수 69% 절감 및 성공률 35% 향상

기존 로봇 제어 모델은 정해진 횟수만큼 행동을 맹목적으로 실행하여 환경 변화에 취약하거나 불필요한 연산을 반복하는 한계가 있었다. 이 논문은 로봇이 자신의 예측(상상)과 실제 관측값을 실시간으로 비교하여 실행 길이를 조절하는 방식을 제안해 효율성과 안정성을 동시에 확보했다.

HF Daily Papers

SemEval-2026 멀티턴 RAG 대회 1위, 앙상블과 GPT-4o 판사로 성능 극대화

멀티턴 대화 환경에서의 RAG는 이전 대화 맥락과 검색된 정보를 동시에 고려해야 하므로 단일 턴보다 훨씬 복잡하다. 이 논문은 서로 다른 특성을 가진 여러 모델을 결합하고 경량 모델을 판사로 활용하여 정답이 없는 질문에 대한 거절 능력과 답변의 충실도를 획기적으로 높이는 실전적인 방법론을 제시한다.

HF Daily Papers

벡터 검색 없이 터미널 도구만으로 에이전트 검색 성능 30% 향상

기존의 벡터 검색 방식은 정보를 압축하는 과정에서 세부적인 맥락을 손실하여 복잡한 추론이 필요한 에이전트 작업에 병목 현상을 일으킵니다. 이 논문은 에이전트가 직접 터미널 도구를 사용하여 원본 데이터를 탐색하게 함으로써 검색의 정밀도를 높이고 비용을 절감하는 새로운 패러다임을 제시합니다.

The AI Grid Companies

OpenAI의 독주가 끝났다? Anthropic이 기업용 AI 시장을 장악한 비결

Anthropic이 강력한 코딩 성능, 빠른 제품 출시 속도, 그리고 윤리적 브랜드 이미지를 바탕으로 기업용 AI 시장에서 OpenAI를 추월하고 있는 현상을 분석한다.

AnthropicOpenAI

Hacker News - LLM

내 AI 에이전트 스킬은 정말 '좋은'가? LLM으로 객관적 품질 측정하기

AI 에이전트 스킬의 품질을 명확성, 실행 가능성, 토큰 효율성 등 6가지 차원에서 LLM-as-judge 기법으로 정량화하고 개선하는 방법론을 제시합니다.

Simon Willison Companies Coding Agents

LLM에게 마크다운 대신 HTML을 요청해야 하는 이유: 더 풍부한 시각화와 인터랙티브한 설명

LLM 출력 형식을 마크다운에서 HTML로 전환하여 SVG 다이어그램, 인터랙티브 위젯 등 더 풍부하고 이해하기 쉬운 기술 설명을 생성하는 방법과 사례를 제시한다.

AnthropicClaude CodeGPT-5.5

r/PromptEngineering Language Models Coding Agents

Claude가 대본 쓰고 코딩까지? 24시간 무중단 AI 라디오 방송국 등장

Claude Code와 Kokoro TTS를 활용해 5명의 AI 호스트가 실시간으로 대본을 쓰고 방송하는 24시간 라디오 스테이션을 구축했다.

ClaudeClaude CodeKokoro

Ars Technica AI Companies

소니가 예측하는 게임의 미래: AI로 개발 장벽 낮추고 출시량 늘린다

소니 인터랙티브 엔터테인먼트 CEO 히데아키 니시노는 AI 개발 도구가 제작 장벽을 낮추어 게임 출시 속도와 콘텐츠 다양성을 크게 증대시킬 것이라고 밝혔다.

Sony

r/ClaudeAI Language Models Agents

Claude의 부족한 메모리 해결을 위해 직접 만든 MCP 배포 플랫폼 KitStack

Claude의 비정형 메모리 한계를 극복하기 위해 MCP 기반의 구조화된 데이터 관리 앱을 쉽게 구축하고 배포할 수 있는 플랫폼 KitStack이 공개됐다.

ClaudeMCP

r/ClaudeAI Products Coding Agents

AI가 가구 설계도 할 수 있을까? 3대 모델 3D 모델링 실전 비교

사용자가 주방 수납장 설계 복제 작업을 통해 Claude, ChatGPT, Gemini의 파라메트릭 모델링 및 설계 정확도를 비교 분석했다.

ChatGPTGemini CLI

r/ClaudeAI Coding Agents

Claude Code 효율을 극대화할 4가지 무료 AI 코딩 도구

Claude Code의 프롬프트 최적화, 튜토리얼 생성, 버그 패턴 탐지 및 잠재적 오류 감사를 수행하는 4가지 Apache 2.0 기반 AI 스킬이 공개됐다.

Claude Code

r/ClaudeAI Coding Agents

Claude Code 성능 극대화 비결은? Nelson 스킬과 벤치마크 공개

Claude Code를 위한 멀티 에이전트 조정 도구 Nelson의 출시와 함께 13개 모델/도구 조합의 시뮬레이션 성능 벤치마크 결과가 공개됐다.

Claude Code

r/artificial Language Models Companies

규제보다 진흥? 아시아 10개국의 독특한 AI 국가 전략 총정리

아시아 주요 국가들이 서구권의 규제 중심 모델과 달리 인프라 구축과 인센티브 중심의 진흥 정책을 통해 AI 주권을 확보하려는 흐름이 확인됐다.

DeepSeekHugging FaceQwen

Claude Dev Tools

Cursor는 어떻게 에이전트가 스스로 PR을 만들고 테스트하게 만들었나

Cursor 팀이 코딩 에이전트에게 독립된 가상 머신을 제공하여 자율적인 코드 실행, 브라우징, 테스트 및 병렬 PR 생성을 가능하게 만든 기술적 여정과 원칙을 공유한다.

Cursor

Claude Companies

Replit이 공개한 AI 에이전트 성능 평가의 비밀: ViBench

Replit의 AI 책임자가 실제 프로덕션 환경에서 AI 에이전트의 성능을 예측하고 개선하기 위해 구축한 새로운 벤치마크 ViBench와 온/오프라인 평가 루프 시스템을 소개한다.

AnthropicReplit

Claude

Claude Code와 Google Cloud로 30분 만에 풀스택 앱 배포하기

Claude Code와 Google Cloud 인프라를 결합하여 기획부터 디자인, 백엔드 구축, 보안 검토 및 배포까지 전체 소프트웨어 개발 생명주기를 30분 만에 완료하는 실전 데모이다.

Claude

Claude가 더 깊게 생각하게 만드는 법: Anthropic의 새로운 노력 제어 가이드

Anthropic의 Matt Bleifer가 Claude의 추론 성능을 최적화하기 위한 적응형 사고, 노력 수준 설정 및 예산 관리 전략을 소개합니다.

Claude Companies Coding Agents

Claude Code 팀이 밝히는 AI 네이티브 조직의 5가지 변화

Anthropic의 Claude Code 팀이 코딩 에이전트 도입 후 변화된 엔지니어링 병목 지점과 이를 해결하기 위해 재정립한 조직 운영 원칙을 공유한다.

AnthropicClaude Code

Claude Products Language Models

Asana가 Claude Managed Agents로 구현한 차세대 AI 협업 워크플로

Asana가 Anthropic의 Claude Managed Agents를 활용하여 기업 내 복잡한 다단계 업무를 자율적으로 수행하는 AI Teammates를 구축한 사례와 비전을 제시합니다.

AsanaClaude

r/deeplearning Companies Libraries

Anthropic의 해석 기술을 내 모델에? LLM 출력을 직접 조종하는 오픈소스 도구

Anthropic의 기계적 해석 가능성 연구를 기반으로 LLM의 특정 특징 활성화를 조절하여 출력을 제어하는 오픈소스 라이브러리 drrik이 공개됐다.

AnthropicTransformerLens

r/artificial

RAG 검색 정확도 향상시키는 새로운 CFS 기법과 벤치마크 결과

이미 선택된 영역에 페널티를 부여해 중복을 줄이고 검색 품질을 높이는 CFS 기법이 기존 방식 대비 높은 성능을 기록했다.

Databricks Companies

금융 AI의 승패는 모델이 아니라 '데이터 맥락'에서 결정된다

금융 서비스에서 AI의 성공은 범용 모델 선택이 아닌, 기업 고유의 독점적 데이터와 맥락을 안전하게 결합하여 에이전트 시스템을 구축하는 데 달려 있다.

Databricks

HF Community Blogs

JFrog Artifactory로 Hugging Face 모델 관리하기: 429 에러 해결과 2026년 필수 마이그레이션 가이드

엔터프라이즈 환경에서 JFrog Artifactory를 Hugging Face 프록시로 사용할 때 발생하는 속도 제한, 스토리지 비효율성 문제와 2026년 6월 예정된 필수 레이아웃 마이그레이션 대응 방안을 제시합니다.

Reinforcement Learning Libraries Training

강화학습 환경에 메모리와 반성 기능을? CogniCore 프레임워크 공개

메모리, 반성, 8개 성분 보상 체계 등 인지 기능을 환경 수준에서 제공하는 의존성 없는 순수 파이썬 강화학습 프레임워크 CogniCore가 공개됐다.

CogniCoreGymnasiumQ-Learning

OpenAI Companies

OpenAI Codex, 이제 Chrome 확장 프로그램으로 브라우저 업무 자동화

OpenAI가 브라우저 내에서 자율적으로 작업을 수행하고 병렬 탭 처리가 가능한 Codex용 Chrome 확장 프로그램을 출시했다.

OpenAI

r/LLMDevs Libraries

LLM 에이전트의 무의미한 반복을 잡아내는 실행 분석 엔진 X-Ray

X-Ray는 멀티스텝 LLM 워크플로의 실행 구조와 유효성을 결정론적으로 분석하여 반복이나 중복 구간을 식별하는 엔진이다.

CrewAILangChain

Claude

내 컴퓨터 파일을 직접 수정하는 AI, Claude Cowork 활용법

Claude Cowork를 사용하여 로컬 파일 시스템 및 클라우드 서비스와 연동하고 AI가 직접 작업을 수행하도록 위임하는 방법을 소개합니다.