2026년 5월 17일 AI 뉴스

총 34건

HF Daily Papers Architecture Benchmarks1달 전

장편 시네마틱 리메이크에서 캐릭터 일관성과 내러티브를 지키는 다중 에이전트 프레임워크

장편 영상은 수백에서 수천 샷에 걸친 긴 시퀀스로, 샷 간 아이덴티티 drift와 배경 변화로 인한 일관성 손실이 누적되기 쉽다. Soap2Soap은 Dual-Bridge Consistency로 언어-시각 간 상호작용을 안정화하고, grid-based keyframe 생성 및 검증 루프를 통해 수백 샷 규모의 리메이크에서도 캐릭터 식별과 내러티브를 유지한다.

Soap2Soap SoapBench

HF Daily Papers Benchmarks1달 전

장기간 엔터프라이즈 SaaS 개발에서 에이전트의 한계를 드러낸 벤치마크

LLM 기반 코딩 에이전트의 역량은 단일 파일의 코드 생성이 아닌, 프런트/백엔드·데이터베이스·권한·배포 등 다중 컴포넌트의 협업을 필요로 한다. 기존 벤치마크는 실세계 엔터프라이즈 SaaS의 시스템-수준 복잡성이나 다중 기술 스택 간의 상호작용을 충분히 포착하지 못한다. SaaSBench는 30개 태스크, 6개 도메인, 5,370개 검증 노드로 이러한 시스템-수준 도전을 구체적으로 평가하고, 의존성-기반의 하이브리드 평가 파이프라인으로 재현성 있는 측정을 가능하게 한다.

SaaSBench

The AI Daily Brief1달 전

최첨단 AI 접근권이 소수에게만 제한되는 이유

경제적 비용과 보안 우려로 인해 최첨단 AI 모델에 대한 접근이 점차 제한되고 불평등해지는 현상을 분석한다.

The Verge AI Companies1달 전

패스트푸드 드라이브스루의 AI 도입, 고객 만족도와 기술적 한계는?

패스트푸드 업계가 드라이브스루에 AI 챗봇을 도입했으나, 낮은 고객 선호도와 기술적 신뢰성 문제로 인해 운영 방식을 재평가하고 있다.

McDonald's Wendy's

IBM Technology Companies1달 전

AI 에이전트가 레거시 시스템과 만날 때 발생하는 보안 리스크와 해결책

AI 에이전트가 레거시 시스템과 상호작용할 때 발생하는 ID, 컨텍스트, 위임 문제를 해결하기 위한 보안 아키텍처 전략을 제시한다.

IBM

개발동생1달 전

웹 서핑과 논문 읽기가 편해지는 실시간 이중 언어 번역 도구

웹 브라우저와 PDF, 영상 자막을 실시간으로 이중 언어 번역하여 언어 장벽을 낮추는 확장 프로그램 활용법.

r/MachineLearning Optimization1달 전

3,325달러 내면 NeurIPS 논문 등재? 고등학생 대상 연구 프로그램의 실체

고등학생을 대상으로 비용을 받고 NeurIPS 워크숍 논문 등재를 보장하는 Algoverse AI Research의 학술적 부실함과 윤리적 문제를 고발하는 게시물.

Task Arithmetic TIES Merging

r/reinforcementlearning1달 전

Noisy Nets를 사용한 에이전트 평가, 왜 결정론적 방식이 항상 정답은 아닐까?

Rainbow DQN 학습 시 Noisy Nets의 sigma 값이 정책의 필수 요소로 작동하여, 결정론적 평가보다 확률적 평가가 실제 성능을 더 정확히 반영함을 확인했다.

r/ClaudeAI1달 전

AI 코딩의 한계 극복: 브라우저 확장 프로그램 포팅 성공 전략

AI 프롬프트에만 의존한 포팅 실패를 겪은 후, BrowserShell 인터페이스와 Humble Object 패턴을 도입하여 코드 구조를 개선함으로써 성공적인 포팅을 달성함.

r/ClaudeAI Benchmarks1달 전

Claude 3 Opus로 15분 만에 9개 페이지 프론트엔드 성능 최적화 완료

Claude 3 Opus에 성능 최적화 플레이북을 제공하여 9개 페이지의 41개 파일을 15분 만에 자동 수정하고 완벽한 Lighthouse 점수를 달성함.

Lighthouse

Hacker News - LLM Libraries1달 전

애플리케이션 코드가 아닌 데이터베이스 스키마로 에이전트 간 정보 격리 구현하기

DuckDB-WASM을 활용해 에이전트별로 독립적인 데이터베이스를 구축하고, SQL 스키마와 토큰 기반 권한 제어로 에이전트 간 정보 비대칭을 강제하는 아키텍처.

DuckDB

r/deeplearning1달 전

웹 검색이나 이메일로 에이전트가 해킹당한다면? Arc Gate로 프롬프트 인젝션 방어하기

외부 데이터 소스에서 유입되는 악성 명령을 차단하여 AI 에이전트의 프롬프트 인젝션을 방어하는 Arc Gate 솔루션.

r/AutoGPT1달 전

여러 AI 에이전트가 내 코드를 망치나요? 에이전트 전용 워크플로 관리 도구 Forge

AI 코딩 에이전트가 리포지토리를 직접 수정하지 않고 격리된 환경에서 작업하도록 제어하며, CI 검증과 리뷰 단계를 강제하는 워크플로 관리 도구 Forge를 소개한다.

r/LLMDevs1달 전

소형 LLM으로 유효한 코드를 생성하는 방법: Lisp과 AST 활용

Gemma 4b 모델을 사용하여 JSON AST 기반의 유효한 Clojure 코드를 생성하는 llmisp 프로젝트를 소개한다.

개발동생 Coding Agents Architecture1달 전

AI 코딩 에이전트의 반복 작업을 자동화하는 '하네스' 설계법

AI 코딩 에이전트 Codex를 활용해 일관된 작업 방식을 고정하고, 하네스 구조를 통해 개발 워크플로를 자동화하는 실전 엔지니어링 방법론.

Codex MCP

The AI Grid1달 전

코딩 없이 비즈니스 자동화, 소상공인을 위한 AI 도구 10선

소상공인이 업무 효율을 높이고 비즈니스를 자동화할 수 있는 10가지 AI 도구의 실무 활용법을 소개한다.

Hacker News - LLM Products1달 전

LLM은 왜 관리자가 아닌 개인 작업자로만 행동할까? 멀티 에이전트의 한계

현재 LLM은 멀티 에이전트 오케스트레이션보다 단일 작업 수행에 최적화되어 있어, 계층적 구조 관리 시 주도권을 뺏거나 병합 오류를 일으키는 한계가 있다.

Claude Swarms

AI Engineer Coding Agents Architecture1달 전

LLM이 짠 테스트가 실패하는 이유? TDD로 해결하는 실전 가이드

LLM이 작성한 테스트의 한계를 극복하기 위해 Playwright와 MCP를 활용한 테스트 주도 개발(TDD) 방식을 제안한다.

GitHub Copilot MCP

AI Engineer1달 전

AI 회의록 품질을 결정짓는 3가지 워크플로 설계 패턴

AI 회의록 제품에서 인간의 개입 수준에 따른 Oracle, Evaluator, Architect 세 가지 워크플로 패턴과 그 적용 전략을 다룬다.

Interconnects (Nathan Lambert)1달 전

오픈 모델과 폐쇄형 모델의 성능 격차, 과연 벤치마크가 진실을 말할까?

최근 다양한 오픈 모델이 출시되는 가운데, CAISI의 평가 방식과 실제 모델 성능 간의 괴리에 대한 분석을 다룬다.

Techpresso Products Companies1달 전

OpenAI의 개인 금융 서비스 출시와 AI 업계 주요 동향

OpenAI가 ChatGPT에 개인 금융 관리 기능을 도입하고, SpaceX IPO 및 AI 관련 학술 논문들의 주요 연구 결과가 발표됐다.

ChatGPT OpenAI

HF Daily Papers Prompting Benchmarks1달 전

실시간 듀플렉스 평가를 위한 최초의 옴니모달 벤치마크—660비디오와 자동 평가

현대의 멀티모달 대형언어모델은 대부분 오프라인 설정에서 평가되어 실시간으로 입력이 진행되는 맥락에서의 반응과 타이밍을 검증하기 어렵다. Omni-DuplexEval은 Real-Time Description과 Proactive Reminder의 두 시나리오를 통해 비디오 스트리밍이 진화하는 과정에서 모델이 지속적으로 응답하고, 언제 응답할지 결정하며, 응답 내용을 일관되게 제시하는 능력을 함께 평가한다. 현재 모델은 사람과 비교해 응답 타이밍과 내용의 전반적 일관성에서 큰 격차를 보이며, 실세계의 대화형 에이전트로서의 신뢰성 향상을 위해선 타이밍 판단과 내용 생성의 균형이 필요하다고 분석된다.

LLM-as-judge Omni-DuplexEval

HF Daily Papers Language Models Architecture1달 전

Weight Drift로 촉발된 활성화 sparsity와 스파이크를 실험적으로 규명하는 연구

손실 함수와 활성화 함수의 상호작용으로 가중치 드리프트가 발생하고 이로 인해 활성화가 희소해지며, 트랜스포머 계열에서도 예측 품질과 연산 효율성 간의 트레이드오프를 형성한다. 초기 학습 단계의 dynamics가 모델 성능에 큰 영향을 미치고, non-centering normalization이 이 현상을 어떻게 강화하는지 규명한다.

nanoGPT Transformer

Techpresso Companies Coding Agents1달 전

Adobe가 공개한 에이전트형 AI, 창작 워크플로를 어떻게 바꿀까?

Adobe가 Creative Cloud 앱 전반을 제어하는 에이전트형 AI 'Firefly AI Assistant'를 공개하고 Claude와의 연동을 시작했다.

Adobe Claude

r/ClaudeAI1달 전

Anthropic의 멀티 에이전트 아키텍처로 3시간 만에 완성한 웹사이트

Anthropic의 Generator-Evaluator 멀티 에이전트 아키텍처를 활용하여 12번의 반복 루프를 통해 코딩 없이 웹사이트를 생성한 사례.

r/ClaudeAI1달 전

SWE 경험 없이 Claude Code만으로 실시간 멀티플레이어 게임을 만든 방법

최근 대학 졸업자가 Claude Code를 사용하여 실시간 멀티플레이어 AI 이미지 생성 게임을 성공적으로 구축하고 운영한 사례를 공유했다.

r/ClaudeAI1달 전

오픈소스 프로젝트가 0 추천을 받은 이유: 100개의 AI 에이전트가 분석한 마케팅의 진실

오픈소스 프로젝트 출시 실패 후 100개의 Claude와 Codex 에이전트를 병렬로 실행하여 마케팅 전략의 부재를 분석하고 해결책을 도출한 사례.

r/ClaudeAI1달 전

문서화의 골칫거리 '다이어그램 부패'를 막는 실행 가능한 아키텍처 도구, SeeFlow

SeeFlow는 코드베이스에서 직접 아키텍처 다이어그램을 생성하고 실행 가능한 노드로 연결하여 문서와 코드 간의 불일치를 해결하는 오픈소스 도구입니다.

r/ClaudeAI1달 전

Claude Projects와 Gamma로 투자자 업데이트 시간을 3시간에서 12분으로 단축한 방법

Claude Projects의 지속적 컨텍스트와 Gamma 커넥터를 결합하여 투자자 업데이트 보고서 생성 과정을 자동화하고 효율을 극대화한 사례.

Hacker News - LLM1달 전

온디바이스 AI로 읽는 도중 즉시 단어 뜻을 확인하는 오프라인 전자책 리더

ClickBook은 온디바이스 AI를 활용해 인터넷 연결 없이도 문맥 기반 단어 설명을 제공하는 오프라인 전자책 리더 앱이다.

Hacker News - LLM Optimization1달 전

LLM 추론 지연 14.6%의 주범인 커널 오버헤드, Ada-MK로 해결

Ada-MK는 MLIR 기반 DAG 오프라인 검색을 통해 런타임 분기를 제거하고, 공유 메모리 최적화를 통해 LLM 추론 처리량을 최대 50.2% 향상시킨다.

Ada-MK

The Verge AI Companies1달 전

소니의 AI 카메라 어시스턴트, 해명에도 여전히 낮은 품질로 비판받아

소니가 Xperia 1 XIII의 AI 카메라 어시스턴트 기능을 해명했으나, 여전히 부자연스러운 결과물로 비판을 받고 있다.

Sony

Hacker News - LLM1달 전

AI 에이전트의 전략 보고서를 검증하고 감사하는 오픈소스 툴킷, Agenda Intelligence MD

전략적 리스크 분석 에이전트의 출력을 구조적으로 검증, 점수화 및 감사할 수 있는 프로토콜, JSON 스키마, CLI 및 MCP 서버 툴킷입니다.

John Kim Coding Agents1달 전

Claude Code Agent View: 터미널 하나로 멀티 에이전트 완벽 제어하기

Claude Code의 Agent View 기능을 활용해 여러 에이전트를 병렬로 관리하고, 페어 프로그래밍에서 테크 리드 중심의 오케스트레이션 방식으로 워크플로를 전환하는 방법을 다룬다.

Claude Code

2026년 5월 17일 AI 뉴스

총 34건

HF Daily Papers Architecture Benchmarks1달 전

장편 시네마틱 리메이크에서 캐릭터 일관성과 내러티브를 지키는 다중 에이전트 프레임워크

Soap2Soap SoapBench

HF Daily Papers Benchmarks1달 전

장기간 엔터프라이즈 SaaS 개발에서 에이전트의 한계를 드러낸 벤치마크

SaaSBench

The AI Daily Brief1달 전

최첨단 AI 접근권이 소수에게만 제한되는 이유

경제적 비용과 보안 우려로 인해 최첨단 AI 모델에 대한 접근이 점차 제한되고 불평등해지는 현상을 분석한다.

The Verge AI Companies1달 전

패스트푸드 드라이브스루의 AI 도입, 고객 만족도와 기술적 한계는?

패스트푸드 업계가 드라이브스루에 AI 챗봇을 도입했으나, 낮은 고객 선호도와 기술적 신뢰성 문제로 인해 운영 방식을 재평가하고 있다.

McDonald's Wendy's

IBM Technology Companies1달 전

AI 에이전트가 레거시 시스템과 만날 때 발생하는 보안 리스크와 해결책

AI 에이전트가 레거시 시스템과 상호작용할 때 발생하는 ID, 컨텍스트, 위임 문제를 해결하기 위한 보안 아키텍처 전략을 제시한다.

IBM

개발동생1달 전

웹 서핑과 논문 읽기가 편해지는 실시간 이중 언어 번역 도구

웹 브라우저와 PDF, 영상 자막을 실시간으로 이중 언어 번역하여 언어 장벽을 낮추는 확장 프로그램 활용법.

r/MachineLearning Optimization1달 전

3,325달러 내면 NeurIPS 논문 등재? 고등학생 대상 연구 프로그램의 실체

고등학생을 대상으로 비용을 받고 NeurIPS 워크숍 논문 등재를 보장하는 Algoverse AI Research의 학술적 부실함과 윤리적 문제를 고발하는 게시물.

Task Arithmetic TIES Merging

r/reinforcementlearning1달 전

Noisy Nets를 사용한 에이전트 평가, 왜 결정론적 방식이 항상 정답은 아닐까?

Rainbow DQN 학습 시 Noisy Nets의 sigma 값이 정책의 필수 요소로 작동하여, 결정론적 평가보다 확률적 평가가 실제 성능을 더 정확히 반영함을 확인했다.

r/ClaudeAI1달 전

AI 코딩의 한계 극복: 브라우저 확장 프로그램 포팅 성공 전략

AI 프롬프트에만 의존한 포팅 실패를 겪은 후, BrowserShell 인터페이스와 Humble Object 패턴을 도입하여 코드 구조를 개선함으로써 성공적인 포팅을 달성함.

r/ClaudeAI Benchmarks1달 전

Claude 3 Opus로 15분 만에 9개 페이지 프론트엔드 성능 최적화 완료

Claude 3 Opus에 성능 최적화 플레이북을 제공하여 9개 페이지의 41개 파일을 15분 만에 자동 수정하고 완벽한 Lighthouse 점수를 달성함.

Lighthouse

Hacker News - LLM Libraries1달 전

애플리케이션 코드가 아닌 데이터베이스 스키마로 에이전트 간 정보 격리 구현하기

DuckDB

r/deeplearning1달 전

웹 검색이나 이메일로 에이전트가 해킹당한다면? Arc Gate로 프롬프트 인젝션 방어하기

외부 데이터 소스에서 유입되는 악성 명령을 차단하여 AI 에이전트의 프롬프트 인젝션을 방어하는 Arc Gate 솔루션.

r/AutoGPT1달 전

여러 AI 에이전트가 내 코드를 망치나요? 에이전트 전용 워크플로 관리 도구 Forge

r/LLMDevs1달 전

소형 LLM으로 유효한 코드를 생성하는 방법: Lisp과 AST 활용

Gemma 4b 모델을 사용하여 JSON AST 기반의 유효한 Clojure 코드를 생성하는 llmisp 프로젝트를 소개한다.

개발동생 Coding Agents Architecture1달 전

AI 코딩 에이전트의 반복 작업을 자동화하는 '하네스' 설계법

AI 코딩 에이전트 Codex를 활용해 일관된 작업 방식을 고정하고, 하네스 구조를 통해 개발 워크플로를 자동화하는 실전 엔지니어링 방법론.

Codex MCP

The AI Grid1달 전

코딩 없이 비즈니스 자동화, 소상공인을 위한 AI 도구 10선

소상공인이 업무 효율을 높이고 비즈니스를 자동화할 수 있는 10가지 AI 도구의 실무 활용법을 소개한다.

Hacker News - LLM Products1달 전

LLM은 왜 관리자가 아닌 개인 작업자로만 행동할까? 멀티 에이전트의 한계

Claude Swarms

AI Engineer Coding Agents Architecture1달 전

LLM이 짠 테스트가 실패하는 이유? TDD로 해결하는 실전 가이드

LLM이 작성한 테스트의 한계를 극복하기 위해 Playwright와 MCP를 활용한 테스트 주도 개발(TDD) 방식을 제안한다.

GitHub Copilot MCP

AI Engineer1달 전

AI 회의록 품질을 결정짓는 3가지 워크플로 설계 패턴

AI 회의록 제품에서 인간의 개입 수준에 따른 Oracle, Evaluator, Architect 세 가지 워크플로 패턴과 그 적용 전략을 다룬다.

Interconnects (Nathan Lambert)1달 전

오픈 모델과 폐쇄형 모델의 성능 격차, 과연 벤치마크가 진실을 말할까?

최근 다양한 오픈 모델이 출시되는 가운데, CAISI의 평가 방식과 실제 모델 성능 간의 괴리에 대한 분석을 다룬다.

Techpresso Products Companies1달 전

OpenAI의 개인 금융 서비스 출시와 AI 업계 주요 동향

OpenAI가 ChatGPT에 개인 금융 관리 기능을 도입하고, SpaceX IPO 및 AI 관련 학술 논문들의 주요 연구 결과가 발표됐다.

ChatGPT OpenAI

HF Daily Papers Prompting Benchmarks1달 전

실시간 듀플렉스 평가를 위한 최초의 옴니모달 벤치마크—660비디오와 자동 평가

LLM-as-judge Omni-DuplexEval

HF Daily Papers Language Models Architecture1달 전

Weight Drift로 촉발된 활성화 sparsity와 스파이크를 실험적으로 규명하는 연구

nanoGPT Transformer

Techpresso Companies Coding Agents1달 전

Adobe가 공개한 에이전트형 AI, 창작 워크플로를 어떻게 바꿀까?

Adobe가 Creative Cloud 앱 전반을 제어하는 에이전트형 AI 'Firefly AI Assistant'를 공개하고 Claude와의 연동을 시작했다.

Adobe Claude

r/ClaudeAI1달 전

Anthropic의 멀티 에이전트 아키텍처로 3시간 만에 완성한 웹사이트

Anthropic의 Generator-Evaluator 멀티 에이전트 아키텍처를 활용하여 12번의 반복 루프를 통해 코딩 없이 웹사이트를 생성한 사례.

r/ClaudeAI1달 전

SWE 경험 없이 Claude Code만으로 실시간 멀티플레이어 게임을 만든 방법

최근 대학 졸업자가 Claude Code를 사용하여 실시간 멀티플레이어 AI 이미지 생성 게임을 성공적으로 구축하고 운영한 사례를 공유했다.

r/ClaudeAI1달 전

오픈소스 프로젝트가 0 추천을 받은 이유: 100개의 AI 에이전트가 분석한 마케팅의 진실

오픈소스 프로젝트 출시 실패 후 100개의 Claude와 Codex 에이전트를 병렬로 실행하여 마케팅 전략의 부재를 분석하고 해결책을 도출한 사례.

r/ClaudeAI1달 전

문서화의 골칫거리 '다이어그램 부패'를 막는 실행 가능한 아키텍처 도구, SeeFlow

r/ClaudeAI1달 전

Claude Projects와 Gamma로 투자자 업데이트 시간을 3시간에서 12분으로 단축한 방법

Claude Projects의 지속적 컨텍스트와 Gamma 커넥터를 결합하여 투자자 업데이트 보고서 생성 과정을 자동화하고 효율을 극대화한 사례.

Hacker News - LLM1달 전

온디바이스 AI로 읽는 도중 즉시 단어 뜻을 확인하는 오프라인 전자책 리더

ClickBook은 온디바이스 AI를 활용해 인터넷 연결 없이도 문맥 기반 단어 설명을 제공하는 오프라인 전자책 리더 앱이다.

Hacker News - LLM Optimization1달 전

LLM 추론 지연 14.6%의 주범인 커널 오버헤드, Ada-MK로 해결

Ada-MK는 MLIR 기반 DAG 오프라인 검색을 통해 런타임 분기를 제거하고, 공유 메모리 최적화를 통해 LLM 추론 처리량을 최대 50.2% 향상시킨다.

Ada-MK

The Verge AI Companies1달 전

소니의 AI 카메라 어시스턴트, 해명에도 여전히 낮은 품질로 비판받아

소니가 Xperia 1 XIII의 AI 카메라 어시스턴트 기능을 해명했으나, 여전히 부자연스러운 결과물로 비판을 받고 있다.

Sony

Hacker News - LLM1달 전

AI 에이전트의 전략 보고서를 검증하고 감사하는 오픈소스 툴킷, Agenda Intelligence MD

전략적 리스크 분석 에이전트의 출력을 구조적으로 검증, 점수화 및 감사할 수 있는 프로토콜, JSON 스키마, CLI 및 MCP 서버 툴킷입니다.

John Kim Coding Agents1달 전

Claude Code Agent View: 터미널 하나로 멀티 에이전트 완벽 제어하기

Claude Code