2026년 5월 11일 AI 뉴스 아카이브

Stanford Online

스탠포드가 알려주는 LLM 추론 속도 10배 높이는 아키텍처와 시스템 기법

LLM 추론의 핵심 병목인 메모리 대역폭 문제를 분석하고, KV 캐시 최적화, 추측 디코딩, 연속 배칭 등 최신 성능 향상 기법을 다룹니다.

Stanford Online

수술실의 미래, 스스로 판단하고 집도하는 자율 수술 로봇의 진화

UC 샌디에이고의 Michael Yip 교수가 이미지 기반 제어부터 물리 시뮬레이션, 휴머노이드 로봇을 활용한 의료 보조까지 자율 수술 로봇의 핵심 기술과 미래 방향을 제시한다.

Hacker News - LLM

AI 에이전트의 망각 문제 해결, 로컬 기반 그래프 메모리 Graft 공개

Graft는 SQLite와 llama.cpp를 기반으로 AI 에이전트에게 세션 간 유지되는 영구적인 그래프 구조의 메모리를 제공하는 로컬 퍼스트 오픈소스 도구입니다.

Hugging Face Blog

AWS와 NVIDIA가 제안하는 3대 스케일링 법칙 대응 인프라 전략

AWS 인프라와 오픈소스 소프트웨어 스택을 활용하여 파운데이션 모델의 사전 학습, 사후 학습, 테스트 시간 컴퓨팅을 최적화하는 4계층 아키텍처 가이드

The Verge AI

OpenAI의 새로운 보안 병기 Daybreak, GPT-5.5-Cyber로 해킹 막는다

OpenAI가 Codex Security 에이전트와 GPT-5.5-Cyber 모델을 결합하여 조직의 코드 취약점을 자동으로 탐지하고 패치하는 보안 이니셔티브 'Daybreak'를 발표했습니다.

HF Daily Papers Training

교사 모델의 로짓 없이도 루브릭만으로 학습 효율 10배 달성

기존의 AI 모델 학습 방식은 교사 모델의 내부 데이터(로짓)가 꼭 필요해 폐쇄형 모델을 교사로 쓰기 어려웠습니다. 이 논문은 텍스트로 된 평가 기준(루브릭)만으로도 모델을 효과적으로 가르칠 수 있음을 증명하여, GPT-5와 같은 강력한 API 모델을 활용한 효율적인 모델 학습의 길을 열었습니다.

ROPD

HF Daily Papers Safety Architecture

VLM 보안의 새로운 방패, SAE로 적대적 이미지 공격 90% 이상 차단

시각 언어 모델(VLM)이 실제 서비스에 도입되면서 이미지에 숨겨진 미세한 노이즈로 모델을 속이는 적대적 공격이 심각한 보안 위협으로 부상했다. 이 논문은 추가적인 재학습 없이도 기존 모델에 간단히 끼워 넣어 공격을 실시간으로 감지할 수 있는 가벼운 방화벽 기술을 제시하여 VLM의 실무 안전성을 크게 높였다.

SAEgisSparse Autoencoder

AWS ML Blog

AWS Strands와 Exa로 구축하는 실시간 웹 검색 딥 리서치 에이전트

AWS의 Strands Agents SDK와 Exa AI 검색 엔진을 통합하여 실시간 웹 정보를 스스로 검색하고 분석하는 고성능 리서치 에이전트 구축 방법을 소개합니다.

WorldofAI

구글 Remy 에이전트의 3,500줄 코딩 능력과 OpenAI의 초고속 모드 유출

구글의 새로운 에이전트 모드 Remy와 OpenAI Codex의 울트라패스트 모드 등 구글 I/O를 앞두고 유출된 주요 AI 기술 업데이트를 다룹니다.

Databricks Blog

데이터 브릭스, 'Catalog Commits' 출시로 멀티 테이블 트랜잭션 한계 극복

Databricks가 Delta Lake와 Unity Catalog를 결합하여 멀티 테이블 트랜잭션과 엔진 간 데이터 일관성을 보장하는 Catalog Commits 기능을 정식 출시했다.

The AI Daily Brief

Markdown 대신 HTML? Anthropic 엔지니어가 제안하는 에이전트 소통법

Anthropic의 엔지니어가 AI 에이전트와의 데이터 교환 포맷으로 Markdown보다 HTML이 정보 밀도와 시각화 측면에서 우수하다고 제안하며 업계의 주목을 받았습니다.

Ars Technica AI

가뭄 중에 물 3천만 갤런 '공짜'로 쓴 데이터 센터의 정체

미국 조지아주의 대규모 데이터 센터가 유틸리티 당국의 모니터링 부재를 틈타 약 3,000만 갤런의 물을 무단으로 사용한 사실이 밝혀졌다.

David Ondrej Inference

답변 거부 없는 AI가 필요하다면? SuperGemma 26B 로컬 실행 가이드

Ollama와 Hugging Face를 활용하여 검열이 제거된 SuperGemma 26B 모델을 로컬 환경에서 실행하고, 자율 연구 루프를 통해 모델의 제한을 해제하는 방법을 제시한다.

Ollama

Databricks Blog

수십 년 된 스캔 문서에서 지하수 데이터를 찾는 AI 파이프라인

Databricks와 MapAid가 멀티모달 AI를 사용하여 수단의 방대한 스캔 지질 문서를 검색 가능한 데이터베이스로 변환하고 지하수 예측 모델을 강화했습니다.

Hacker News - LLM

LLM이 뱉는 망가진 JSON, 15가지 전략으로 완벽하게 복구하기

288회의 모델 호출 테스트를 통해 LLM의 JSON 출력 오류 패턴을 분석하고, 이를 자동으로 수정 및 검증하는 파이썬 라이브러리 outputguard를 개발한 사례입니다.

Cursor

이제 Microsoft Teams에서 Cursor 에이전트에게 코딩 업무를 맡기세요

Cursor가 Microsoft Teams와 통합되어 채널 내 멘션만으로 클라우드 에이전트에게 작업을 위임하고 PR을 생성할 수 있습니다.

Roboflow Blog Libraries Vision AI

하키 경기 분석의 혁신: RF-DETR과 ByteTrack으로 구현하는 실시간 선수 추적

RF-DETR 모델과 ByteTrack 알고리즘을 결합하여 하키 경기 영상에서 선수들의 고유 식별자를 유지하고 이동 경로를 시각화하는 자동화 시스템 구축 방법을 설명합니다.

ByteTrackRF-DETRRoboflow

Simon Willison

인간과 AI가 뒤섞인 '좀비 인터넷'의 역습, 우리의 글쓰기가 변하고 있다

Jason Koebler는 AI 생성 콘텐츠가 인터넷을 점령하며 인간의 소통 방식과 글쓰기 스타일을 왜곡하는 '좀비 인터넷' 현상을 비판했다.

Simon Willison

코딩 속도보다 중요한 것: AI가 유지보수 비용을 낮추지 못하면 위기다

AI 코딩 에이전트를 통한 생산성 향상이 유지보수 비용의 획기적인 절감으로 이어지지 않으면 장기적인 기술 부채가 발생한다.

All About AI

비용 0원! 오픈소스 모델만으로 Fireship 스타일 영상 자동 생성하기

Qwen 2.7B, Kokoro TTS, HyperFrames 등 오픈소스 도구만을 조합하여 외부 API 비용 없이 고품질 AI 영상을 자동 생성하는 로컬 파이프라인을 구축했다.

r/ClaudeAI Coding Agents

Claude Code가 딴짓할 때 드는 비용, 직접 측정해 보셨나요?

Claude Code 세션에서 초기 의도와 무관하게 소모된 '미선언 의도 지출'을 측정하여 에이전트의 추론 이탈을 비용 관점에서 분석했다.

Claude Code

r/ClaudeAI Language Models Audio AI

손목 위에서 Claude와 대화하기: Swift UI와 Whisper로 구현한 저지연 AI 비서

Swift UI, Faster Whisper V3 Turbo, Flask를 조합하여 Apple Watch에서 Claude 및 Gemini와 직접 대화할 수 있는 저지연 음성 비서를 개발했다.

ClaudeGeminiWhisper

HF Community Blogs

AI 안전성 평가의 맹점: 추론 연산량이 늘어나면 방어벽이 뚫린다

AI 모델의 안전성은 고정된 값이 아니라 추론 시 투입되는 연산량(TTC)과 공격 전략에 따라 변하는 위험 표면으로 평가되어야 한다.

MIT Technology Review

AI가 일자리를 뺏는다고? 노벨상 수상자 아세모글루의 냉철한 분석

노벨 경제학상 수상자 다론 아세모글루는 AI 에이전트의 작업 전환 한계와 낮은 범용성을 근거로 AI가 일자리 시장에 미치는 영향이 제한적일 것이라고 분석했다.

Salesforce

Salesforce가 공개한 자율 에이전트 시대의 AI 신뢰 구축 전략

Salesforce가 자율 에이전트 시대를 맞아 투명성, 거버넌스, 기술적 안전 장치를 강화한 제2회 연례 신뢰할 수 있는 AI 영향 보고서를 발표했다.

AI Engineer

에이전트가 스스로 도구를 조합하게 만드는 Pi SDK 실전 가이드

OpenClaw의 핵심인 Pi SDK를 사용하여 B2B 영업 파이프라인을 자동화하고, 에이전트 친화적인 도구 인터페이스 설계 원칙을 제시한다.

HF Community Blogs

생물학적 면역 체계와 양자 합의 알고리즘을 탑재한 차세대 AI 운영체제 CAPT

CAPT는 46개의 모듈로 구성되어 스스로 사고 과정을 모니터링하고 자원을 조절하며 위협에 대응하는 생물학적 인지 모방형 AI 아키텍처입니다.

TechCrunch AI

죽었다 살아난 Digg, 이제 X 데이터를 분석해 AI 트렌드를 읽는다

Digg이 X의 소셜 그래프와 감성 분석을 활용해 영향력 있는 AI 뉴스와 인물을 실시간으로 랭킹화하는 뉴스 애그리게이터로 복귀했다.

AWS ML Blog MLOps Vision AI

Miro, AI로 버그 처리 속도 5배 높이고 연간 42년의 생산성 손실 막았다

Miro는 Amazon Bedrock과 RAG 기술을 결합한 BugManager를 구축하여 버그 재할당을 6배 줄이고 해결 시간을 며칠에서 몇 시간 단위로 단축했다.

Amazon BedrockAmazon Nova Pro

KDNugget

말 많은 LLM이 환각도 잘 본다? 가독성 지수로 응답 제어하기

Textstat 라이브러리와 가독성 지수(ARI)를 활용해 LLM의 장황한 응답을 감지하고, 자동 재프롬프팅으로 환각 위험을 줄이는 가드레일 구현 방법을 제시합니다.

Salesforce Engineering Blog Companies

데이터 이동 없이 안전하게 협업하는 Salesforce의 제로 카피 클린룸 기술

Salesforce가 데이터를 복제하지 않고도 조직 간 안전하게 인사이트를 공유할 수 있는 Data 360 Clean Rooms의 제로 카피 페더레이션 아키텍처를 공개했습니다.

AWSSalesforce

r/LangChain Libraries Agents

도구가 많아질수록 멍청해지는 AI 에이전트, 해결책은 '필요할 때만 읽기'?

MCP 에이전트가 다수의 도구 통합 시 겪는 성능 저하 문제를 해결하기 위해, 모든 스키마를 미리 로드하는 대신 온디맨드로 조회하는 설계 방식이 제시됐다.

CorsairMCP

AI Engineer

슬랙에서 동료처럼 일하는 AI 에이전트, Viktor의 확장 전략

슬랙 기반 AI 에이전트 Viktor를 개발하며 겪은 복잡한 입력 처리, 메모리 격리, 모델 교체 시의 사용자 경험 변화를 다룹니다.

Google Cloud AI Blog

AI가 만든 제로데이 공격의 등장과 구글의 AI 기반 방어 전략

구글이 AI로 개발된 것으로 추정되는 제로데이 취약점 공격을 최초로 식별하고, Gemini와 Big Sleep 등 AI 도구를 활용한 선제적 방어 체계를 강화했다.

Langflow

AI 에이전트 비용 폭탄의 주범, '토큰 비대화' 해결 가이드

MCPJam의 CEO Prathmesh Patel이 MCP 서버 연결 시 발생하는 토큰 비대화 문제를 진단하고 효율적인 에이전트 시스템 구축 전략을 공유한다.

Cursor

PayPal 개발자 8,000명이 Cursor를 쓰자 벌어진 일: 1년 걸릴 작업을 2개월 만에 끝내다

PayPal이 8,000명의 개발 조직에 Cursor를 도입하여 3,000개 앱의 Java 업그레이드 기간을 1년에서 2개월로 단축하고 일일 배포 체계를 구축했다.

KDNugget

클릭만 하는 강의는 끝, Mistral 7B로 만드는 초개인화 AI 튜터 시스템

Ollama와 Mistral 7B를 활용하여 학습자의 숙련도에 따라 경로를 수정하고 퀴즈를 생성하는 로컬 AI 기반 LMS 구축 방법을 소개합니다.

r/MachineLearning Vision AI

V-JEPA 2.1 충격적 분석: 2B 모델이 1B보다 약한 이유와 허브 마진화 현상

Meta의 V-JEPA 2.1 모델을 분석한 결과, 모델 크기 증가가 견고성 향상으로 이어지지 않는 비단조적 스케일링과 시간적 변형에 대한 특이적 민감성이 확인됐다.

V-JEPA

Databricks

MVP부터 프로덕션까지, AI 에이전트 성능을 200% 끌어올리는 평가 전략

AI 애플리케이션의 성능 개선을 위해 Task, Data, Scorer를 활용한 구조화된 평가 체계를 구축하고 에이전트 및 멀티 에이전트 시스템을 단계별로 검증하는 실무 방법론이다.

Import AI (Jack Clark)Companies

AI가 스스로를 개선하면 6년 안에 경제적 특이점이 온다?

AI의 재귀적 자기 개선이 가져올 폭발적 경제 성장 가능성과 소프트웨어 전체를 대체할 신경망 컴퓨터 개념, 그리고 구글의 새로운 분산 학습 기술을 다룬다.

Dataiku E2A 공개: 전문가의 판단력을 24시간 작동하는 AI 에이전트로 전환

Dataiku가 전문가의 도메인 지식을 시각적 인터페이스로 구조화하고 기업 데이터와 연결하여 신뢰할 수 있는 AI 에이전트를 구축·배포하는 E2A(Expert-to-Agent) 솔루션을 발표했다.

Dataiku Blog

AI 자동화의 함정, 왜 '인간의 개입'이 거버넌스의 핵심인가

AI 시스템의 확산 속에서 인간의 판단력을 유지하고 책임 소재를 명확히 하기 위한 '휴먼 인 더 루프(Human-in-the-Loop)' 설계의 중요성을 강조합니다.

TechCrunch AI

AI 연산 수요 해결을 위해 우주로 향하는 데이터 센터와 자체 로켓 개발

Cowboy Space Corporation이 AI 연산용 궤도 데이터 센터 구축을 위해 2억 7,500만 달러를 유치하고 자체 로켓 개발에 나섰습니다.

Stanford Online

Hugging Face 엔지니어가 공개하는 수천 개 GPU 학습의 비밀: 5D 병렬 처리 가이드

Hugging Face의 Nouamane Tazi가 수천 개의 GPU 클러스터에서 대규모 언어 모델을 효율적으로 학습시키기 위한 5D 병렬 처리 기법과 MoE 아키텍처의 확장 전략을 상세히 설명합니다.

Stanford Online Companies

LLM 성능의 퀀텀 점프, 사전 학습 데이터의 '순서'와 '추론'에 답이 있다

NVIDIA와 Mistral AI의 연구를 바탕으로 LLM 사전 학습 시 데이터의 순서 최적화, 추론 데이터의 조기 주입, 그리고 강화 학습 기반 목적 함수가 모델 지능에 미치는 영향을 다룹니다.

Mistral AINVIDIA

Stanford Online Image Gen Architecture

U-Net에서 DiT까지 확산 모델 아키텍처의 진화 완벽 정리

확산 모델의 백본 아키텍처가 U-Net에서 Transformer(DiT)로 진화하는 과정과 그 내부 작동 원리 및 최적화 기법을 심도 있게 다룹니다.

FLUX.1RoPE

2026년 5월 11일 AI 뉴스

스탠포드가 알려주는 LLM 추론 속도 10배 높이는 아키텍처와 시스템 기법

수술실의 미래, 스스로 판단하고 집도하는 자율 수술 로봇의 진화

AI 에이전트의 망각 문제 해결, 로컬 기반 그래프 메모리 Graft 공개

AWS와 NVIDIA가 제안하는 3대 스케일링 법칙 대응 인프라 전략

OpenAI의 새로운 보안 병기 Daybreak, GPT-5.5-Cyber로 해킹 막는다

교사 모델의 로짓 없이도 루브릭만으로 학습 효율 10배 달성

VLM 보안의 새로운 방패, SAE로 적대적 이미지 공격 90% 이상 차단

AWS Strands와 Exa로 구축하는 실시간 웹 검색 딥 리서치 에이전트

구글 Remy 에이전트의 3,500줄 코딩 능력과 OpenAI의 초고속 모드 유출

데이터 브릭스, 'Catalog Commits' 출시로 멀티 테이블 트랜잭션 한계 극복

Markdown 대신 HTML? Anthropic 엔지니어가 제안하는 에이전트 소통법

가뭄 중에 물 3천만 갤런 '공짜'로 쓴 데이터 센터의 정체

답변 거부 없는 AI가 필요하다면? SuperGemma 26B 로컬 실행 가이드

수십 년 된 스캔 문서에서 지하수 데이터를 찾는 AI 파이프라인

LLM이 뱉는 망가진 JSON, 15가지 전략으로 완벽하게 복구하기

이제 Microsoft Teams에서 Cursor 에이전트에게 코딩 업무를 맡기세요

하키 경기 분석의 혁신: RF-DETR과 ByteTrack으로 구현하는 실시간 선수 추적

인간과 AI가 뒤섞인 '좀비 인터넷'의 역습, 우리의 글쓰기가 변하고 있다

코딩 속도보다 중요한 것: AI가 유지보수 비용을 낮추지 못하면 위기다

비용 0원! 오픈소스 모델만으로 Fireship 스타일 영상 자동 생성하기

Claude Code가 딴짓할 때 드는 비용, 직접 측정해 보셨나요?

손목 위에서 Claude와 대화하기: Swift UI와 Whisper로 구현한 저지연 AI 비서

AI 안전성 평가의 맹점: 추론 연산량이 늘어나면 방어벽이 뚫린다

AI가 일자리를 뺏는다고? 노벨상 수상자 아세모글루의 냉철한 분석

Salesforce가 공개한 자율 에이전트 시대의 AI 신뢰 구축 전략

에이전트가 스스로 도구를 조합하게 만드는 Pi SDK 실전 가이드

생물학적 면역 체계와 양자 합의 알고리즘을 탑재한 차세대 AI 운영체제 CAPT

죽었다 살아난 Digg, 이제 X 데이터를 분석해 AI 트렌드를 읽는다

Miro, AI로 버그 처리 속도 5배 높이고 연간 42년의 생산성 손실 막았다

말 많은 LLM이 환각도 잘 본다? 가독성 지수로 응답 제어하기

데이터 이동 없이 안전하게 협업하는 Salesforce의 제로 카피 클린룸 기술

도구가 많아질수록 멍청해지는 AI 에이전트, 해결책은 '필요할 때만 읽기'?

슬랙에서 동료처럼 일하는 AI 에이전트, Viktor의 확장 전략

AI가 만든 제로데이 공격의 등장과 구글의 AI 기반 방어 전략

AI 에이전트 비용 폭탄의 주범, '토큰 비대화' 해결 가이드

PayPal 개발자 8,000명이 Cursor를 쓰자 벌어진 일: 1년 걸릴 작업을 2개월 만에 끝내다

클릭만 하는 강의는 끝, Mistral 7B로 만드는 초개인화 AI 튜터 시스템

V-JEPA 2.1 충격적 분석: 2B 모델이 1B보다 약한 이유와 허브 마진화 현상

MVP부터 프로덕션까지, AI 에이전트 성능을 200% 끌어올리는 평가 전략

AI가 스스로를 개선하면 6년 안에 경제적 특이점이 온다?

Dataiku E2A 공개: 전문가의 판단력을 24시간 작동하는 AI 에이전트로 전환

AI 자동화의 함정, 왜 '인간의 개입'이 거버넌스의 핵심인가

AI 연산 수요 해결을 위해 우주로 향하는 데이터 센터와 자체 로켓 개발

Hugging Face 엔지니어가 공개하는 수천 개 GPU 학습의 비밀: 5D 병렬 처리 가이드

LLM 성능의 퀀텀 점프, 사전 학습 데이터의 '순서'와 '추론'에 답이 있다

U-Net에서 DiT까지 확산 모델 아키텍처의 진화 완벽 정리

비디오 생성 없이 DINO 특징만으로 3D 로봇 조작 학습 성공

CGM-JEPA, 연속 혈당 데이터로 당뇨 전조 증상 예측 정확도 6.5% 향상

양자 영감 모델로 태양 주기 예측 정확도 13배 향상 및 파라미터 90% 절감

LLM 에이전트의 실패를 실시간으로 감지하는 PrefixGuard 프레임워크

AI 에이전트 시대, 인간의 임금 하한선은 GPU 대여료가 결정한다

LLM이 강화학습의 관측값과 보상을 직접 설계하여 성능 극대화

이해 능력을 생성의 촉매제로 활용하여 이미지 생성 품질 대폭 향상

SpecBlock, EAGLE-3보다 2배 저렴한 비용으로 추론 속도 19% 향상

LLM 에이전트의 진화 단계: 단순 저장에서 자율적 경험 학습으로

토크나이저 없는 BLT 모델, 디퓨전 기법으로 추론 속도 92% 향상

시각적 단서로 검색을 제어하는 AI 에이전트 벤치마크 공개

4만 개 모델 중 내 데이터에 딱 맞는 모델을 0초 만에 추천

LLM 에이전트 성능 40% 좌우하는 프롬프트 형식, 컴파일러로 자동 최적화

LLM의 의도 파악 능력, 무작위 추측보다 낮은 25% 미만 충격적 결과

챗봇 중심 AI 패러다임이 초래하는 사회적·인지적 위험 분석

300개 이상의 작업을 잊지 않고 학습하는 지속적 학습 모델 CaRE 공개

PAE: 기존 대비 13배 빠른 수렴과 SOTA 성능을 달성한 새로운 토크나이저

복잡한 이미지 생성의 한계 극복, SCOPE로 의도 일치율 39% 향상

강화학습으로 진화한 RAG, 1,000만 토큰에서도 정확한 다단계 검색 달성

단 4단계의 디노이징으로 SOTA급 이미지를 생성하는 NTM 프레임워크

외부 모델 없이 LLM 스스로 성능을 5.4점 높이는 UniSD 프레임워크

5분 이상의 긴 영상도 끊김 없이 일관되게 생성하는 A2RD 기술 공개

VLM의 한계 돌파, 4D 잠재 정신 이미저리로 동적 공간 추론 성능 34% 향상

단 하나의 체크포인트로 모든 Rank 대응, MatryoshkaLoRA 공개

Mamba 등 Affine 순환 모델의 장기 상태 추적 실패 원인 규명

추가 학습 데이터 없이 LLM 에이전트 성능 최대 8.8% 향상

AI 에이전트 보안 비상, 50개 가상 환경에서 취약점 95% 노출

UniPrefill, LLM 첫 토큰 생성 속도 최대 2.1배 향상

코드 검색 성능 2배 향상시키는 새로운 벤치마크 CoREB 공개

이방성 잔차 정렬로 텍스트 데이터만 사용해 멀티모달 모델 성능 극대화

100만 시간의 인간 비디오로 로봇 학습 데이터 부족 문제 해결

AutoTTS: 단 40달러로 LLM 추론 성능을 최적화하는 자동화 프레임워크

LPO: LLM의 추론 능력을 극대화하는 새로운 리스트 기반 강화학습 기법