2026년 5월 7일 AI 뉴스 아카이브

상용 하드웨어로 108분까지 확장된 장기 에고센트릭 데이터를 수집하는 오픈 파이프라인

Vision-Language-Action 모델의 사전학습은 긴 시퀀스의 행동-상호작용 신호가 필요하지만 기존 데이터셋은 짧고 특수한 장비로 한정된다. MobileEgo Anywhere는 ARKit가 제공하는 6 DoF 포즈 추적과 소비자용 스마트폰을 활용해 200시간 규모의 장형 에고센트릭 데이터를 수집·가공하는 오픈 인프라를 제시한다. STERA 파이프라인, 무상 앱, 200시간 데이터셋의 공개로 연구 커뮤니티의 하드웨어 진입장벽을 낮추고 VLA 및 Foundation Model 프리트레이닝의 데이터 소스를 확장한다.

HF Daily Papers Libraries

Activation Steering은 프롬프트 재현으로 역추정될 수 없음을 수학적으로 증명

Activation Steering의 역추정을 통해 화이트박스 제어와 블랙박스 프롬프트 간의 근본적 차이를 밝힌다. 프롬프트 기반 해석가능성이나 안전성 연구가 Activation Steering의 용이성만으로 평가되어서는 안 되며, 화이트박스와 블랙박스 개입을 구분하는 평가 프로토콜이 필요하다고 제시한다.

Activation SteeringPreimageSurjectivity

Dataiku Blog

모델 성능 저하의 주범, 데이터 정규화 불일치를 해결하는 법

머신러닝 모델의 학습 안정성과 예측 신뢰성을 확보하기 위해 학습과 추론 파이프라인 간의 데이터 정규화 기법을 표준화하고 일관되게 적용해야 한다.

TechCrunch AI

자율주행 트럭 시대 개막, 오로라 CEO가 말하는 물리적 AI의 미래

오로라 혁신(Aurora Innovation)의 CEO 크리스 엄슨이 자율주행 트럭의 상업적 운영 성과와 검증 가능한 AI 시스템의 중요성을 강조했다.

Practical AI

오픈 소스 AI가 폐쇄형 모델을 따라잡을 수 있을까? 2026년 전망

오픈 소스와 폐쇄형 AI 모델 간의 성능 격차 변화와 물리적 환경에 내장되는 임베디드 AI의 부상을 통해 향후 2년 내 AI 생태계의 변화를 전망합니다.

LangChain Companies Language Models

재무 전문가가 코드 생성 AI를 거부한 이유와 Ramp의 에이전트 아키텍처

Ramp의 응용 연구 책임자 Alexander Shevchenko가 Ramp Sheets의 에이전트 아키텍처와 KV 캐시를 이용한 에이전트 간 통신 실험을 공유합니다.

AnthropicGemmaLangChain

Analytics Vidhya

수작업은 끝났다! LLM으로 자동화하는 스마트한 ML 피처 엔지니어링

전통적인 수동 피처 엔지니어링에서 벗어나 LLM의 시맨틱 이해 능력을 활용해 비정형 데이터에서 고차원 특징을 자동 추출하는 방법론과 실전 코드를 제시한다.

Hacker News - LLM

AI 모델의 성능 저하를 잡는다: Reality Drift 탐지 프레임워크 공개

AI 모델의 성능 변화를 감지하는 드리프트 탐지 프레임워크와 평가 기준을 담은 PDF 문서가 공개됐다.

The Verge AI

구글의 승부수: AI 헬스 코치 정식 출시와 99달러 Fitbit Air 공개

구글이 새로운 초소형 트래커 Fitbit Air를 공개하고, 기존 Fitbit 앱을 Google Health 앱으로 통합하며 Gemini 기반 AI 헬스 코치를 정식 출시했습니다.

Sam Witteveen Companies

1시간 분량 오디오를 단 2초 만에? IBM의 미친 성능 음성 AI 공개

IBM이 공개한 Granite Speech 4.1 모델의 3가지 변체(Base, Plus, NAR)를 통해 정확도, 화자 분리 기능, 초고속 추론 성능의 기술적 특징과 실무 적용 방법을 상세히 다룹니다.

IBM

AI Andy Coding Agents Dev Tools

디자이너 없이 30초 만에 애플·노션 스타일 웹사이트 만드는 법

Awesome Design MD 리포지토리의 57개 브랜드 디자인 시스템을 Claude Code에 학습시켜 전문적인 웹페이지, 슬라이드, 그래픽을 단일 프롬프트로 생성하는 워크플로를 제시한다.

Claude CodeGitHub

Analytics Vidhya Products Companies

이제 엑셀 안에서 ChatGPT를 바로 쓴다! 업무 효율 극대화 가이드

OpenAI가 ChatGPT를 Excel과 Google Sheets 내부에 직접 통합하여 데이터 이동 없이 AI로 스프레드시트를 편집하고 분석할 수 있는 기능을 출시했다.

ChatGPTOpenAI

CMU AI News

의료 영상 라벨링 시간 단축, CMU가 개발한 AI 도구 AutoMiSeg

카네기 멜론 대학교 연구진이 텍스트 명령으로 의료 영상 내 장기를 자동으로 식별하고 라벨링하는 AI 도구 AutoMiSeg를 개발했습니다.

AWS ML Blog

AWS, AI 에이전트가 직접 결제하는 AgentCore Payments 발표

Amazon Bedrock AgentCore Payments는 AI 에이전트가 API, 유료 콘텐츠, MCP 서버 이용 시 실시간 마이크로페이먼트를 자동으로 수행할 수 있게 지원하는 관리형 서비스이다.

Hacker News - LLM

LLM이 찾아내는 보안 취약점, 전통적인 보안 엠바고 시스템을 무너뜨리나

LLM을 활용한 보안 취약점 자동 탐지가 급증하면서, 기존의 비밀 유지(엠바고) 및 공동 공개 절차가 실효성을 잃고 보안 관리 체계의 근본적 변화를 요구하고 있다.

TechCrunch AI

스포티파이 AI DJ 한국 상륙, 이제 한국어 서비스와 대화형 요청 가능

스포티파이가 AI DJ 기능의 지원 언어를 프랑스어, 독일어 등 4개국어로 확대하고 한국을 포함한 75개국으로 서비스 지역을 넓혔습니다.

MIT Technology Review

Anthropic과 SpaceX의 깜짝 동맹과 OpenAI를 둘러싼 폭로전

AI 기술 확산에 대한 사회적 저항이 커지는 가운데 Anthropic과 SpaceX의 협력, OpenAI 내부의 신뢰 위기 등 업계 주요 변화를 다룹니다.

Kili Technology Blog

오픈 웨이트의 반격, Kimi K2.6이 코딩 벤치마크에서 GPT-5.4를 넘어섰다

Moonshot AI가 출시한 1조 파라미터 규모의 MoE 모델 Kimi K2.6이 SWE-Bench Pro에서 GPT-5.4를 앞서며 오픈 웨이트 모델 중 세계 1위를 기록했다.

AI21 Labs Agents

모델이 전부가 아니다? 에이전트 상용화의 핵심 '하네스 엔지니어링'

LLM 모델 자체보다 이를 둘러싼 시스템 아키텍처인 Harness Engineering의 정의와 에이전트 상용화를 위한 구체적인 설계 전략을 다룹니다.

MCP

KDNugget

데이터의 흐름을 읽는 치트키, 일상 속 7가지 통계 분포 완벽 정리

복잡한 수학 없이 일상 사례를 통해 정규 분포부터 멱법칙까지 데이터의 패턴을 결정하는 7가지 핵심 통계 분포를 설명합니다.

Wired AI

내 노래가 180만 뷰인데 수익은 0원? AI 리믹스에 신음하는 음악계

AI 도구로 생성된 무단 리믹스 곡들이 스트리밍 플랫폼에서 급증하며 원곡 아티스트의 수익을 가로채는 심각한 저작권 침해 문제를 야기하고 있다.

Wired AI

클릭 한 번으로 만든 AI 앱, 당신의 기업 기밀을 전 세계에 노출 중

보안 전문가들이 Lovable, Replit 등 AI 코딩 도구로 만든 5,000개 이상의 앱을 분석한 결과, 상당수가 인증 없이 민감한 기업 및 개인 데이터를 노출하고 있음을 확인했다.

HF Community Blogs

AI가 스스로의 한계를 아는가? Nemotron-3 Nano Omni의 인지 보안 평가 결과

AIsecTest 방법론을 통해 Nemotron-3 Nano Omni 모델의 자기 인식 및 인지적 안정성을 평가한 결과, 선언적 자기 인식은 우수하나 불확실성 관리와 성찰적 깊이에는 한계가 있음이 확인됐다.

AICodeKing Products

코딩 없이 iOS·안드로이드 앱 제작부터 RAG 챗봇 연동까지 한 번에

GoodBarber는 단일 백오피스에서 iOS, Android, PWA를 동시에 구축하며 RAG 챗봇과 AI 어시스턴트 기능을 통합할 수 있는 노코드 플랫폼이다.

ChatGPT

HF Community Blogs

ChatGPT의 공감 능력은 진짜일까? CEAT 인지 평가 결과 공개

CEAT 프레임워크를 통해 ChatGPT의 정서적 인지 및 담화 일관성을 분석한 결과, 88점의 높은 점수를 기록했으나 메타인지와 실제 공감 능력에는 한계가 있음이 확인됐다.

r/AutoGPT

테스트에선 완벽한 에이전트가 실전에선 왜 망가질까? 3계층 안정화 전략

실제 서비스 환경에서 AI 에이전트의 오작동을 방지하기 위해 지침, 문맥, 검증의 3단계 계층 구조를 적용하여 안정성을 확보한 사례이다.

r/reinforcementlearning Language Models Libraries

GPU 없이 브라우저에서 끝내는 AI 미세 조정, 엔지니어의 역할이 바뀐다

Unsloth Studio와 같은 도구로 인해 AI 엔지니어링의 핵심이 코드 작성에서 모델 선택과 데이터 반복 실험으로 이동하고 있다.

GemmaUnsloth

r/MachineLearning Vision AI

의료 데이터 부족 해결! 레이아웃까지 완벽한 합성 PDF 생성기

개인정보 보호로 확보가 어려운 의료 문서를 대체하기 위해 호주 병원 양식을 모방한 5,000건의 합성 PDF 데이터셋과 생성 파이프라인을 구축했다.

DocFormerDonutLayoutLMv3

RIKEN AIP

Transformer와 Diffusion 모델의 최적성: 스즈키 타이지 교수의 AISTATS 기조연설

RIKEN AIP의 스즈키 타이지 팀장이 AISTATS 2026에서 딥 파운데이션 모델의 특징 학습과 최적성에 대해 기조연설을 수행했다.

r/LLMDevs Dev Tools Language Models

단순 프롬프트를 넘어 장애 이력까지 학습하는 AI 코드 리뷰어

GitHub 웹훅과 Hindsight를 활용해 과거 장애 이력 및 팀 컨벤션을 실시간으로 학습하고 PR 리뷰에 반영하는 데이터 파이프라인 구축 사례이다.

GitHubGroq

MIT AI News

노벨상 수상자 다론 아세모글루의 경고, 자동화가 생산성 대신 불평등만 키운 이유

MIT 경제학자들의 연구에 따르면 미국 기업들은 생산성 향상보다 고임금 노동자의 임금 프리미엄을 제거하기 위해 자동화를 도입하며, 이것이 소득 불평등 심화의 핵심 원인임이 밝혀졌다.

r/ClaudeAI Coding Agents Agents

Claude가 내 코딩 스타일을 기억한다? 5개월간 검증된 로컬 메모리 도구

Claude의 세션 간 기억 상실 문제를 해결하기 위해 로컬 임베딩과 3단계 메모리 계층을 사용하는 오픈소스 MCP 서버 iai-mcp가 공개됐다.

Claude CodeMCP

r/LLMDevs Benchmarks

에이전트 단계를 늘릴수록 문서 품질이 떨어진다? DELEGATE-52의 경고

LLM 에이전트의 워크플로 단계가 늘어날수록 문서 내용이 미세하게 변질되어 결국 데이터가 오염되는 현상이 확인됐다.

DELEGATE-52

r/LangChain Libraries Products

LangChain 1.0 정식 출시가 오히려 프레임워크 이탈의 계기가 된 이유

LangChain 1.0 정식 출시 이후 많은 개발팀이 업그레이드 비용과 프레임워크의 추상화 가치를 재평가하며 자체 SDK 기반 재작성을 고려하고 있다.

LangChainLangGraph

r/ClaudeAI Language Models Coding Agents

Claude와 Cursor에서 서버 없이 이메일을 보내는 가장 안전한 방법

서버나 복잡한 MCP 설정 없이 AI 에이전트가 허용된 주소로만 안전하게 이메일을 보낼 수 있게 해주는 경량 도구이다.

ClaudeCodexCursor

Claude

엔지니어 90%가 사용하는 Claude Code, Datadog은 어떻게 관리할까

Datadog이 Claude Code 도입 후 발생하는 일회성 도구 파편화 문제를 해결하기 위해 보안과 재사용성을 갖춘 Temper 프레임워크를 구축한 사례이다.

The AI Daily Brief

Coinbase의 대규모 감원과 AI 네이티브 조직으로의 전환

Coinbase의 14% 감원 사례를 통해 실리콘밸리 기업들이 어떻게 AI를 명분으로 조직을 슬림화하고 엔터프라이즈 중심 전략으로 선회하는지 분석합니다.

Augment Code Blog

1,400개의 PR 병목을 해결한 Augment의 AI 에이전트 팀 협업 전략

Augment Code는 AI 생성 코드로 인한 리뷰 병목을 해결하기 위해 Cosmos 플랫폼 기반의 멀티 에이전트 시스템을 구축하여 코드 출력량을 3배 늘리면서도 리뷰 시간을 66% 단축했습니다.

Scale AI

미 국방부, Scale AI와 5억 달러 계약 체결하며 AI 도입 가속화

Scale AI가 미국 국방부 CDAO와의 계약 규모를 기존 1억 달러에서 5억 달러로 5배 확대하며 전 군에 걸친 AI 인프라 공급을 강화합니다.

HF Daily Papers Architecture

긴 컨텍스트 학습의 비용과 시간를 대폭 줄이는 Lighthouse Attention

SDPA의 시퀀스 길이 의존성으로 인한 연산/메모리 증가를 해결하기 위해, Q/K/V를 대칭적으로 풀링하는 다층 피라미드와 비미분 Top‑K 선택을 적용한다. 선택 단계는 어텐션 커널 밖에서 수행되며, 선택된 서브시퀀스에 dense SDPA를 적용해 학습 중에도 인퍼런스에서의 dense 모델 성능을 보장한다. 또한 두 단계 학습 전략으로 전체 토큰 예산 하에서 Dense SDPA 재개 시 성능 회복이 가능함을 보여준다.

Lighthouse Attention

HF Daily Papers Architecture

STALE 벤치마크로 기억 업데이트의 한계를 드러내다

LLM 에이전트는 장기적 기억을 활용해 사용자에게 일관된 맞춤형 서비스를 제공해야 한다. 그러나 새로운 증거가 기존 기억을 간접적으로 바꿀 때 이를 인식하고 업데이트하는 능력은 아직 충분히 평가되지 않았다. STALE은 암묵적 충돌(Imlicit Conflict)을 체계적으로 시험하여, 모델이 과거의 신념을 업데이트하고, 그 여파가 downstream 행동에까지 반영되는지 검증한다.

CUPMEM

HF Daily Papers Architecture Datasets

FoE로 MoE의 그룹 간 통신 대폭 축소, 단일/다중 노드에서 5.2× 속도 향상

MoE 기반 LLM의 확장은 활성 전문가 간 라우팅이 네트워크 대역폭에 의존하는 과부하를 유발한다. FoE는 KV heads와 전문가를 그룹 단위로 분리하고, 각 그룹 내에서만 라우팅을 수행하며, 그룹 간에는 합산으로 결과를 공유한다. 이 설계는 inter-node 네트워크 트래픽을 줄이고 Local Activation Rate를 높여 단일 노드에서의 지연과 다중 노드에서의 스케일링을 개선한다. 실험은 LongBench에서 MoE 대비 엔드-투-엔드 전방 통과(latency) 및 TTFT, TBT를 각각 최대 5.2×, 3.62×, 1.95× 개선하며, 동일한 크기/학습 구성의 MoE와 비슷한 생성 품질을 유지함을 보여준다.

Federation of ExpertsLongBenchMixture-of-Experts (MoE)

2026년 5월 7일 AI 뉴스

상용 하드웨어로 108분까지 확장된 장기 에고센트릭 데이터를 수집하는 오픈 파이프라인

Activation Steering은 프롬프트 재현으로 역추정될 수 없음을 수학적으로 증명

모델 성능 저하의 주범, 데이터 정규화 불일치를 해결하는 법

자율주행 트럭 시대 개막, 오로라 CEO가 말하는 물리적 AI의 미래

오픈 소스 AI가 폐쇄형 모델을 따라잡을 수 있을까? 2026년 전망

재무 전문가가 코드 생성 AI를 거부한 이유와 Ramp의 에이전트 아키텍처

수작업은 끝났다! LLM으로 자동화하는 스마트한 ML 피처 엔지니어링

AI 모델의 성능 저하를 잡는다: Reality Drift 탐지 프레임워크 공개

구글의 승부수: AI 헬스 코치 정식 출시와 99달러 Fitbit Air 공개

1시간 분량 오디오를 단 2초 만에? IBM의 미친 성능 음성 AI 공개

디자이너 없이 30초 만에 애플·노션 스타일 웹사이트 만드는 법

이제 엑셀 안에서 ChatGPT를 바로 쓴다! 업무 효율 극대화 가이드

의료 영상 라벨링 시간 단축, CMU가 개발한 AI 도구 AutoMiSeg

AWS, AI 에이전트가 직접 결제하는 AgentCore Payments 발표

LLM이 찾아내는 보안 취약점, 전통적인 보안 엠바고 시스템을 무너뜨리나

스포티파이 AI DJ 한국 상륙, 이제 한국어 서비스와 대화형 요청 가능

Anthropic과 SpaceX의 깜짝 동맹과 OpenAI를 둘러싼 폭로전

오픈 웨이트의 반격, Kimi K2.6이 코딩 벤치마크에서 GPT-5.4를 넘어섰다

모델이 전부가 아니다? 에이전트 상용화의 핵심 '하네스 엔지니어링'

데이터의 흐름을 읽는 치트키, 일상 속 7가지 통계 분포 완벽 정리

내 노래가 180만 뷰인데 수익은 0원? AI 리믹스에 신음하는 음악계

클릭 한 번으로 만든 AI 앱, 당신의 기업 기밀을 전 세계에 노출 중

AI가 스스로의 한계를 아는가? Nemotron-3 Nano Omni의 인지 보안 평가 결과

코딩 없이 iOS·안드로이드 앱 제작부터 RAG 챗봇 연동까지 한 번에

ChatGPT의 공감 능력은 진짜일까? CEAT 인지 평가 결과 공개

테스트에선 완벽한 에이전트가 실전에선 왜 망가질까? 3계층 안정화 전략

GPU 없이 브라우저에서 끝내는 AI 미세 조정, 엔지니어의 역할이 바뀐다

의료 데이터 부족 해결! 레이아웃까지 완벽한 합성 PDF 생성기

Transformer와 Diffusion 모델의 최적성: 스즈키 타이지 교수의 AISTATS 기조연설

단순 프롬프트를 넘어 장애 이력까지 학습하는 AI 코드 리뷰어

노벨상 수상자 다론 아세모글루의 경고, 자동화가 생산성 대신 불평등만 키운 이유

Claude가 내 코딩 스타일을 기억한다? 5개월간 검증된 로컬 메모리 도구

에이전트 단계를 늘릴수록 문서 품질이 떨어진다? DELEGATE-52의 경고

LangChain 1.0 정식 출시가 오히려 프레임워크 이탈의 계기가 된 이유

Claude와 Cursor에서 서버 없이 이메일을 보내는 가장 안전한 방법

엔지니어 90%가 사용하는 Claude Code, Datadog은 어떻게 관리할까

Coinbase의 대규모 감원과 AI 네이티브 조직으로의 전환

1,400개의 PR 병목을 해결한 Augment의 AI 에이전트 팀 협업 전략

미 국방부, Scale AI와 5억 달러 계약 체결하며 AI 도입 가속화

긴 컨텍스트 학습의 비용과 시간를 대폭 줄이는 Lighthouse Attention

STALE 벤치마크로 기억 업데이트의 한계를 드러내다

FoE로 MoE의 그룹 간 통신 대폭 축소, 단일/다중 노드에서 5.2× 속도 향상

계층형 메모리 기반 가드레일로 LLM 에이전트 안전성의 경계 정밀화

토큰 합성으로 프리트레이닝 데이터 처리량을 2.5x 증가

결정적 오류 위치를 Contiguous Conformal Set으로 식별하는 MAS 오류 귀속 프레임워크

온디바이스에서 UI/비주얼/음성을 통합하는 모바일 에이전트

양자 영감 모델로 태양 주기 예측 정확도 13배 향상 및 파라미터 90% 절감

LLM 에이전트의 실패를 실시간으로 감지하는 PrefixGuard 프레임워크

이해 능력을 생성의 촉매제로 활용하여 이미지 생성 품질 대폭 향상

LLM 에이전트의 진화 단계: 단순 저장에서 자율적 경험 학습으로

LLM의 의도 파악 능력, 무작위 추측보다 낮은 25% 미만 충격적 결과

외부 모델 없이 LLM 스스로 성능을 5.4점 높이는 UniSD 프레임워크

5분 이상의 긴 영상도 끊김 없이 일관되게 생성하는 A2RD 기술 공개

VLM의 한계 돌파, 4D 잠재 정신 이미저리로 동적 공간 추론 성능 34% 향상

UniPrefill, LLM 첫 토큰 생성 속도 최대 2.1배 향상

100만 시간의 인간 비디오로 로봇 학습 데이터 부족 문제 해결

LPO: LLM의 추론 능력을 극대화하는 새로운 리스트 기반 강화학습 기법

음악만으로 고품질 댄스 영상 생성, MACE-Dance로 SOTA 달성

1000층 깊이의 DiT 학습 성공, 평균 모드 스크리밍 현상 해결

Apple, 희귀 토큰 학습 문제를 해결한 TIDE 아키텍처 공개

4B 소형 모델로 GPT-5.1을 압도하는 생물 의학 도구 호출 성능 달성

정답지 없는 노르웨이어 LLM 안전성 평가, SimpleAudit으로 해결

비디오 배경 교체 품질 28% 향상 및 14만 쌍의 대규모 데이터셋 Sparkle 공개

25만 개의 피아노 연주와 악보를 정밀하게 정렬한 역대 최대 MIDI 데이터셋

DeScore: 추론과 점수 산출을 분리해 비디오 평가 정확도 18% 향상

7,402개 모델 학습으로 밝혀낸 멀티모달 AI의 도메인 일반화 한계

LLM 내부에는 '개인'과 '국가'를 구분하는 기하학적 축이 존재한다

구글 딥마인드, FrontierMath 48% 달성한 AI 공동 수학자 공개

2K 고해상도 비디오 생성 비용 202배 절감, RTX 4090에서도 가능

MoE 전문가 공유로 파라미터 40% 절감하고 성능은 더 높였다

RL 학습 효율, 논리적 표현력에 따라 멱법칙으로 결정된다

외부 평가 모델 없이 에이전트 성능을 멀티홉 QA에서 +1.75점 향상

AI 에이전트가 스스로 코드를 수정하며 모델 학습 성능을 최대 38.7% 향상

전략적 추상화로 LLM 에이전트의 긴 작업 성공률 93.1% 달성

Lorem Ipsum이 LLM의 수학 추론 능력을 높인다? LOPE 프롬프트 기법 공개

단 4단계로 고해상도 이미지 생성, CDM으로 디테일과 속도 모두 잡았다

로봇의 상상과 현실을 비교해 추론 횟수 69% 절감 및 성공률 35% 향상

중국 문샷 AI, 기업가치 200억 달러 달성하며 20억 달러 추가 수혈

스마트폰에서 돌아가는 의료 AI, 27B 모델을 압도하는 4B의 기적