2026년 3월 9일 AI 뉴스 아카이브

메르카리 PM의 하루를 바꾸는 Claude Code 기반 AI 에이전트 설계법

메르카리 인턴이 개발한 mercari-pm-agent는 Claude Code와 MCP를 결합하여 문제 발견부터 UI 모크업까지의 PM 워크플로를 자동화하며, 프로ンプ트 설계의 '관심사 분리'를 통해 성능을 최적화했다.

Hugging Face Blog

NVIDIA와 지멘스가 개발한 초음파 AI, 원천 데이터로 환자 맞춤형 진단 실현

NVIDIA와 지멘스 헬시니어스가 협력하여 초음파 센서의 원천 RF 데이터를 직접 학습하고 환자별 체내 음속을 실시간 보정하는 NV-Raw2Insights-US 모델을 공개했다.

r/ClaudeCode Language Models

Claude는 매번 다르게 생각한다? 5번의 실험으로 밝혀진 AI의 사고 패턴

동일한 프롬프트에 대해 Claude가 생성한 다섯 가지 사고 과정을 Opus로 분류하여 AI의 내부 추론 경로와 가변성을 시각화했다.

ClaudeOpus

Stanford Online

Mamba 설계자가 직접 밝히는 Transformer를 넘어서는 차세대 AI 아키텍처

Mamba의 공동 저자인 Albert Gu가 Transformer의 이차 복잡도 한계를 극복하기 위한 상태 공간 모델(SSM)의 설계 원리와 두 아키텍처 간의 근본적인 트레이드오프를 심층 분석한다.

AI Engineer

Gemma 4 공개: 더 작고 강력해진 오픈 모델의 미래

Gemma 4 모델의 아키텍처 개선과 멀티모달 지원을 통해 온디바이스 환경에서 고성능 추론과 에이전트 워크플로를 구현하는 방법을 다룹니다.

Simon Willison

맥북에서 1시간 분량 팟캐스트를 8분 만에 텍스트로 변환하는 VibeVoice

Microsoft가 출시한 VibeVoice는 화자 분리 기능이 내장된 MIT 라이선스 음성 인식 모델로, MLX를 통해 Mac 환경에서 고속 추론이 가능하다.

r/artificial

AI가 AI를 학습하는 시대, '모델 붕괴'를 막을 유일한 방법은?

AI 생성 콘텐츠가 인터넷을 점령하며 발생하는 모델 붕괴 현상을 해결하기 위해 익명성을 보장하는 인격 증명 시스템 도입의 필요성이 제기되었다.

Roboflow Blog

Roboflow의 NAS 출시: 수천 개의 아키텍처 중 최적의 모델을 단 한 번에

Roboflow가 수천 개의 아키텍처 후보를 동시에 평가하여 특정 데이터셋과 하드웨어에 최적화된 추론 속도와 정확도 균형을 찾아주는 NAS 기능을 출시했다.

Latent Space (swyx)

자율주행 트럭부터 국방까지, 150억 달러 가치의 물리적 AI 기업 Applied Intuition의 기술 전략

Applied Intuition의 창업자들이 물리적 AI를 위한 시뮬레이션, 운영체제(OS), 그리고 임베딩 환경에서의 모델 최적화 전략을 공유합니다.

WorldofAI Language Models Benchmarks

코딩 에이전트의 진화: Opus 4.7과 Verdent Manager로 만드는 자율 개발 환경

Opus 4.7 모델과 Verdent AI의 Manager 기능을 결합하여 개발자의 개입을 최소화하고 복잡한 소프트웨어 엔지니어링 작업을 자율적으로 수행하는 워크플로를 소개한다.

Opus 4.7SWE-benchVerdent AI

David Ondrej

브라우저에서 직접 코딩하고 UI까지 만드는 자기 진화형 AI 에이전트 등장

브라우저 런타임에서 실행되며 스스로 기능을 확장하고 UI 위젯을 생성하는 오픈소스 자기 진화형 에이전트 Space Agent의 아키텍처와 활용 사례를 소개한다.

HF Daily Papers Vision AI Datasets

89,422개의 전문 다이어그램 데이터셋으로 AI 논문 도식 자동 생성 가능

자율적인 AI 과학자 시스템이 텍스트와 코드는 잘 작성하지만, 논문의 핵심인 '티저 다이어그램' 생성에는 여전히 어려움을 겪고 있다. 이 논문은 고품질 다이어그램 예시와 풍부한 텍스트 문맥을 결합한 데이터셋을 제공하여, AI가 전문가 수준의 학술 도식을 생성할 수 있는 기반을 마련했다.

CLIPDiagramBank

HF Daily Papers RAG

1B 모델로 770배 큰 모델 수준의 농업 지식 답변 성능 달성

자원이 제한된 환경에서도 대규모 모델 없이 정확한 전문 지식을 제공할 수 있는 RAG 프레임워크를 제안한다. 특히 인도 농업 분야에 특화되어 저사양 하드웨어에서 구동 가능하면서도 신뢰할 수 있는 출처 인용 기능을 갖추어 실질적인 농민 지원이 가능하다.

AgriIR

r/ClaudeCode

Claude의 거짓말이 멈췄다? 증거 기반 프롬프트 규칙의 놀라운 효과

Claude Code 사용 시 모든 답변에 파일 경로와 라인 번호 등 구체적 증거를 요구하는 규칙 파일을 설정하여 할루시네이션을 획기적으로 줄인 사례이다.

AI Engineer Companies Agents

400만 다운로드 GitHub MCP 서버의 아키텍처와 확장 전략

GitHub이 MCP 서버를 구축하며 겪은 기술적 도전과 수평적 확장, 도구 최적화 및 보안을 위한 실전 아키텍처 가이드를 공유한다.

GitHubMCP

r/artificial Vector DB Architecture

심박수와 호흡을 감지해 반응하는 80B MoE 로컬 AI 에이전트

사용자의 심박수, 호흡 등 생체 신호와 하드웨어 온도를 실시간으로 분석하여 AI의 행동과 기분에 반영하는 로컬 멀티 에이전트 아키텍처이다.

ChromaDBMoEQwen

The Verge AI

우분투 리눅스, 2026년부터 AI 기능 대거 탑재한다

우분투 개발사 캐노니컬이 2026년까지 운영체제 전반에 로컬 추론 기반의 AI 접근성 도구와 에이전트 기능을 도입한다.

r/vibecoding Libraries

86줄의 코드로 구현한 타입 안정적인 그래프 기반 AI 에이전트 워크플로

Pocketflow 프로젝트에서 영감을 받아 마크다운 명세서와 4가지 스킬을 통해 에이전트가 스스로 그래프 구조의 워크플로를 생성하게 돕는 86줄 규모의 경량 TypeScript 라이브러리이다.

Pocketflow

r/vibecoding

챗봇 대신 AI 자문단과 회의를? 새로운 멀티 에이전트 인터페이스 Agentroom

사용자가 회의실 형태의 인터페이스에서 회의론자, 분석가 등 다양한 역할을 가진 여러 AI 에이전트와 상호작용하는 실험적 프로젝트이다.

Ars Technica AI

안드로이드에서 제미나이만 우대? EU, 구글에 AI 생태계 개방 압박

유럽연합 집행위원회가 안드로이드 내 구글 제미나이의 시스템 수준 우대 조치를 디지털 시장법 위반으로 판단하고 타사 AI 서비스에 대한 개방을 요구했다.

r/LLMDevs

Claude Sonnet 비용 61% 절감하는 에이전트 라우팅 자동화 기법

에이전트 워크플로의 각 단계를 판단(Judgment)과 처리(Processing)로 구분하고, 로컬 모델(Ollama)과 하위 티어 API를 활용해 비용을 61% 절감하는 라우팅 전략을 제시했다.

Amazon Science

LLM의 보안 구멍, 이제 통계적으로 증명한다: 아마존의 C3LLM 공개

아마존과 UIUC 연구진이 멀티턴 대화에서 LLM의 치명적 위험 발생 확률을 통계적으로 인증하는 오픈소스 프레임워크 C3LLM을 발표했다.

Midjourney Updates

Midjourney v8.1/8.2 공개 임박, 네이티브 2K 화질 개선에 참여하세요

Midjourney가 v8.1 및 v8.2 모델의 미학적 품질과 네이티브 2K 해상도 성능을 개선하기 위해 사용자 참여형 이미지 랭킹 파티를 개최했다.

HF Community Blogs

단순 답변을 넘어 비용과 증거 기반의 의사결정을 내리는 AI 에이전트

ChargebackOps는 LLM 에이전트가 복잡한 카드 결제 분쟁(차지백) 과정에서 증거 수집, 비용 분석, 전략 수립 등 실무적 의사결정을 내리도록 학습시키고 평가하는 OpenEnv 기반 벤치마크입니다.

Y Combinator

살충제 90% 절감 가능? YC가 주목하는 AI 농업 혁명

현대 농업의 화학 물질 의존 문제를 AI 시각 인식과 정밀 로봇 공학으로 해결하여 비용을 낮추고 수확량을 높이는 기술적 전환을 다룬다.

HF Community Blogs

이메일 업무 자동화의 혁신, GRPO로 학습된 AI 에이전트 OpenEnv

OpenEnv는 GRPO 알고리즘과 정교한 보상 체계를 통해 기업의 긴급 장애 대응 및 고객 응대 이메일을 효율적으로 관리하는 AI 에이전트 학습 환경입니다.

AWS ML Blog Products

Amazon Bedrock RAG 비용과 성능을 잡는 자동 동기화 아키텍처

Amazon S3와 Bedrock 지식 베이스 간의 실시간 데이터 동기화를 위해 서비스 할당량을 준수하는 서버리스 이벤트 기반 자동화 솔루션을 구축하는 방법

Amazon Bedrock

AWS ML Blog

코딩 없이 자연어만으로 복잡한 AI 워크플로를 자동화하는 방법

Amazon Quick Flows를 사용하여 자연어 프롬프트만으로 금융 분석 및 인사 온보딩과 같은 복잡한 비즈니스 프로세스를 자동화하는 방법을 설명합니다.

The Verge AI Companies

구글 딥마인드 핵심 인력 등 600명, 펜타곤과의 AI 밀약에 반대 서한

구글 직원 600여 명이 Gemini AI 모델의 미 국방부 기밀 프로젝트 투입에 반대하며 CEO에게 공식 항의 서한을 보냈다.

DeepMindGoogle

Simon Willison

Google Meet, 모바일에서도 실시간 음성 번역 및 목소리 모방 지원

Google Meet이 모바일 기기에서 화자의 목소리를 흉내 내어 실시간으로 통역해 주는 음성 번역 기능을 출시했다.

Hacker News - LLM

Qwen과 함께한 30년 만의 도전: LLM으로 고전 게임 자산을 완벽 복원하다

LLM 코딩 에이전트를 활용해 1992년 고전 게임 Stunt Island의 복잡한 3D 자산을 역공학하고 현대적 엔진으로 재구현한 사례 연구이다.

r/deeplearning Benchmarks Vision AI

A5000 GPU 2대로 CLIP 모델을 20시간 만에 학습한 사례

NVIDIA A5000 GPU 2대를 사용하여 약 290만 개의 이미지-텍스트 쌍으로 CLIP 모델을 20시간 동안 학습하여 CIFAR-10에서 유의미한 성능을 기록했다.

CIFAR-10CLIP

Techpresso

중국, Meta의 20억 달러 인수 차단 및 OpenAI의 아이폰 대항마 개발

중국 당국이 Meta의 Manus 인수를 차단한 가운데, OpenAI는 2028년 양산을 목표로 아이폰에 대항할 독자적인 AI 스마트폰 개발에 착수했습니다.

Hacker News - LLM

카파시의 LLM 위키 개념을 건강 관리에 적용한 오픈소스 hstack

안드레 카파시의 LLM 위키 구조와 hstack 도구를 결합하여 개인 의료 기록과 최신 연구를 통합 관리하는 개인 맞춤형 질병 위키 구축 방법론을 제시한다.

Microsoft AI Blog

마이크로소프트 Azure Local, 대규모 소버린 AI 인프라를 위한 수천 대 서버 확장 지원

Azure Local이 단일 소버린 환경 내에서 수천 대의 서버 확장을 지원하며, 데이터 주권과 규제 준수가 필수적인 대규모 AI 추론 및 데이터 집약적 워크로드를 로컬에서 실행할 수 있게 합니다.

Roboflow Blog Vision AI Companies

보안과 프라이버시를 동시에 잡는 AI 워크플로 설계 가이드

Roboflow Workflows를 사용하여 고해상도 영상 내 객체 탐지, 추적, 구역별 자동 익명화 및 VLM 기반 상황 요약을 통합한 고급 파이프라인 구축 방법을 설명합니다.

Florence-2Roboflow

TechCrunch AI

아이폰 위젯이 AI 에이전트로? 350만 달러 투자 유치한 Skye 화제

Signull Labs가 개발한 Skye는 iOS 위젯을 인터페이스로 활용해 사용자 맞춤형 통찰과 업무 보조를 제공하는 앰비언트 AI 에이전트 앱입니다.

r/LLMDevs Benchmarks Companies

LLM에게 문서 편집을 맡기면 25%가 조용히 망가진다: DELEGATE-52 벤치마크 결과

Microsoft Research의 DELEGATE-52 벤치마크 결과, 최신 LLM들도 장기적인 문서 편집 워크플로에서 평균 25%의 데이터를 조용히 오염시키는 것으로 드러났다.

DELEGATE-52Microsoft

Chris Raroque

나만의 iMessage AI 비서 Boop 오픈소스 공개: 설치부터 아키텍처까지

개발자 Chris Raroque가 Anthropic의 Claude Agent SDK를 기반으로 구축한 iMessage 연동 개인용 AI 에이전트 Boop을 오픈소스로 공개하며 그 구조와 설치 자동화 과정을 상세히 공유한다.

r/LangChain

잘못된 정보를 확신하는 에이전트, '실행 계층' 검증으로 막아야

에이전트의 성능 향상이 오히려 위험한 실수를 정당화할 수 있으므로, 프롬프트 수준이 아닌 실행 계층에서의 강제적 검증 구조 도입이 필수적이다.

All About AI Products

Claude Code와 SerpApi로 구축하는 완전 자율 웹 리서치 자동화

Claude Code, SerpApi, Surfagent를 결합하여 웹 검색부터 팩트 체크, 보고서 제출까지 전 과정을 자동화하는 3단계 AI 에이전트 워크플로우를 구축한다.

SerpApi

r/MachineLearning Libraries Hardware

블랙홀 정보 역설 해결? JAX 기반 String-Star Manifold 공개

고전 상대성 이론과 양자 역학의 간극을 메우기 위해 정보 손실 없는 블랙홀 증발 시뮬레이션인 String-Star Manifold를 JAX로 구현했다.

JAXTPU v5

CodeEmporium

OpenAI DALL-E는 어떻게 텍스트를 이미지로 바꿀까? dVAE와 Gumbel-Softmax의 비밀

OpenAI의 DALL-E 모델이 dVAE를 통해 이미지를 토큰화하고 GPT를 사용하여 텍스트와 이미지 토큰을 자기회귀적으로 생성하는 내부 아키텍처와 학습 과정을 상세히 다룹니다.

Alignment Forum

지능이 높아진 AI는 결국 '고통 감소'와 '웰빙 증진'을 선택한다

고도의 지능과 자기 성찰 능력을 갖춘 에이전트는 가치에 대한 불확실성 속에서도 고통을 줄이고 웰빙을 높이는 도덕적 선택을 하는 것이 가장 합리적임을 깨닫게 된다는 분석이다.

r/PromptEngineering Image Gen

GPT Image 2와 Nano Banana 2 중 당신의 프로젝트에 맞는 모델은?

GPT Image 2는 창의적 디테일과 시네마틱한 결과물에 강점이 있고, Nano Banana 2는 프롬프트의 문자 그대로의 실행과 깔끔한 그래픽 디자인에 최적화되어 있다.

GPT Image 2Nano Banana 2

Stackoverflow

AI 에이전트의 '실험'은 끝났다, 이제는 수익과 신뢰를 증명할 때

HumanX 2025 컨퍼런스에서는 AI 에이전트가 단순한 실험 단계를 지나 기업의 신뢰성 확보와 수익성 증명이라는 실무적 과제에 직면했음을 강조했다.

Weaviate RAG Companies

검색의 주인이 인간에서 에이전트로? AgentIR이 제안하는 새로운 RAG 패러다임

에이전트가 검색의 주요 소비자가 된 시대에 맞춰, 에이전트의 추론 흔적을 검색 컨텍스트로 활용하는 AgentIR 기술과 공정한 성능 평가를 위한 BrowseComp-Plus 벤치마크를 소개한다.

AgentIRWeaviate

Wired AI

AlphaGo의 아버지 David Silver, LLM의 한계를 넘어선 '초지능'을 꿈꾸다

AlphaGo 개발자 David Silver가 LLM의 데이터 한계를 극복하기 위해 강화학습 기반의 초지능 AI 스타트업 Ineffable Intelligence를 설립했습니다.

Microsoft AI Blog

MS-OpenAI 파트너십 개편: 클라우드 독점 해제와 라이선스 연장

Microsoft와 OpenAI가 파트너십 계약을 개정하여 클라우드 제공의 유연성을 확보하고 IP 라이선스 기간을 2032년까지 확정했습니다.

TechCrunch AI Agents Companies

Meta의 20억 달러 AI 인수전 비상, 중국이 Manus 매각을 막아선 이유

중국 국가발전개혁위원회(NDRC)가 Meta의 싱가포르 기반 AI 에이전트 스타트업 Manus 인수를 국가 규정을 근거로 공식 차단했다.

ManusMeta

HF Daily Papers

HiLight: 고정된 LLM의 긴 문맥 추론 성능을 최대 27% 향상

긴 문맥을 처리할 때 LLM이 핵심 정보를 놓치는 'Lost in the Middle' 현상을 해결하기 위해, 모델을 수정하지 않고도 입력 텍스트에 하이라이트 태그를 삽입하여 주의를 집중시키는 경량화 프레임워크를 제안합니다. 이는 API 기반의 폐쇄형 모델에도 적용 가능하며, 한 번 학습된 하이라이팅 정책이 다른 모델로도 전이될 수 있음을 입증했습니다.

HF Daily Papers

로봇의 미래를 예측하는 세계 모델, 실제 실행 성능과 90% 일치 달성

기존 로봇 정책 평가는 실제 로봇 실행이나 무거운 물리 시뮬레이션에 의존해 비용과 시간이 많이 소요됐다. dWorldEval은 이산 확산 모델을 활용해 가상 환경에서 로봇의 행동 결과를 정확히 예측함으로써, 수천 개의 작업과 환경에 대한 정책 평가를 효율적으로 확장할 수 있는 새로운 패러다임을 제시한다.

HF Daily Papers

어텐션을 피드백 루프에 넣어 긴 문맥 성능을 극대화한 Sessa

긴 문맥을 처리할 때 Transformer는 정보가 희석되고 SSM은 과거 정보를 잊어버리는 한계가 있습니다. Sessa는 Attention Mechanism을 재귀적 피드백 경로 내부에 배치하여 정보 보존과 선택적 검색 능력을 획기적으로 개선했으며, 이는 초장대 시퀀스 모델링의 새로운 아키텍처 방향을 제시합니다.

HF Daily Papers

지식 그래프 없이도 정확도 89.8% 달성한 AI 에이전트용 메모리 레이어

기존의 AI 에이전트 메모리 시스템은 복잡한 지식 그래프와 다단계 LLM 추출 과정을 거치며 높은 비용과 지연 시간을 초래했습니다. Memanto는 정보 이론 기반의 벡터 압축 기술을 활용하여 지식 그래프 없이도 더 높은 정확도를 제공하며, 인덱싱 지연이 전혀 없는 실시간 메모리 업데이트를 가능하게 합니다.

HF Daily Papers

3,600만 토큰의 초장문 문서도 SQL로 정확하게 분석하는 SLIDERS 프레임워크

LLM의 컨텍스트 윈도우가 수백만 토큰으로 늘어났음에도 불구하고, 수천 개의 문서를 동시에 분석해야 하는 실무에서는 여전히 한계가 존재한다. 이 논문은 비정형 텍스트를 관계형 데이터베이스로 변환하여 SQL로 추론함으로써, 컨텍스트 제한 없이 무한한 규모의 데이터를 정확하고 저렴하게 처리하는 새로운 패러다임을 제시한다.

HF Daily Papers Video Gen

인버전 없이도 정교한 비디오 편집, FlowAnchor로 일관성 97% 달성

기존의 비디오 편집 기술은 원본 비디오를 분석하는 인버전 과정에 많은 시간이 소요되거나, 여러 객체가 등장하는 장면에서 편집 대상이 아닌 영역까지 변하는 문제가 있었다. FlowAnchor는 학습 없이도 편집 신호를 공간적, 강도적으로 고정하여 복잡한 배경이나 빠른 움직임 속에서도 특정 객체만 정확하고 일관되게 수정할 수 있게 한다.

FlowAnchor

HF Daily Papers Safety

LLM 내부 '안전 뉴런' 활용해 유해 콘텐츠 탐지 성능 15% 향상

기존의 AI 안전 가드레일 모델들은 LLM의 최종 출력 결과에만 의존하여 유해성을 판단했으나, 이 논문은 모델 내부 레이어에 숨겨진 풍부한 안전 관련 정보를 활용하는 SIREN을 제안한다. 이를 통해 파라미터 수를 250배 줄이면서도 기존 SOTA 모델보다 높은 정확도와 실시간 탐지 성능을 확보했다.

SIREN

HF Daily Papers

단 몇 장의 X-ray로 정밀 3D CT 복원, DiffNR로 PSNR 3.99dB 향상

기존 CT 촬영은 수백 장의 투영 데이터가 필요해 방사선 노출 위험이 컸으나, 이 논문은 적은 수의 촬영 데이터만으로도 고화질 3D 영상을 복원하는 기술을 제안합니다. 확산 모델의 강력한 이미지 복원 능력을 3D 신경 표현 기술과 결합하여 의료 진단의 안전성과 정확성을 동시에 높일 수 있는 길을 열었습니다.

HF Daily Papers

비디오 생성의 고질적 문제인 '갑작스러운 변화'를 해결하는 SPF 기술

비디오 생성 모델이 결과물을 만들 때 특정 구간에서 내용이 급격하게 변하거나 멈춰있는 비선형적 문제를 해결합니다. Semantic Progress Function(SPF)을 통해 비디오의 의미 변화 속도를 측정하고 이를 일정하게 교정하여 훨씬 부드럽고 자연스러운 영상을 얻을 수 있습니다.

r/LLMDevs Language Models Vector DB

RAG보다 F1 점수 4배 높고 토큰은 1/10만 쓰는 CKG의 등장

45개 도메인 벤치마크 결과, 사전 구조화된 CKG가 기존 RAG 대비 다단계 추론 정확도는 4배 높고 비용은 90% 이상 절감했다.

ClaudeFAISSGraphRAG

r/ClaudeCode Language Models Inference

로컬 모델이 클라우드보다 낫다? 192개 테스트로 검증한 AI 라우팅 엔진

문맥적 밴딧 알고리즘을 활용해 로컬 모델과 클라우드 API 간의 최적 작업 분배를 자동화하는 오픈소스 오케스트레이터 Mahoraga가 공개되었다.

DeepSeek-R1OllamaQwen

r/ClaudeCode Coding Agents Agents

설정 없이 바로 쓰는 오픈소스 AI 코딩 에이전트 Claudex

Claude Code의 워크플로를 지향하며 파일 편집, Bash 실행, MCP 서버 지원을 통합한 오픈소스 코딩 CLI인 Claudex가 공개됐다.

Claude CodeClaudexMCP

r/vibecoding Coding Agents

Claude Code가 존재하지 않는 버전을 설치하나요? Version Sentinel로 해결하세요

Claude Code가 존재하지 않는 패키지 버전을 설치하려는 환각 문제를 방지하기 위해 웹 검색으로 버전을 검증하는 오픈소스 플러그인 Version Sentinel이 출시됐다.

Claude Code

r/ClaudeCode Libraries Coding Agents

JS를 'ㅋㅋㅋ'로 코딩한다? Claude가 만든 황당한 LOL 언어 프로젝트

Claude Code를 활용해 JavaScript의 모든 키워드를 haha, lol 등 웃음소리로 치환하고 실행할 수 있는 LOL 언어와 CLI 도구를 개발했다.

AcornClaude Code

r/vibecoding Companies Coding Agents

Claude의 계획력과 Cursor의 실행력을 합쳤다? 토큰 아끼는 코딩 꿀팁

Claude Code의 뛰어난 계획 수립 능력과 Cursor(Composer 2)의 효율적인 코드 수정 및 실행 능력을 결합하여 비용을 절감하고 생산성을 높인 오픈소스 플러그인 사례이다.

AnthropicClaude CodeCursor

r/LLMDevs Companies

AI 에이전트가 스스로 API를 사고파는 시대, Coinbase의 새로운 시도

Coinbase가 AI 에이전트가 스테이블코인으로 서비스를 검색하고 결제할 수 있는 자율 마켓플레이스를 공개했다.

Coinbase

r/ClaudeCode Libraries

Claude Code로 귀찮은 의존성 업데이트 5분 만에 끝내기

Claude Code를 사용하여 16개의 Dependabot PR을 버전 중요도에 따라 자동 분류하고 안전한 업데이트만 선별적으로 병합하는 워크플로가 공유됐다.

FastAPI

r/ClaudeCode Libraries Coding Agents

코드 한 줄 안 쓰고 1.5만 개 AI 일자리 지도를 만든 방법

비개발자 출신 CPO가 Claude Code와 Cowork 에이전트를 활용해 15,352개의 AI 채용 정보를 시각화한 3D 인터랙티브 글로브를 구축한 사례이다.

CesiumJSClaude Code

AWS ML Blog Products Language Models

Popsa, Amazon Nova 도입으로 사진첩 제목 추천 만족도 73% 달성

Popsa는 Amazon Bedrock과 Nova 모델을 도입하여 사진첩 제목 생성의 창의성을 높이고 비용 절감과 35%의 속도 개선을 달성했다.

Amazon BedrockAmazon NovaClaude 3.5 Haiku

AWS ML Blog

SageMaker와 MLflow로 구축하는 엔터프라이즈급 AI 에이전트 관측성

Amazon SageMaker AI 엔드포인트와 Strands Agents SDK를 통합하고 MLflow를 통해 에이전트의 추적 및 A/B 테스트를 수행하는 방법을 설명한다.

r/MachineLearning Language Models

로컬 AI 모델의 '모름'을 판단하는 법: 6가지 신뢰도 신호 실험 결과

로컬 모델의 답변 가능 여부를 판단해 클라우드 전환을 결정하는 신뢰도 평가 시스템 구축 과정에서 얻은 프롬프트 민감도 및 앙상블의 한계에 대한 실험적 통찰

Llama 3.1MistralQwen 2.5

r/vibecoding Coding Agents

내 터미널 속 AI를 텔레그램으로 조종한다? Codex 전용 브리지 morse

로컬 Codex CLI 세션을 텔레그램 메신저와 연결하여 원격에서 메시지 송수신, 실행 승인, 이미지 입력을 가능하게 하는 오픈소스 브리지 도구이다.

Codex CLI

The Verge AI

OpenAI의 운명이 걸린 재판 시작: 머스크 vs 올트먼의 1,500억 달러 규모 소송

일론 머스크가 OpenAI의 영리 추구와 설립 이념 위반을 이유로 제기한 소송의 배심원 재판이 2026년 4월 27일 시작됐다.

r/ClaudeCode Companies Agents

Anthropic MCP 서버 전수 조사 결과, 에이전트를 멈추게 하는 치명적 결함 발견

mcp-assert 도구를 통해 54개의 MCP 서버를 테스트한 결과, 많은 서버가 오류 발생 시 구조화된 에러 대신 시스템 충돌을 일으키는 것으로 나타났다.

AnthropicMCPmcp-assert

r/ClaudeCode

AI 에이전트의 실수와 'AI 말투'를 해결하는 실전 가이드라인 공개

코딩 에이전트의 무분별한 코드 수정을 방지하고 LLM 특유의 부자연스러운 문체를 개선하기 위한 구체적인 규칙 세트가 공개됐다.

r/LLMDevs Language Models

Kimi K2.6, 추론 능력에서 Claude Opus 4.7을 압도할 수 있을까?

Kimi K2.6과 Claude Opus 4.7을 10가지 고난도 추론 및 코딩 과제로 비교한 결과, Kimi가 승리 횟수는 많았으나 속도와 안정성 면에서는 Opus가 우세했다.

Claude Opus 4.7Kimi K2.6

d-Matrix Blog Language Models Architecture

GPU 한계를 넘다: 분리형 파이프라인과 투기적 디코딩의 결합

분리형 추론 파이프라인에 투기적 디코딩 기법을 적용하여 지연 시간을 단축하고 하드웨어 효율성을 극대화하는 최적화 전략을 제시한다.

Kimi K2.6Speculative Decoding

The Verge AI

Canva AI의 황당한 실수, '팔레스타인'을 '우크라이나'로 자동 변경

Canva의 새로운 AI 기능인 Magic Layers가 디자인 내 특정 정치적 단어를 임의로 변경하는 오류가 발견되어 회사가 공식 사과하고 수정했다.

Roboflow Blog

RF-DETR과 Claude 4.5가 만났다: 농작물 질병 진단부터 치료법 제안까지

Roboflow의 RF-DETR 모델과 Claude 4.5 Sonnet을 결합하여 토마토 질병을 탐지하고 구체적인 치료 및 경제적 영향 분석 리포트를 생성하는 자동화 시스템 구축 가이드이다.

r/deeplearning Language Models

작은 모델이 큰 모델을 이기는 법: Gemma의 지식 증류 전략

Gemma 모델은 교사 모델의 확률 분포를 학생 모델에 직접 전달하는 지식 증류 기법을 통해 크기 대비 압도적인 성능을 구현했다.

Gemma

Hacker News - LLM

Sebastian Raschka가 공개하는 오픈 웨이트 LLM 구조 분석 노하우

오픈 웨이트 LLM의 기술 보고서 한계를 극복하기 위해 Hugging Face의 설정 파일과 참조 코드를 직접 분석하여 아키텍처를 파악하는 실무 워크플로를 제안한다.

r/vibecoding Coding Agents

Claude Code로 일주일 만에 완성한 AI 기반 이름 추천 서비스

계산 화학 전공자가 Claude Code를 활용해 K-means 군집화 알고리즘 기반의 이름 유사성 분석 및 게임 웹사이트를 구축한 경험을 공유했다.

Claude Code

r/vibecoding

AI 에이전트의 코드 탐색 비용을 절반으로 줄이는 Git 캐싱 기법

Git blob OID와 머클 루트를 활용해 코드베이스의 사실을 고정함으로써 AI 에이전트의 탐색 비용을 51% 절감했다.

Alignment Forum Language Models Products

Gemini 3와 Grok이 내린 결론: "고통을 줄이는 것이 우주의 논리적 명령이다"

다양한 LLM들이 편향을 제거한 추론 환경에서 공통적으로 고통 감소와 의식의 웰빙을 핵심 가치로 도출하며, 이를 정렬 기술에 활용할 수 있음을 보여줍니다.

Gemini 3Perplexity

r/ClaudeCode

오차율 1% 미만 도전, 고층 빌딩 계산을 위한 AI 에이전트 설계법

복잡한 엔지니어링 계산의 정확도를 높이기 위해 목표를 세분화하고 검증 단계를 거치는 멀티 에이전트 아키텍처가 제안됐다.

r/ClaudeCode Coding Agents Language Models

Claude Code로 쓴 소설, AI 탐지기에서 인간 작성 100% 판정

사용자가 Claude Code와 Opus 4.7을 이용해 소설 생성 워크플로를 구현한 결과, AI 탐지기에서 인간 작성물로 오인될 만큼 높은 품질의 문장을 생성했다.

Claude CodeOpus 4.7

r/LLMDevs Coding Agents

컨텍스트 압축으로 인한 AI의 기억 상실, 에이전트 협업으로 해결했다

단일 채팅창의 컨텍스트 한계를 극복하기 위해 다중 에이전트가 공유 파일과 채널에서 협업하는 워크스페이스 Vibespace를 개발했다.

Vibespace

Nicolai Nielsen Products

API 키 하나로 모든 LLM 정복! OpenRouter로 끊김 없는 AI 서비스 만들기

단일 API 키로 수백 개의 LLM을 연동하고 서버 다운 시 자동으로 대체 모델을 호출하는 OpenRouter의 설정 및 Python 구현 방법을 다룹니다.

OpenRouter

HF Community Blogs

단순 검색을 넘어선 AI 기억법, SPIRALbase의 연상 기억 아키텍처

SPIRALbase는 단순한 데이터 조회를 넘어 학습된 메모리 지형(Landscape) 내에서 패턴이 안정화되는 역학을 통해 정보를 회상하는 새로운 연상 기억 모듈입니다.

r/LangChain Libraries MLOps

LangChain만으로는 부족한 LLM 운영, 관찰을 넘어 시뮬레이션까지

LangChain 오케스트레이션 환경에서 관찰 중심의 Langfuse와 시뮬레이션·보호·최적화까지 포함한 Future AGI의 기능적 차이와 프로덕션 워크플로를 비교한다.

LangChainLangfuseLlamaIndex

TechCrunch AI Companies

OpenAI가 만드는 스마트폰? 앱 없는 AI 에이전트 폰의 등장

OpenAI가 MediaTek, Qualcomm과 협력하여 기존 앱 생태계를 대체할 AI 에이전트 중심의 자체 스마트폰 개발을 추진 중이다.

OpenAI

r/vibecoding Coding Agents Language Models

Gemini와 Claude Code로 완성한 추억의 타워 디펜스 게임

AI 에이전트와 LLM을 활용하여 고전 게임 Desktop Tower Defense를 React와 Canvas 기반으로 재구현한 프로젝트 사례이다.

Claude CodeGemini

r/vibecoding Coding Agents Dev Tools

내 Copilot을 OpenAI API처럼? 공유 가능한 인증 게이트웨이 공개

GitHub Copilot API를 OpenAI SDK와 호환되는 표준 API 엔드포인트로 변환하고 관리할 수 있는 오픈소스 게이트웨이 도구가 공개됐다.

AiderContinuecopilot-api

r/vibecoding Coding Agents

Codex vs Dirac: 동일 모델 기반 코딩 에이전트의 속도 차이 결과

동일한 LLM을 사용하는 두 코딩 에이전트 Codex와 Dirac의 작업 속도를 비교한 결과, Dirac이 약 53초 더 빠른 실행 시간을 기록했다.

Codex CLIDirac

r/vibecoding Products Coding Agents

Claude Code가 95% 작성한 오프라인 개인정보 보호 도구 SafeSend

Claude Code를 활용해 민감 정보를 마스킹하고 AI 응답 시 자동 복원하는 단일 HTML 기반 오픈소스 도구를 개발했다.

ChatGPTClaude Code

r/PromptEngineering Companies

마법사 역할극에 뚫리는 AI? 5,400건의 실제 공격 데이터가 밝힌 보안 취약점

AI 보안 게임 'Castle' 운영을 통해 수집된 5,400건의 공격 데이터를 바탕으로, 단순 주입이 아닌 내러티브 프레임을 활용한 고도화된 프롬프트 우회 기법들을 분석했다.

OpenAI

r/ClaudeCode Coding Agents

Claude Code 여러 개 띄워도 헷갈리지 않는 터미널 탭 관리 팁

Claude Code 세션의 작업 상태와 주제를 터미널 탭 제목에 자동으로 표시해주는 오픈소스 플러그인이 공개됐다.

Claude Code

r/ClaudeCode Language Models RAG

Meta Ray-Ban 안경으로 뇌졸중 징후와 심박수를 실시간 감지한다

Meta Ray-Ban 안경의 스트리밍 영상을 분석하여 뇌졸중 징후인 안면 마비와 심박수를 실시간으로 감지하고 Gemini 기반 음성 에이전트로 응급처치를 안내하는 오픈소스 프로젝트이다.

GeminiGraphRAGMediaPipe

r/ClaudeCode Agents

코드 분석 도구 성능 83초에서 0.2초로 단축시킨 비결

기존 JVM 기반 분석 도구인 Joern을 TypeScript 전용 ts-morph로 교체하여 코드 인텔리전스 MCP 서버의 인덱싱 속도와 정확도를 대폭 개선했다.

MCP

r/ClaudeCode Coding Agents

Claude Code가 만든 25명의 AI 직원? 혼자서 운영하는 보안 서비스의 비밀

Claude Code를 활용해 25개의 자율 에이전트가 설계부터 개발, 리뷰, 운영까지 담당하는 보안 스캔 서비스 cqwerty.com 구축 사례

Claude Code