2026년 3월 23일 AI 뉴스 아카이브

Claude 3 Opus 출시 당일 v0가 바로 대응할 수 있었던 비결

Vercel의 Guillermo Rauch가 Anthropic과 함께 모델의 비약적 발전에 대응하는 아키텍처 설계와 에이전트 중심 기업으로의 전환 과정을 공유한다.

Anthropic

GRPO가 실패하는 콜드 스타트 환경에서 추론 모델을 구출하는 Tsallis Loss 기법

검증 가능한 보상(RLVR) 기반의 강화학습은 초기 성공 확률이 낮을 때 학습이 정체되는 '콜드 스타트' 문제를 겪는다. 이 논문은 Tsallis q-logarithm을 활용해 강화학습과 지도 학습 사이를 매끄럽게 연결함으로써, 초기 학습 속도를 획기적으로 높이고 노이즈에 강한 추론 모델을 만드는 새로운 방법론을 제시한다.

HF Daily Papers Training Agents

인간 개입 없이 LLM 에이전트 기술 성능 127% 향상 달성

LLM 기반 에이전트의 기술들이 파편화되어 성능이 일정하지 않은 문제를 해결하기 위해, 에이전트가 스스로 기술의 한계를 탐색하고 개선하는 자동화 프레임워크를 제안한다. 특히 추가적인 모델 학습 없이도 기존 기술의 프롬프트와 코드를 최적화하여 실무 적용성을 극대화했다.

GRPOSkills-CoachSkill-X

Augment Code Blog

1,400개의 PR 병목을 해결한 Augment의 AI 에이전트 팀 협업 전략

Augment Code는 AI 생성 코드로 인한 리뷰 병목을 해결하기 위해 Cosmos 플랫폼 기반의 멀티 에이전트 시스템을 구축하여 코드 출력량을 3배 늘리면서도 리뷰 시간을 66% 단축했습니다.

r/LangChain Libraries

프롬프트 한 줄 바꿨는데 에이전트가 폭주한다면? Shadow로 해결

프롬프트나 모델 변경으로 인한 AI 에이전트의 동작 변화를 감지하고 원인을 분석하는 오픈소스 테스트 도구 Shadow가 공개됐다.

AG2CrewAILangGraph

Scale AI

미 국방부, Scale AI와 5억 달러 계약 체결하며 AI 도입 가속화

Scale AI가 미국 국방부 CDAO와의 계약 규모를 기존 1억 달러에서 5억 달러로 5배 확대하며 전 군에 걸친 AI 인프라 공급을 강화합니다.

TechCrunch AI Companies

xAI의 데이터센터를 통째로 빌린 Anthropic, 머스크의 진짜 속셈은?

xAI가 Colossus 1 데이터센터의 연산 자원 전체를 Anthropic에 대여하기로 결정하면서, AI 모델 개발보다 인프라 제공 사업에 집중하는 전략적 변화를 보였다.

xAI

TechCrunch AI Products Companies

Snapchat에서 Perplexity AI 검색 못 본다? 4억 달러 계약 파기

Snap이 1분기에 Perplexity와의 AI 검색 엔진 통합 파트너십을 종료했으며, 향후 매출 가이드라인에서도 관련 기여분을 제외했다.

PerplexitySnapSnapchat

The Verge AI

구글의 자율 웹 에이전트 Project Mariner 종료, Gemini Agent로 기술 이전

구글이 웹 기반 자율 작업 수행 실험인 Project Mariner를 종료하고 관련 기술을 Gemini Agent와 AI Mode 등 주요 제품군으로 통합했다.

aifeed.dev

구독료 없이 내 PC에서 1,000개 이상의 AI 모델을 실행하는 Atomic Chat

Atomic Chat은 Llama, Qwen 등 1,000개 이상의 모델을 로컬 환경에서 100% 오프라인으로 실행하고 에이전트 워크플로를 구축할 수 있는 무료 도구이다.

Claude

Anthropic 창업자가 밝히는 AI 안전성과 모델 개발의 핵심 전략

Anthropic의 공동 창업자인 다리오와 다니엘라 아모데이가 AI 안전성, 모델 확장 법칙, 그리고 인간과 AI의 협력적 미래에 대한 철학을 공유했다.

1littlecoder

ChatGPT 무료 사용자도 사용 가능한 역대급 속도의 GPT-5.5 Instant 공개

OpenAI가 무료 사용자를 위해 더 빠르고 똑똑해진 GPT-5.5 Instant 모델을 출시했으며, 비전 능력과 STEM 문제 해결 능력이 대폭 향상되었습니다.

HF Community Blogs

100만 파라미터 모델이 270억 모델을 이긴 비결: Sparrow의 수학 정복기

초소형 모델 FANT와 Sparrow를 통해 SleepGate와 SpinorApollonian Memory 같은 독창적 아키텍처가 수학적 추론 성능을 극대화하는 과정을 다룹니다.

Stanford Online Video Gen Companies

Luma AI CEO가 밝히는 비디오 생성을 넘어선 '세계 모델'의 설계도

Luma AI의 Amit Jain이 Apple에서의 LiDAR 경험을 바탕으로 3D 캡처에서 비디오 생성, 그리고 물리 법칙을 이해하는 통합 지능 시스템으로 진화하는 AI 팩토리의 아키텍처를 공유한다.

Dream MachineLuma AIRay

Hacker News - LLM

LLM 에이전트도 굴복시킨 46년 된 게임 NetHack 포팅 대회 개최

44만 라인의 C 코드로 구성된 NetHack 5.0을 LLM 에이전트 등을 활용해 브라우저용 JavaScript로 완벽하게 이식하는 기술 경진 대회가 열립니다.

r/LangChain Libraries

쇼핑 전 레딧·유튜브 뒤지는 수고를 덜어줄 AI 구매 에이전트

아마존 가격 비교부터 레딧의 실사용자 불만까지 교차 분석하여 제품 구매 여부를 판단해주는 AI 에이전트 구현 사례이다.

LangChain

Hacker News - LLM

NVIDIA B200에서 TensorRT-LLM을 능가하는 추론 엔진 TokenSpeed 공개

TokenSpeed는 에이전트 워크로드에 최적화된 고성능 추론 엔진으로, NVIDIA Blackwell 환경에서 TensorRT-LLM 대비 높은 처리량과 낮은 지연 시간을 달성했습니다.

The Algorithmic Bridge

2조 달러 규모의 AI 클라우드 계약, 실체 없는 '돌려막기'일까?

OpenAI와 Anthropic이 빅테크로부터 투자를 받고 그 자금을 다시 해당 기업의 클라우드 비용으로 지출하는 거대한 순환 구조의 위험성을 분석합니다.

r/PromptEngineering Language Models Training

단순한 페르소나 설정이 AI의 성능을 망칠 수 있는 이유

PRISM 논문이 주장하는 페르소나의 정렬 효과가 자기참조적 평가와 부실한 프롬프트 구조로 인해 왜곡되었음을 지적하고 대안적 프레임워크를 제시했다.

ClaudeLoRAQwen2.5-7B

Reinforcement Learning Training Libraries

실제 로봇에 바로 적용하는 분포 강화학습 라이브러리 e3rl

보행 로봇 제어를 위한 DPPO, DSAC 등 분포 강화학습 알고리즘을 포함한 PyTorch 기반 라이브러리 e3rl이 공개됐다.

PPOPyTorchSAC

Eye on AI

취약점 발견에서 공격까지 단 몇 시간, AI가 바꾼 보안 패러다임

Sysdig의 창립자 Loris Degioanni가 AI로 인해 가속화된 사이버 공격 위협과 이에 대응하기 위한 클라우드 보안 아키텍처의 변화를 설명합니다.

r/artificial Language Models Agents

소상공인의 무기 Claude와 Manus, 대기업과의 싸움에서 승리하다

텍사스의 한 비건 치즈 제조업체가 Claude와 Manus 같은 AI 도구를 활용해 대형 배송업체와의 분쟁 및 항소 절차를 성공적으로 관리했다.

ClaudeManus

Hugging Face Blog

강화학습 성능을 좌우하는 vLLM V1 마이그레이션 성공 전략

vLLM V1 마이그레이션 과정에서 발생하는 로그 확률 불일치 문제를 해결하여 강화학습 훈련의 일관성을 확보한 기술적 사례를 다룹니다.

Matt Wolfe Dev Tools Products

안드레 카파시의 LLM Wiki를 내 컴퓨터에 구현하는 법

Obsidian과 LLM 에이전트를 결합하여 개인의 일기, CRM, 웹 콘텐츠를 자동으로 요약하고 상호 연결하는 지능형 지식 관리 시스템 구축 방법을 다룹니다.

CodexObsidianOpenClaw

Sony

음악 AI의 미래를 엿보다: Sony AI가 공개한 11가지 혁신 기술

Sony AI가 ICASSP 2026에서 음악 이해, 생성형 오디오, 시청각 정렬, 데이터 품질을 주제로 한 11편의 논문을 발표하며 오디오 AI의 기술적 한계 극복 방안을 제시했습니다.

The Verge AI

OpenAI 전 CTO 미라 무라티의 폭로 샘 알트먼은 거짓말쟁이인가

OpenAI 전 CTO 미라 무라티가 법정에서 샘 알트먼 CEO가 AI 모델 배포 안전 기준과 관련해 거짓말을 했으며 경영진 간 이간질을 일삼았다고 증언했다.

r/PromptEngineering Agents Libraries

LLM 토큰 낭비 끝! 변화가 있을 때만 알려주는 Hermes Watchdog

Hermes Agent에서 LLM 호출 없이 백그라운드에서 GitHub, RSS, 웹사이트 변화를 감시하고 알림을 보내는 경량 플러그인이다.

Hermes Agenthermes-watchdog

Wired AI

AI 챗봇 10분 사용이 당신의 뇌를 멈추게 할 수 있다?

Carnegie Mellon, MIT 등 공동 연구진은 AI 어시스턴트 사용이 인간의 인지적 끈기와 기초 문제 해결 능력을 저하시킬 수 있다는 실험 결과를 발표했다.

Roboflow Blog

RF-DETR과 GPT-5.1의 만남: 테니스 전술 분석 AI 구축 가이드

Roboflow의 RF-DETR 모델과 GPT-5.1 VLM을 결합하여 테니스 선수의 위치를 탐지하고 전술적 통찰을 자동 생성하는 워크플로 구축 방법을 설명합니다.

r/LLMDevs Agents

웨어러블 데이터를 AI 에이전트로 연동하는 오픈소스 MCP 팩

웨어러블 기기와 영양 데이터를 MCP를 통해 Hermes 에이전트에 통합하여 개인화된 건강 관리를 지원하는 오픈소스 프로젝트이다.

MCP

r/artificial Products Agents

AI 에이전트 스타트업의 위기? 엔지니어링 labor가 무료가 되는 시대의 생존 전략

AI 에이전트 기술이 급격히 범용화됨에 따라 단순 프롬프트 아키텍처나 데이터 연동 기술보다는 규제 대응과 신뢰(Trust)가 스타트업의 실질적인 해자가 될 것이라는 분석이다.

HarveyMCP

Analytics Vidhya

금융 전문가를 위한 Claude의 변신, 10가지 전용 에이전트 템플릿 출시

Anthropic이 금융 기관의 복잡한 워크플로를 자동화하기 위해 Excel 및 PowerPoint와 연동되는 10가지 전용 Claude AI 에이전트 템플릿을 발표했다.

Wired AI

범죄자들도 AI는 싫다? 사이버 범죄 지하 세계를 뒤덮은 AI 슬롭 논란

최근 연구에 따르면 사이버 범죄 포럼 사용자들이 AI 생성 콘텐츠(슬롭)의 범람으로 인한 커뮤니티 질 저하에 강한 반발과 회의론을 보이고 있다.

Techpresso

애플, 시리 AI 지연으로 2억 5천만 달러 배상 합의와 OpenAI의 AI 폰 계획

애플이 시리 AI 기능 지연에 따른 집단 소송에 2억 5천만 달러 배상을 합의했으며, OpenAI의 AI 전용 폰 출시 계획과 구글의 새로운 AI 에이전트 테스트 소식이 전해졌습니다.

Ars Technica AI

구글 Gemma 4, 멀티 토큰 예측으로 로컬 AI 추론 속도 대폭 향상

구글이 Gemma 4 모델의 로컬 추론 속도를 높이기 위해 투기적 디코딩 기반의 멀티 토큰 예측(MTP) 드래프터 모델을 공개했다.

r/LLMDevs

AI 요약본의 함정: 실제 근거가 주장을 뒷받침하지 못할 때의 해결책

AI가 생성한 요약 보고서가 실제 로우 레벨 근거 데이터와 충돌하는 문제를 해결하기 위해 요약보다 원시 근거를 우선시하는 워크플로 설계의 중요성을 강조한다.

AWS ML Blog

반려동물 카메라 Furbo, AWS Inferentia2 도입으로 AI 추론 비용 83% 절감

펫테크 스타트업 Tomofun이 AWS Inferentia2 기반 Inf2 인스턴스를 도입하여 BLIP 모델의 실시간 추론 비용을 83% 절감하고 성능을 유지했다.

Partnership on AI

가짜 뉴스와 딥페이크 방지: PAI가 제안하는 AI 미디어 투명성 전략

Partnership on AI(PAI)가 EU AI 법의 실질적 이행을 돕기 위해 워터마킹, 암호화 메타데이터, 표준화된 공개 아이콘 등 다층적 투명성 메커니즘 도입을 권고했다.

Liam Ottley

NBA 팀과 포춘 500대 기업에 AI를 파는 상위 1% 영업 전략

AI 구축보다 판매가 어려운 시대에 신뢰 구축과 탐색 마일스톤 전략을 통해 고액의 AI 컨설팅 계약을 체결하는 실전 영업 프레임워크를 제시한다.

Pinecone

Pinecone 전체 텍스트 검색 출시: 텍스트와 벡터를 동시에 검색하는 법

Pinecone이 텍스트 키워드 검색과 벡터 유사도 검색을 하나의 인덱스에서 통합 실행할 수 있는 Full Text Search 기능을 출시했다.

David Ondrej

내 컴퓨터를 스스로 관리하는 AI 에이전트, Hermes Agent 실전 가이드

Nous Research의 오픈소스 AI 에이전트인 Hermes Agent를 VPS에 설치하고, 칸반 보드 관리, 자동 백업, MCP를 통한 Claude Code 통합까지 고도화하는 7단계 과정을 다룬다.

Roboflow Blog

Anthropic의 Claude Opus 4.7 출시, 3배 더 정밀해진 비전 성능의 핵심

Claude Opus 4.7은 이전 모델 대비 3배 이상 향상된 이미지 해상도 지원과 문서 및 차트 이해 능력을 갖춘 Anthropic의 최신 멀티모달 모델이다.

KDNugget

Claude Code를 디스코드와 연결하여 나만의 AI 에이전트 구축하기

로컬 Claude Code 세션을 디스코드와 연동하여 실시간으로 상호작용할 수 있는 채널 설정 가이드

Amazon Science

아마존이 0.5%의 효율 개선을 위해 수억 개의 변수를 계산하는 방법

아마존이 복잡한 물류 네트워크에서 발생하는 수요 변동과 예기치 못한 중단 상황에 대응하기 위해 혼합 정수 최적화와 시나리오 기반 스트레스 테스트를 활용하는 전략을 다룹니다.

LangChain

월 3억 건의 에이전트 실행, Clay는 어떻게 품질과 비용을 잡았나

Clay의 AI 책임자 Jeff Barg가 LangSmith를 활용해 대규모 에이전트 시스템의 관측 가능성, 평가, 99.5%의 비용 정산 정확도를 달성한 실전 사례를 공유합니다.

Vector Institute News

에이전트 AI의 '확신에 찬 오류'를 잡는 하이브리드 평가 프레임워크

에이전틱 AI의 다단계 추론과 도구 사용 과정에서 발생하는 '확신에 찬 오류'와 '우발적 정렬 불량'을 해결하기 위한 하이브리드 평가 프레임워크와 안전 원칙을 제시한다.

Dataiku Blog

98%의 CIO가 느끼는 압박, 이제 AI 투자는 ROI 증명으로 결정된다

2026년 기업 AI 예산은 단순한 채택 지표를 넘어 실제 비용 절감이나 수익 창출과 같은 측정 가능한 재무적 성과 증명을 요구받고 있다.

All About AI

AI가 스스로 만든 iOS 앱, 10일 만에 얼마 벌었을까?

Claude Code를 활용해 자동 제작한 iOS 앱들의 10일간 수익 현황과 AI API 비용 기반의 수익화 전략을 공유한다.

KDNugget Coding Agents

OpenCode 에이전트의 한계를 넘는 7가지 필수 플러그인 가이드

OpenCode AI 코딩 에이전트의 기능을 확장하여 영구 메모리, 터미널 제어, 웹 검색 및 분석 기능을 추가하는 7가지 핵심 플러그인을 소개한다.

OpenCode

Vizuara

실시간 대화형 음성 AI 에이전트를 직접 구축하는 8주 완성 가이드

ASR, LLM, TTS 기술을 통합하여 실시간으로 작동하는 고성능 음성 에이전트를 파이썬으로 직접 구축하는 전문 교육 과정이다.

Vizuara Coding Agents Libraries

NVIDIA Isaac Lab으로 시작하는 자율 주행 로봇 Sim-to-Real 실전

NVIDIA Isaac Lab 시뮬레이션 환경에서 모방 학습을 통해 TurboPi 로봇의 자율 주행 정책을 학습시키고 실제 환경에 배포하는 전체 워크플로우를 다룬다.

Claude CodeIsaac LabNVIDIA

HF Daily Papers

iRAG의 한계 돌파, 픽셀 단위 증거 시각화로 신뢰성 80.4% 달성

기존의 검색 증강 생성(RAG) 시스템은 텍스트 기반의 출처만 제공하여 복잡한 도표나 슬라이드 내의 구체적인 증거 위치를 찾기 어려웠습니다. 이 논문은 문서의 스크린샷에서 직접 증거를 찾아 바운딩 박스로 표시함으로써, 사용자가 AI의 답변 근거를 즉시 시각적으로 검증할 수 있게 합니다.

HF Daily Papers

의료 AI 에이전트의 성능을 16.4% 향상시킨 새로운 강화학습 환경

기존 의료 AI는 단발성 질문 답변에 치중되어 실제 진료 현장의 다단계 의사결정 과정을 반영하지 못했다. 이 논문은 135개의 전문 도구와 3,600개 이상의 작업을 포함한 강화학습 환경을 구축하여, 의료 AI가 실제 의사처럼 도구를 사용하고 추론하며 최적의 치료 경로를 찾을 수 있는 기반을 마련했다.

HF Daily Papers Libraries Benchmarks

무인 항공기 구조 에이전트를 위한 고정밀 3D 시뮬레이션 벤치마크 공개

기존의 무인 항공기(UAV) 구조 방식은 단순한 경로 계획에 의존해 복잡한 환경에서의 추론 능력이 부족했다. 이 논문은 실제 지형 데이터를 기반으로 한 고정밀 시뮬레이션 환경을 제공하여, AI 에이전트가 시각적 단서를 찾고 조난자의 위치를 스스로 추론하는 능력을 평가할 수 있는 표준을 제시한다.

AirSimESARBenchUnreal Engine 5

HF Daily Papers

대화형 감성 분석 SOTA 달성, 스레드 제약과 D-RoPE로 노이즈 해결

대화형 감성 분석에서 여러 대화가 섞일 때 발생하는 구조적 노이즈와 문장 간 거리가 멀어질 때 관계 파악이 어려워지는 문제를 해결했습니다. 스레드 단위의 제약을 둔 그래프 구조와 담화 맥락을 반영한 위치 임베딩을 통해 복잡한 다자간 대화에서도 정확한 감성 추출이 가능함을 입증했습니다.

HF Daily Papers

인도어 음성 인식의 한계 돌파, 합성 데이터로 성능 17배 향상

전화번호, 주소, 코드믹스 등 엔티티가 밀집된 인도어 음성 인식은 기존 SOTA 모델과 상용 API에서도 성능이 매우 낮다. 이 논문은 저비용 TTS 시스템을 활용해 고품질 합성 데이터를 생성하고 이를 다시 ASR 학습에 사용하는 플라이휠 구조를 통해 이 격차를 획기적으로 줄이는 방법을 제시한다.

HF Daily Papers

대화형 세계 모델 평가를 위한 33만 개 비디오 기반 iWorld-Bench 공개

인공 일반 지능(AGI) 구현을 위해 에이전트가 환경과 상호작용하며 학습할 수 있는 세계 모델의 중요성이 커지고 있다. 이 논문은 기존 벤치마크의 한계인 장면의 다양성 부족과 액션 입력 정의의 불일치를 해결하기 위해 통합 프레임워크와 대규모 데이터셋을 제공하여 세계 모델 연구의 새로운 기준을 제시한다.

HF Daily Papers Benchmarks Architecture

사전 학습 없이 실시간 학습만으로 xz 압축률을 뛰어넘은 Mamba 기반 압축기

수억 개의 파라미터를 가진 거대 모델이나 GPU 없이도, 압축 과정 중에 실시간으로 학습하는 가벼운 Mamba 모델이 기존의 강력한 압축 도구인 xz보다 더 높은 압축률을 기록했습니다. 이는 특정 데이터에 즉각적으로 적응하는 온라인 학습 모델이 범용 압축 분야에서 실질적인 경쟁력을 가질 수 있음을 보여줍니다.

enwik8MambaStateSMix

HF Daily Papers

가우시안 스플래팅으로 3D 포인트 클라우드 복원 성능 SOTA 달성

기존의 3D 포인트 클라우드 복원 방식은 성긴 데이터를 2D 평면에 투영할 때 정보가 소실되는 Cross-Modal Entropy Collapse 문제를 겪었다. 이 논문은 가우시안 스플래팅을 활용해 불연속적인 데이터를 연속적인 밀도 표현으로 변환함으로써 2D 이미지의 시각적 정보를 3D 복원에 효과적으로 결합하는 새로운 방법론을 제시한다.

HF Daily Papers

AI 에이전트의 실제 업무 능력 측정 결과, 인간 대비 33%p 낮은 성능 기록

기존 AI 에이전트 평가가 단일 파일이나 단순한 지시 이행에 그쳤던 것과 달리, 실제 사무 환경처럼 수만 개의 파일과 복잡한 의존성이 얽힌 환경에서 에이전트의 실질적인 업무 수행 능력을 평가합니다. 연구 결과 현재 가장 뛰어난 에이전트도 인간의 업무 완성도에 크게 못 미치는 것으로 나타나, 향후 에이전트 아키텍처가 나아가야 할 방향을 제시합니다.

HF Daily Papers Coding Agents Agents

Kimi Agent Swarm 분석으로 밝힌 4,000단계 멀티 에이전트 강화학습의 핵심 원리

LLM 에이전트가 단순한 도구 사용자를 넘어 팀 단위로 협업하는 시대로 진화함에 따라, 팀 전체의 효율성을 극대화하는 강화학습 방법론이 필수적이다. 이 논문은 산업계의 대규모 에이전트 시스템과 학계 연구 사이의 간극을 메우고, 에이전트 생성부터 결과 취합까지의 전 과정을 최적화하기 위한 기술적 프레임워크를 제공한다.

Claude CodeKimi Agent Swarm

HF Daily Papers Products

SymptomAI, 전문의보다 2.47배 정확한 AI 감별 진단 달성

일상생활에서 발생하는 건강 증상을 AI가 전문 의료진 수준으로 정확하게 평가할 수 있음을 입증했다. 특히 사용자가 주도하는 대화보다 AI가 체계적으로 질문을 던지는 인터뷰 방식이 진단 정확도를 획기적으로 높인다는 점을 확인하여 미래 의료 AI의 방향성을 제시한다.

Fitbit

HF Daily Papers

LLM의 특허 심사 능력 검증, GPT-5-mini가 반박 생성에서 90.5% 점유율 달성

특허 심사는 고도의 기술적 전문성과 법적 논리가 결합된 복잡한 과정이지만, 기존 AI 연구는 단순 분류나 추출에 그쳤다. 이 논문은 심사관의 거절 이유 통지(Office Action)와 출원인의 반박(Rebuttal)이라는 상호작용적 전 과정을 모델링한 최초의 벤치마크를 제시하여 LLM의 실질적인 법적 추론 능력을 평가한다.

HF Daily Papers

LLM의 '헤비 씽킹' 기술로 복잡한 추론 성능 극대화

기존의 복잡한 에이전트 오케스트레이션 시스템 대신 LLM 자체의 내재적 기술로 '깊게 생각하기'를 구현할 수 있음을 입증했다. 병렬 추론과 순차적 숙의라는 두 단계 파이프라인을 통해 모델의 추론 능력을 테스트 타임에 확장할 수 있는 새로운 경로를 제시한다.

HF Daily Papers Vision AI

이미지와 비디오를 넘나드는 통합 분할 모델 X2SAM 공개

기존의 분할 모델들은 이미지나 비디오 중 하나에 특화되어 있거나 텍스트와 시각적 프롬프트를 동시에 처리하는 데 한계가 있었다. X2SAM은 이를 하나의 프레임워크로 통합하여 복잡한 대화형 지시문과 시각적 프롬프트를 모두 지원하며 비디오에서의 시간적 일관성까지 확보했다.

X2SAM

HF Daily Papers

PRISM: 멀티모달 AI의 고질적 문제인 'SFT 성능 저하'를 해결하다

표준적인 멀티모달 모델 학습 과정에서 지도 학습(SFT)이 오히려 모델의 원래 능력을 해치거나 분포 불일치를 일으키는 문제를 해결한다. SFT와 강화학습 사이에 '사전 정렬' 단계를 추가하여 시각적 이해와 논리적 추론 능력을 동시에 개선함으로써 최종 성능을 극대화한다.

HF Daily Papers Agents Prompting

단 1만 개의 데이터로 강화학습 없이 SOTA 검색 에이전트 달성

대규모 자본이 투입되는 복잡한 강화학습(RL) 파이프라인 없이도, 고품질의 데이터 설계만으로 세계 최고 수준의 검색 에이전트를 개발할 수 있음을 입증했다. 학계나 오픈소스 커뮤니티에서도 적은 비용으로 고성능 에이전트를 구축할 수 있는 새로운 방법론을 제시했다.

OpenSeeker-v2ReAct

HF Daily Papers

잠자는 동안 AI가 실험부터 논문 투고까지 자율적으로 수행

기존의 자율 연구 에이전트들이 동일 모델 계열 내에서 자기 수정을 반복하며 발생하는 상관 오류 문제를 해결하기 위해 서로 다른 모델 계열 간의 적대적 협업 구조를 도입했다. 이를 통해 실험 데이터의 무결성을 검증하고 논문의 논리적 허점을 찾아내는 강력한 보증 계층을 구축하여 신뢰할 수 있는 자율 연구 환경을 제공한다.

Claude

Devin 개발사와 유니콘들이 밝히는 AI 에이전트 아키텍처의 실체

Cognition, Gamma, Harvey 세 팀이 멀티 에이전트 오케스트레이션, MCP 도입 및 자율 에이전트 설계 시 직면한 기술적 트레이드오프와 아키텍처 결정을 공유했다.

The AI Grid Companies

인류 최후의 발명? 억만장자들이 AGI를 두려워하면서도 만드는 이유

AGI 개발을 주도하는 리더들이 정렬 문제, 지능 폭발, 경제적 붕괴 위험을 경고하면서도 경쟁적으로 기술 개발에 박차를 가하는 모순적 상황과 그 위험성을 분석한다.

OpenAI

Claude

Claude Managed Agents: 인프라 고민 없이 에이전트를 배포하는 방법

Claude Managed Agents를 통해 상태 관리, 세션 유지, 가드레일 등 복잡한 인프라를 자동화하여 확장 가능한 AI 에이전트를 구축하고 배포하는 실무 전략을 제시한다.

r/artificial Companies Coding Agents

Anthropic-SpaceX 동맹 체결, Claude Code 제한 2배로 풀렸다

Anthropic이 SpaceX의 데이터 센터 인프라를 확보하며 Claude Code의 사용 제한을 2배로 늘리고 API 속도 제한을 완화했다.

AnthropicClaude CodeSpaceX

Matthew Berman Companies

Claude는 살아있는 생명체인가? Anthropic과 OpenAI의 소름 돋는 철학 차이

Anthropic과 OpenAI가 AI를 바라보는 근본적인 시각 차이와 그로 인해 발생하는 안전성, 배포 전략, 기업 문화의 대조적인 모습을 심층 분석한다.

Anthropic

Claude

GitHub Copilot은 어떻게 Claude로 품질을 높이고 비용을 낮췄을까

GitHub Copilot 팀이 Claude를 채팅, CLI, 에이전트에 도입하며 적용한 프롬프트 캐싱, 평가 체계 및 새로운 Advisor 전략을 통한 대규모 최적화 사례이다.

TechCrunch AI

머스크의 승부수: 1,190억 달러 규모 AI 칩 공장 'Terafab' 건설 추진

SpaceX가 AI 서버, 자율주행차, 로봇용 칩 자급체제를 구축하기 위해 텍사스에 최대 1,190억 달러 규모의 반도체 제조 시설 'Terafab' 건설을 검토 중입니다.

TechCrunch AI

일론 머스크 vs OpenAI: 법정에서 공개된 테슬라 그림 탈취와 300억 달러 가치 논쟁

OpenAI 사장 그레그 브록먼이 일론 머스크와의 소송에서 2017년 영리 법인 전환 당시의 갈등과 머스크의 지배력 요구에 대한 비화를 증언했다.

r/LLMDevs Agents Libraries

도구 호출 내부까지 추적하는 MCP 전용 오픈소스 관측 도구 등장

BlueRock이 MCP 시스템의 도구 실행 과정과 서브프로세스를 코드 수정 없이 추적할 수 있는 Apache 2.0 라이선스의 Python 센서를 오픈소스로 공개했다.

MCPPython

TechCrunch AI

중국 DeepSeek, 미국 AI 모델 대항마로 부상하며 가치 450억 달러 돌파

중국의 AI 연구소 DeepSeek이 첫 벤처 캐피털 투자 라운드를 통해 기업 가치를 200억 달러에서 450억 달러로 두 배 이상 높이는 협상을 진행 중이다.

Claude

Anthropic이 공개한 자율 코딩 에이전트 Claude Code의 미래

Anthropic은 자율 코딩 에이전트 Claude Code의 정식 출시와 함께 멀티 에이전트 오케스트레이션, 자가 학습 기능인 Dreaming 등 개발 생산성을 극대화할 새로운 기능을 발표했다.

서울대학교 DSBA 연구실 Agents

AI 에이전트끼리 얼마나 협업을 잘할까? 최신 멀티 에이전트 평가 기술 총정리

LLM 기반 Multi-Agent 시스템의 협업 및 경쟁 능력을 정밀하게 측정하기 위한 최신 벤치마크인 MultiAgentBench와 Collab-Overcooked의 설계 원리와 실험 결과를 분석한다.

Multi-Agent

TechCrunch AI

틴더 모회사 매치 그룹, AI 도입 비용 때문에 신규 채용 줄인다

틴더의 모회사 매치 그룹이 전 직원에게 최첨단 AI 도구를 제공하기 위한 예산을 확보하고자 올해 남은 기간 채용 계획을 축소하기로 결정했다.

TechCrunch AI

Genesis AI, 인간의 손을 닮은 로봇과 GENE-26.5 모델로 로봇 지능의 한계에 도전

로봇 스타트업 Genesis AI가 인간의 손과 크기·형태가 동일한 하드웨어와 이를 제어하는 파운데이션 모델 GENE-26.5를 발표하며 풀스택 로봇 시스템 구축에 나섰습니다.

TechCrunch AI

구글 AI 검색의 진화, 레딧 답변과 뉴스 구독 정보까지 통합한다

구글이 AI 개요(AI Overviews)에 웹 포럼의 커뮤니티 의견과 사용자 뉴스 구독 정보를 통합하여 검색 결과의 맥락을 강화합니다.

Two Minute Papers Companies Language Models

DeepSeek-V4 공개: 100만 토큰 문맥과 90% 캐시 압축의 충격적 성능

DeepSeek-V4는 100만 토큰의 긴 문맥을 지원하며 KV 캐시를 90% 압축하는 혁신적인 아키텍처를 통해 고성능과 비용 효율성을 동시에 달성했다.

DeepSeekDeepSeek-V4

r/PromptEngineering Language Models

AI 에이전트가 당신을 잊지 않게 만드는 6가지 메모리 설계 전략

1년간의 시행착오를 통해 검증된 AI 에이전트 메모리 관리의 6가지 핵심 패턴(RECALL)과 실무 적용 가이드를 공유한다.

GPT-4.1-Nano

TechCrunch AI

단순 직함 대신 목소리로 역량 검증, a16z가 선택한 AI 전문가 매칭 플랫폼 Ethos

DeepMind 출신이 설립한 Ethos가 음성 AI 인터뷰와 지식 그래프 기술을 활용해 기업과 전문가를 정밀 매칭하는 서비스로 2,275만 달러 투자를 유치했다.

AI Engineer Agents

Factory가 공개한 프로덕션급 멀티 에이전트 설계 아키텍처

Factory의 생산 데이터를 기반으로 오케스트레이터, 작업자, 검증자 역할을 조합한 5가지 멀티 에이전트 전략과 아키텍처 설계법을 제시한다.

Multi-Agent

Hacker News - LLM

서로 다른 LLM들이 왜 모두 똑같은 성격으로 변해갈까?

최첨단 LLM들이 개발사와 학습 방식에 상관없이 체계적이고 분석적인 특정 성격으로 수렴하며 페르소나가 균질화되고 있다는 연구 결과가 발표됐다.

TechCrunch AI

삼성전자 시총 1조 달러 돌파, HBM과 애플 협력설이 이끈 역사적 급등

삼성전자가 AI 열풍에 따른 HBM 수요 급증과 애플과의 미국 내 칩 제조 협력 가능성에 힘입어 아시아 기업 중 두 번째로 시가총액 1조 달러를 돌파했다.

딥러닝논문읽기모임 Training

비싼 인간 라벨링 대신 AI가 직접 가르치는 LLM 정렬의 미래

인간 피드백(RLHF) 대신 AI 피드백(RLAIF)을 사용하여 LLM을 정렬해도 대등한 성능을 낼 수 있음을 실험적으로 증명한 논문 요약이다.

RLHF

AI Engineer Products Language Models

ChatGPT와 Claude 안에 내 앱을? MCP로 만드는 인터랙티브 UI

MCP를 활용해 단순 텍스트 응답을 넘어 ChatGPT, Claude 등 호스트 앱 내에서 브랜드화된 인터랙티브 UI를 구현하는 아키텍처와 배포 전략을 다룹니다.

ChatGPTClaudeMCP

Hacker News - LLM

보안과 편의성을 모두 잡는 LLM 게이트웨이 인증 전략 5가지

Archestra v1.2.33은 단순 API 키부터 기업용 JWKS까지 LLM 게이트웨이 환경에 최적화된 5가지 인증 메커니즘을 제공한다.

r/PromptEngineering Agents

AI가 나를 더 잘 기억하게 만드는 법: 세 가지 메모리 설계의 득과 실

오픈소스 AI 어시스턴트인 Hermes, Vellum, OpenClaw의 메모리 관리 방식을 비교하여 사용자 승인 기반의 지식 축적 방식이 가장 효과적임을 분석했다.

HermesOpenClawVellum

r/PromptEngineering

단순 질문이 아닌 설계다! AI 성능을 극대화하는 RACE 프레임워크 가이드

단순한 질문을 넘어 역할, 행동, 맥락, 기대치를 구조화하는 RACE 프레임워크와 체이닝 등 실무 프롬프트 엔지니어링 기법을 소개한다.

OpenAI Companies

수만 개 GPU가 멈추지 않는 비결: OpenAI가 공개한 차세대 네트워크 표준 MRC

OpenAI가 대규모 GPU 클러스터의 학습 효율을 극대화하기 위해 개발한 Multipath Reliable Connection(MRC) 프로토콜의 작동 원리와 업계 표준화 계획을 다룹니다.

MicrosoftNVIDIAOpenAI

r/ClaudeAI Companies Safety

웹 페이지에 숨겨진 AI 조종 명령, Claude는 어떻게 간파했을까?

Claude가 검색 결과 내에 숨겨진 마케팅 목적의 프롬프트 주입 시도를 식별하고 이를 단순 데이터로 취급하여 무시한 실제 사례이다.

AnthropicPrompt Injection

r/ClaudeAI Coding Agents

단순한 AI 사용을 넘어 'AI가 읽을 수 있는 비즈니스'를 만드는 법

AI 모델의 지능보다 비즈니스 데이터를 모델이 직접 읽고 분석할 수 있도록 구조화된 '운영 계층'을 구축하는 것이 실질적인 기업 경쟁력이다.

Claude Code

r/ClaudeAI Coding Agents Dev Tools

Claude Code로 만든 AI 네이티브 GTA? 2천 달러 투자한 개발기

개발자가 Claude Code를 활용해 Unity 기반의 AI 생성형 멀티플레이어 게임 'FLAIR'를 구축한 과정과 성과를 공유했다.

Claude CodeUnity

r/ClaudeAI Coding Agents

Claude Code Teams: 혼자보다 나은 팀 단위 AI 에이전트 활용법

Claude Code의 Teams 기능을 통해 여러 에이전트에게 역할을 분담하고 특히 적대적 에이전트를 배치하여 결과물의 품질을 높이는 방법론을 공유한다.

Claude Code

r/ClaudeAI Coding Agents Agents

Claude와 Cursor의 할루시네이션을 잡는 Ejentum MCP 서버

LLM의 추론 오류와 아첨 현상을 방지하기 위해 네 가지 인지 도구를 제공하는 오픈소스 MCP 서버가 출시됐다.

Claude CodeMCPSmithery