2026년 3월 26일 AI 뉴스 아카이브

Google Cloud AI Blog Agents

구글의 자가 개선 AI AlphaEvolve, 과학과 비즈니스 난제 해결

Gemini 기반 진화 알고리즘 에이전트 AlphaEvolve가 출시 1년 만에 과학 연구 및 구글 클라우드 인프라 최적화에서 실질적인 성과를 거두었다.

AlphaEvolve

Dataiku Blog

모델 성능 저하의 주범, 데이터 정규화 불일치를 해결하는 법

머신러닝 모델의 학습 안정성과 예측 신뢰성을 확보하기 위해 학습과 추론 파이프라인 간의 데이터 정규화 기법을 표준화하고 일관되게 적용해야 한다.

TechCrunch AI

자율주행 트럭 시대 개막, 오로라 CEO가 말하는 물리적 AI의 미래

오로라 혁신(Aurora Innovation)의 CEO 크리스 엄슨이 자율주행 트럭의 상업적 운영 성과와 검증 가능한 AI 시스템의 중요성을 강조했다.

AI Engineer Libraries

프롬프트보다 강력한 방법: 라이브러리 소스 코드로 코딩 에이전트 길들이기

Effect 라이브러리 소스 코드를 프로젝트에 직접 포함시켜 코딩 에이전트가 정확한 패턴을 학습하고 신뢰할 수 있는 TypeScript 코드를 생성하게 만드는 실전 워크플로를 다룬다.

EffectTypeScript

Practical AI

오픈 소스 AI가 폐쇄형 모델을 따라잡을 수 있을까? 2026년 전망

오픈 소스와 폐쇄형 AI 모델 간의 성능 격차 변화와 물리적 환경에 내장되는 임베디드 AI의 부상을 통해 향후 2년 내 AI 생태계의 변화를 전망합니다.

LangChain Companies Language Models

재무 전문가가 코드 생성 AI를 거부한 이유와 Ramp의 에이전트 아키텍처

Ramp의 응용 연구 책임자 Alexander Shevchenko가 Ramp Sheets의 에이전트 아키텍처와 KV 캐시를 이용한 에이전트 간 통신 실험을 공유합니다.

AnthropicGemmaLangChain

Analytics Vidhya

수작업은 끝났다! LLM으로 자동화하는 스마트한 ML 피처 엔지니어링

전통적인 수동 피처 엔지니어링에서 벗어나 LLM의 시맨틱 이해 능력을 활용해 비정형 데이터에서 고차원 특징을 자동 추출하는 방법론과 실전 코드를 제시한다.

Hacker News - LLM

AI 모델의 성능 저하를 잡는다: Reality Drift 탐지 프레임워크 공개

AI 모델의 성능 변화를 감지하는 드리프트 탐지 프레임워크와 평가 기준을 담은 PDF 문서가 공개됐다.

The Verge AI

구글의 승부수: AI 헬스 코치 정식 출시와 99달러 Fitbit Air 공개

구글이 새로운 초소형 트래커 Fitbit Air를 공개하고, 기존 Fitbit 앱을 Google Health 앱으로 통합하며 Gemini 기반 AI 헬스 코치를 정식 출시했습니다.

Sam Witteveen Companies

1시간 분량 오디오를 단 2초 만에? IBM의 미친 성능 음성 AI 공개

IBM이 공개한 Granite Speech 4.1 모델의 3가지 변체(Base, Plus, NAR)를 통해 정확도, 화자 분리 기능, 초고속 추론 성능의 기술적 특징과 실무 적용 방법을 상세히 다룹니다.

IBM

AI Andy Coding Agents Companies

디자이너 없이 30초 만에 애플·노션 스타일 웹사이트 만드는 법

Awesome Design MD 리포지토리의 57개 브랜드 디자인 시스템을 Claude Code에 학습시켜 전문적인 웹페이지, 슬라이드, 그래픽을 단일 프롬프트로 생성하는 워크플로를 제시한다.

Claude CodeGitHub

Analytics Vidhya Products Companies

이제 엑셀 안에서 ChatGPT를 바로 쓴다! 업무 효율 극대화 가이드

OpenAI가 ChatGPT를 Excel과 Google Sheets 내부에 직접 통합하여 데이터 이동 없이 AI로 스프레드시트를 편집하고 분석할 수 있는 기능을 출시했다.

ChatGPTOpenAI

CMU AI News

의료 영상 라벨링 시간 단축, CMU가 개발한 AI 도구 AutoMiSeg

카네기 멜론 대학교 연구진이 텍스트 명령으로 의료 영상 내 장기를 자동으로 식별하고 라벨링하는 AI 도구 AutoMiSeg를 개발했습니다.

AWS ML Blog

AWS, AI 에이전트가 직접 결제하는 AgentCore Payments 발표

Amazon Bedrock AgentCore Payments는 AI 에이전트가 API, 유료 콘텐츠, MCP 서버 이용 시 실시간 마이크로페이먼트를 자동으로 수행할 수 있게 지원하는 관리형 서비스이다.

Hacker News - LLM

LLM이 찾아내는 보안 취약점, 전통적인 보안 엠바고 시스템을 무너뜨리나

LLM을 활용한 보안 취약점 자동 탐지가 급증하면서, 기존의 비밀 유지(엠바고) 및 공동 공개 절차가 실효성을 잃고 보안 관리 체계의 근본적 변화를 요구하고 있다.

TechCrunch AI

스포티파이 AI DJ 한국 상륙, 이제 한국어 서비스와 대화형 요청 가능

스포티파이가 AI DJ 기능의 지원 언어를 프랑스어, 독일어 등 4개국어로 확대하고 한국을 포함한 75개국으로 서비스 지역을 넓혔습니다.

MIT Technology Review

Anthropic과 SpaceX의 깜짝 동맹과 OpenAI를 둘러싼 폭로전

AI 기술 확산에 대한 사회적 저항이 커지는 가운데 Anthropic과 SpaceX의 협력, OpenAI 내부의 신뢰 위기 등 업계 주요 변화를 다룹니다.

Kili Technology Blog

오픈 웨이트의 반격, Kimi K2.6이 코딩 벤치마크에서 GPT-5.4를 넘어섰다

Moonshot AI가 출시한 1조 파라미터 규모의 MoE 모델 Kimi K2.6이 SWE-Bench Pro에서 GPT-5.4를 앞서며 오픈 웨이트 모델 중 세계 1위를 기록했다.

AI21 Labs Agents

모델이 전부가 아니다? 에이전트 상용화의 핵심 '하네스 엔지니어링'

LLM 모델 자체보다 이를 둘러싼 시스템 아키텍처인 Harness Engineering의 정의와 에이전트 상용화를 위한 구체적인 설계 전략을 다룹니다.

MCP

KDNugget

데이터의 흐름을 읽는 치트키, 일상 속 7가지 통계 분포 완벽 정리

복잡한 수학 없이 일상 사례를 통해 정규 분포부터 멱법칙까지 데이터의 패턴을 결정하는 7가지 핵심 통계 분포를 설명합니다.

Wired AI

내 노래가 180만 뷰인데 수익은 0원? AI 리믹스에 신음하는 음악계

AI 도구로 생성된 무단 리믹스 곡들이 스트리밍 플랫폼에서 급증하며 원곡 아티스트의 수익을 가로채는 심각한 저작권 침해 문제를 야기하고 있다.

Wired AI

클릭 한 번으로 만든 AI 앱, 당신의 기업 기밀을 전 세계에 노출 중

보안 전문가들이 Lovable, Replit 등 AI 코딩 도구로 만든 5,000개 이상의 앱을 분석한 결과, 상당수가 인증 없이 민감한 기업 및 개인 데이터를 노출하고 있음을 확인했다.

HF Community Blogs

AI가 스스로의 한계를 아는가? Nemotron-3 Nano Omni의 인지 보안 평가 결과

AIsecTest 방법론을 통해 Nemotron-3 Nano Omni 모델의 자기 인식 및 인지적 안정성을 평가한 결과, 선언적 자기 인식은 우수하나 불확실성 관리와 성찰적 깊이에는 한계가 있음이 확인됐다.

AICodeKing Products

코딩 없이 iOS·안드로이드 앱 제작부터 RAG 챗봇 연동까지 한 번에

GoodBarber는 단일 백오피스에서 iOS, Android, PWA를 동시에 구축하며 RAG 챗봇과 AI 어시스턴트 기능을 통합할 수 있는 노코드 플랫폼이다.

ChatGPT

HF Community Blogs

ChatGPT의 공감 능력은 진짜일까? CEAT 인지 평가 결과 공개

CEAT 프레임워크를 통해 ChatGPT의 정서적 인지 및 담화 일관성을 분석한 결과, 88점의 높은 점수를 기록했으나 메타인지와 실제 공감 능력에는 한계가 있음이 확인됐다.

r/AutoGPT

테스트에선 완벽한 에이전트가 실전에선 왜 망가질까? 3계층 안정화 전략

실제 서비스 환경에서 AI 에이전트의 오작동을 방지하기 위해 지침, 문맥, 검증의 3단계 계층 구조를 적용하여 안정성을 확보한 사례이다.

r/reinforcementlearning Language Models Libraries

GPU 없이 브라우저에서 끝내는 AI 미세 조정, 엔지니어의 역할이 바뀐다

Unsloth Studio와 같은 도구로 인해 AI 엔지니어링의 핵심이 코드 작성에서 모델 선택과 데이터 반복 실험으로 이동하고 있다.

GemmaUnsloth

r/MachineLearning Vision AI

의료 데이터 부족 해결! 레이아웃까지 완벽한 합성 PDF 생성기

개인정보 보호로 확보가 어려운 의료 문서를 대체하기 위해 호주 병원 양식을 모방한 5,000건의 합성 PDF 데이터셋과 생성 파이프라인을 구축했다.

DocFormerDonutLayoutLMv3

RIKEN AIP

Transformer와 Diffusion 모델의 최적성: 스즈키 타이지 교수의 AISTATS 기조연설

RIKEN AIP의 스즈키 타이지 팀장이 AISTATS 2026에서 딥 파운데이션 모델의 특징 학습과 최적성에 대해 기조연설을 수행했다.

MIT AI News

노벨상 수상자 다론 아세모글루의 경고, 자동화가 생산성 대신 불평등만 키운 이유

MIT 경제학자들의 연구에 따르면 미국 기업들은 생산성 향상보다 고임금 노동자의 임금 프리미엄을 제거하기 위해 자동화를 도입하며, 이것이 소득 불평등 심화의 핵심 원인임이 밝혀졌다.

r/ClaudeAI Coding Agents Agents

Claude가 내 코딩 스타일을 기억한다? 5개월간 검증된 로컬 메모리 도구

Claude의 세션 간 기억 상실 문제를 해결하기 위해 로컬 임베딩과 3단계 메모리 계층을 사용하는 오픈소스 MCP 서버 iai-mcp가 공개됐다.

Claude CodeMCP

r/LLMDevs Benchmarks

에이전트 단계를 늘릴수록 문서 품질이 떨어진다? DELEGATE-52의 경고

LLM 에이전트의 워크플로 단계가 늘어날수록 문서 내용이 미세하게 변질되어 결국 데이터가 오염되는 현상이 확인됐다.

DELEGATE-52

r/LangChain Libraries

LangChain 1.0 정식 출시가 오히려 프레임워크 이탈의 계기가 된 이유

LangChain 1.0 정식 출시 이후 많은 개발팀이 업그레이드 비용과 프레임워크의 추상화 가치를 재평가하며 자체 SDK 기반 재작성을 고려하고 있다.

LangChainLangGraph

120

r/ClaudeAI Language Models Dev Tools

Claude와 Cursor에서 서버 없이 이메일을 보내는 가장 안전한 방법

서버나 복잡한 MCP 설정 없이 AI 에이전트가 허용된 주소로만 안전하게 이메일을 보낼 수 있게 해주는 경량 도구이다.

ClaudeCodexCursor

Claude

엔지니어 90%가 사용하는 Claude Code, Datadog은 어떻게 관리할까

Datadog이 Claude Code 도입 후 발생하는 일회성 도구 파편화 문제를 해결하기 위해 보안과 재사용성을 갖춘 Temper 프레임워크를 구축한 사례이다.

The AI Daily Brief

Coinbase의 대규모 감원과 AI 네이티브 조직으로의 전환

Coinbase의 14% 감원 사례를 통해 실리콘밸리 기업들이 어떻게 AI를 명분으로 조직을 슬림화하고 엔터프라이즈 중심 전략으로 선회하는지 분석합니다.

HF Daily Papers

GRPO가 실패하는 콜드 스타트 환경에서 추론 모델을 구출하는 Tsallis Loss 기법

검증 가능한 보상(RLVR) 기반의 강화학습은 초기 성공 확률이 낮을 때 학습이 정체되는 '콜드 스타트' 문제를 겪는다. 이 논문은 Tsallis q-logarithm을 활용해 강화학습과 지도 학습 사이를 매끄럽게 연결함으로써, 초기 학습 속도를 획기적으로 높이고 노이즈에 강한 추론 모델을 만드는 새로운 방법론을 제시한다.

HF Daily Papers Training Agents

인간 개입 없이 LLM 에이전트 기술 성능 127% 향상 달성

LLM 기반 에이전트의 기술들이 파편화되어 성능이 일정하지 않은 문제를 해결하기 위해, 에이전트가 스스로 기술의 한계를 탐색하고 개선하는 자동화 프레임워크를 제안한다. 특히 추가적인 모델 학습 없이도 기존 기술의 프롬프트와 코드를 최적화하여 실무 적용성을 극대화했다.

GRPOSkills-CoachSkill-X

Augment Code Blog

1,400개의 PR 병목을 해결한 Augment의 AI 에이전트 팀 협업 전략

Augment Code는 AI 생성 코드로 인한 리뷰 병목을 해결하기 위해 Cosmos 플랫폼 기반의 멀티 에이전트 시스템을 구축하여 코드 출력량을 3배 늘리면서도 리뷰 시간을 66% 단축했습니다.

Scale AI

미 국방부, Scale AI와 5억 달러 계약 체결하며 AI 도입 가속화

Scale AI가 미국 국방부 CDAO와의 계약 규모를 기존 1억 달러에서 5억 달러로 5배 확대하며 전 군에 걸친 AI 인프라 공급을 강화합니다.

The Verge AI

구글의 자율 웹 에이전트 Project Mariner 종료, Gemini Agent로 기술 이전

구글이 웹 기반 자율 작업 수행 실험인 Project Mariner를 종료하고 관련 기술을 Gemini Agent와 AI Mode 등 주요 제품군으로 통합했다.

aifeed.dev

구독료 없이 내 PC에서 1,000개 이상의 AI 모델을 실행하는 Atomic Chat

Atomic Chat은 Llama, Qwen 등 1,000개 이상의 모델을 로컬 환경에서 100% 오프라인으로 실행하고 에이전트 워크플로를 구축할 수 있는 무료 도구이다.

Claude

Anthropic 창업자가 밝히는 AI 안전성과 모델 개발의 핵심 전략

Anthropic의 공동 창업자인 다리오와 다니엘라 아모데이가 AI 안전성, 모델 확장 법칙, 그리고 인간과 AI의 협력적 미래에 대한 철학을 공유했다.

1littlecoder

ChatGPT 무료 사용자도 사용 가능한 역대급 속도의 GPT-5.5 Instant 공개

OpenAI가 무료 사용자를 위해 더 빠르고 똑똑해진 GPT-5.5 Instant 모델을 출시했으며, 비전 능력과 STEM 문제 해결 능력이 대폭 향상되었습니다.

Stanford Online Video Gen Companies

Luma AI CEO가 밝히는 비디오 생성을 넘어선 '세계 모델'의 설계도

Luma AI의 Amit Jain이 Apple에서의 LiDAR 경험을 바탕으로 3D 캡처에서 비디오 생성, 그리고 물리 법칙을 이해하는 통합 지능 시스템으로 진화하는 AI 팩토리의 아키텍처를 공유한다.

Dream MachineLuma AIRay

The Algorithmic Bridge

2조 달러 규모의 AI 클라우드 계약, 실체 없는 '돌려막기'일까?

OpenAI와 Anthropic이 빅테크로부터 투자를 받고 그 자금을 다시 해당 기업의 클라우드 비용으로 지출하는 거대한 순환 구조의 위험성을 분석합니다.

Reinforcement Learning Training Libraries

실제 로봇에 바로 적용하는 분포 강화학습 라이브러리 e3rl

보행 로봇 제어를 위한 DPPO, DSAC 등 분포 강화학습 알고리즘을 포함한 PyTorch 기반 라이브러리 e3rl이 공개됐다.

PPOPyTorchSAC

Eye on AI

취약점 발견에서 공격까지 단 몇 시간, AI가 바꾼 보안 패러다임

Sysdig의 창립자 Loris Degioanni가 AI로 인해 가속화된 사이버 공격 위협과 이에 대응하기 위한 클라우드 보안 아키텍처의 변화를 설명합니다.

TechCrunch AI Companies

중국 문샷 AI, 기업가치 200억 달러 달성하며 20억 달러 추가 수혈

중국의 AI 랩 문샷 AI가 메이투안 주도로 20억 달러 규모의 투자를 유치하며 기업가치 200억 달러를 기록했다.

Moonshot AI

HF Community Blogs Companies Language Models

스마트폰에서 돌아가는 의료 AI, 27B 모델을 압도하는 4B의 기적

Tether Data가 공개한 MedPsy는 1.7B 및 4B 규모의 소형 모델임에도 불구하고 특화된 학습 공정을 통해 7배 이상 큰 의료 모델의 성능을 능가하며 엣지 기기 최적화를 달성했습니다.

Hugging FaceMedGemmaQwen3

Hacker News - LLM

LLM 비용 절감의 시작, 토큰을 아끼는 새로운 ID 체계 tokid

LLM 프롬프트와 도구 호출 시 발생하는 토큰 비용을 최소화하기 위해 토크나이저 친화적인 단어 조합으로 구성된 새로운 식별자 포맷입니다.

IBM Technology Companies

양자 컴퓨터 시대의 필수 보안 전략, 암호화 민첩성 완벽 정리

양자 컴퓨팅 위협에 대비하여 암호화 알고리즘을 중단 없이 신속하게 교체할 수 있는 암호화 민첩성의 개념과 구현 전략을 제시한다.

IBM

HF Community Blogs Language Models

Qwen3.6-35B-A3B, 논리적 타당성과 실제 진실을 구분하는 인식론적 성숙도 확인

Qwen3.6-35B-A3B 모델은 CRS 프레임워크 평가에서 증거와 의견을 구분하는 우수한 비판적 추론 능력을 보였으나, 분석의 깊이와 구체성에서는 개선의 여지가 확인됐다.

Qwen3.6-35B-A3B

Hacker News - LLM

LLM이 틀렸을 때 말싸움 대신 대화창을 새로 열어야 하는 이유

LLM이 오류를 범했을 때 반복적으로 수정하려 논쟁하기보다, 새 대화를 시작하며 이전의 함정을 미리 지적하는 것이 더 효과적이다.

r/LLMDevs Companies Libraries

단 4줄의 설정으로 Gemini 2.0 Flash를 무료로 연동하는 방법

Google AI Studio의 Gemini 무료 티어 API를 Spring AI의 OpenAI 통합 기능을 활용해 단 4줄의 설정만으로 연동하는 실무 팁이다.

GoogleSpring AI

r/ClaudeAI Companies Coding Agents

Claude Design으로 고퀄리티 결과물 뽑아내는 7가지 실전 전략

Claude Design을 몇 주간 사용하며 겪은 시행착오를 바탕으로 기획 확정, 디자인 시스템 설정, 참조 이미지 활용 등 실무 효율을 높이는 7가지 가이드를 공유했다.

AnthropicClaude Code

r/LLMDevs Companies Hardware

단순 프롬프트를 넘어 장애 이력까지 학습하는 AI 코드 리뷰어

GitHub 웹훅과 Hindsight를 활용해 과거 장애 이력 및 팀 컨벤션을 실시간으로 학습하고 PR 리뷰에 반영하는 데이터 파이프라인 구축 사례이다.

GitHubGroq

Hacker News - LLM

LLM 추론 비용과 지연 시간을 혁신적으로 줄일 자기 인증 캐시 아키텍처 LAWS 공개

실제 워크로드에서 전문가 함수 라이브러리를 구축하여 추론 오차 범위를 보장하고 효율성을 극대화하는 자기 인증 캐시 아키텍처 LAWS가 제안됐다.

r/ClaudeAI Coding Agents Agents

Claude Code의 8분 분석을 2분으로 단축하는 Repowise 공개

Claude Code가 대규모 코드베이스를 분석할 때 발생하는 컨텍스트 낭비를 줄이기 위해 AST 파싱과 Git 이력을 활용해 사전 인덱싱을 수행하는 도구 Repowise가 공개됐다.

Claude CodeMCP

r/ClaudeAI Coding Agents Dev Tools

코딩하는 AI는 이제 어시스턴트가 아니라 '소프트웨어 프린터'이다

AI가 코드 작성부터 배포, 유지보수까지 자율적으로 수행함에 따라 개발 도구의 패러다임이 '어시스턴트'에서 '소프트웨어 프린터'로 진화하고 있다.

Claude CodeCursorCopilot

100

r/ClaudeAI Coding Agents

LLM의 무의미한 토큰 낭비 해결, 상태 머신으로 제어하는 Red Queen

LLM의 불안정한 라우팅 대신 상태 머신과 Claude Code를 결합하여 안정적인 소프트웨어 개발 생명주기를 자동화하는 오픈소스 도구이다.

Claude Code

r/ClaudeAI Coding Agents Agents

토큰 10억 개를 아꼈다? 그래프 기반 코드 에이전트 최적화 전략

코드베이스를 그래프로 인덱싱하여 AI 에이전트의 불필요한 탐색을 줄이고 토큰 사용량을 54% 절감하면서도 품질을 높인 GrapeRoot 사례이다.

Claude CodeMCP

r/ClaudeAI Coding Agents Agents

Claude Code 업데이트: 멀티 에이전트 협업 및 보안 기능 대폭 강화

Claude Code v2.1.132 업데이트를 통해 관리형 에이전트의 멀티 에이전트 세션 관리, 웹훅 지원, 보안 모니터링 및 스케줄링 로직이 개선되었다.

Claude CodeMCP

r/ClaudeAI Language Models Dev Tools

코딩 몰라도 가능? Claude로 만든 게임이 2,500만 플레이 돌파

코딩 경험이 전혀 없는 사용자가 Claude와 Cursor를 활용해 8,000라인의 단일 파일 게임에서 시작하여 일일 사용자 20만 명 규모의 상용 서비스로 성장시킨 실전 사례이다.

ClaudeCursorNext.js

100

r/ClaudeAI Products Agents

Claude AI에서 PDF 업무 자동화 가능해진 Nitro MCP 커넥터

Nitro가 Claude AI에서 PDF 및 문서 워크플로를 직접 처리할 수 있는 MCP 커넥터를 출시하여 기업용 문서 자동화 시장에 진입했다.

Claude AIMCP

r/PromptEngineering Language Models

Claude를 전문가로 바꾸는 시스템 프롬프트 활용법 3가지

단순 대화 대신 역할 기반의 시스템 프롬프트를 설정하여 Claude의 출력 품질과 일관성을 높이는 실전 워크플로 사례이다.

Claude

140

Hacker News - LLM

강화학습보다 50배 효율적인 LLM 학습법? 온-폴리시 증류의 위력

학생 모델의 샘플을 교사 모델이 토큰 단위로 평가하는 온-폴리시 증류 기법을 통해 강화학습 대비 최대 100배의 계산 효율로 고성능 소형 모델을 구축할 수 있다.

r/artificial Language Models Hardware

LLM 속도 측정의 함정, 이제 '유효 속도' eTPS에 주목하라

단순한 생성 속도(TPS) 대신 답변의 정확도와 수정 횟수를 반영한 '유효 초당 토큰 수(eTPS)'라는 새로운 성능 지표를 제안한다.

GemmaRTX 5060

Claude Companies

Claude 3 Opus 출시 당일 v0가 바로 대응할 수 있었던 비결

Vercel의 Guillermo Rauch가 Anthropic과 함께 모델의 비약적 발전에 대응하는 아키텍처 설계와 에이전트 중심 기업으로의 전환 과정을 공유한다.

Anthropic

HF Daily Papers

iRAG의 한계 돌파, 픽셀 단위 증거 시각화로 신뢰성 80.4% 달성

기존의 검색 증강 생성(RAG) 시스템은 텍스트 기반의 출처만 제공하여 복잡한 도표나 슬라이드 내의 구체적인 증거 위치를 찾기 어려웠습니다. 이 논문은 문서의 스크린샷에서 직접 증거를 찾아 바운딩 박스로 표시함으로써, 사용자가 AI의 답변 근거를 즉시 시각적으로 검증할 수 있게 합니다.

HF Daily Papers

의료 AI 에이전트의 성능을 16.4% 향상시킨 새로운 강화학습 환경

기존 의료 AI는 단발성 질문 답변에 치중되어 실제 진료 현장의 다단계 의사결정 과정을 반영하지 못했다. 이 논문은 135개의 전문 도구와 3,600개 이상의 작업을 포함한 강화학습 환경을 구축하여, 의료 AI가 실제 의사처럼 도구를 사용하고 추론하며 최적의 치료 경로를 찾을 수 있는 기반을 마련했다.

HF Daily Papers Libraries Benchmarks

무인 항공기 구조 에이전트를 위한 고정밀 3D 시뮬레이션 벤치마크 공개

기존의 무인 항공기(UAV) 구조 방식은 단순한 경로 계획에 의존해 복잡한 환경에서의 추론 능력이 부족했다. 이 논문은 실제 지형 데이터를 기반으로 한 고정밀 시뮬레이션 환경을 제공하여, AI 에이전트가 시각적 단서를 찾고 조난자의 위치를 스스로 추론하는 능력을 평가할 수 있는 표준을 제시한다.

AirSimESARBenchUnreal Engine 5

HF Daily Papers

대화형 감성 분석 SOTA 달성, 스레드 제약과 D-RoPE로 노이즈 해결

대화형 감성 분석에서 여러 대화가 섞일 때 발생하는 구조적 노이즈와 문장 간 거리가 멀어질 때 관계 파악이 어려워지는 문제를 해결했습니다. 스레드 단위의 제약을 둔 그래프 구조와 담화 맥락을 반영한 위치 임베딩을 통해 복잡한 다자간 대화에서도 정확한 감성 추출이 가능함을 입증했습니다.

HF Daily Papers

인도어 음성 인식의 한계 돌파, 합성 데이터로 성능 17배 향상

전화번호, 주소, 코드믹스 등 엔티티가 밀집된 인도어 음성 인식은 기존 SOTA 모델과 상용 API에서도 성능이 매우 낮다. 이 논문은 저비용 TTS 시스템을 활용해 고품질 합성 데이터를 생성하고 이를 다시 ASR 학습에 사용하는 플라이휠 구조를 통해 이 격차를 획기적으로 줄이는 방법을 제시한다.

HF Daily Papers

대화형 세계 모델 평가를 위한 33만 개 비디오 기반 iWorld-Bench 공개

인공 일반 지능(AGI) 구현을 위해 에이전트가 환경과 상호작용하며 학습할 수 있는 세계 모델의 중요성이 커지고 있다. 이 논문은 기존 벤치마크의 한계인 장면의 다양성 부족과 액션 입력 정의의 불일치를 해결하기 위해 통합 프레임워크와 대규모 데이터셋을 제공하여 세계 모델 연구의 새로운 기준을 제시한다.

HF Daily Papers Benchmarks Architecture

사전 학습 없이 실시간 학습만으로 xz 압축률을 뛰어넘은 Mamba 기반 압축기

수억 개의 파라미터를 가진 거대 모델이나 GPU 없이도, 압축 과정 중에 실시간으로 학습하는 가벼운 Mamba 모델이 기존의 강력한 압축 도구인 xz보다 더 높은 압축률을 기록했습니다. 이는 특정 데이터에 즉각적으로 적응하는 온라인 학습 모델이 범용 압축 분야에서 실질적인 경쟁력을 가질 수 있음을 보여줍니다.

enwik8MambaStateSMix

HF Daily Papers

가우시안 스플래팅으로 3D 포인트 클라우드 복원 성능 SOTA 달성

기존의 3D 포인트 클라우드 복원 방식은 성긴 데이터를 2D 평면에 투영할 때 정보가 소실되는 Cross-Modal Entropy Collapse 문제를 겪었다. 이 논문은 가우시안 스플래팅을 활용해 불연속적인 데이터를 연속적인 밀도 표현으로 변환함으로써 2D 이미지의 시각적 정보를 3D 복원에 효과적으로 결합하는 새로운 방법론을 제시한다.

HF Daily Papers

AI 에이전트의 실제 업무 능력 측정 결과, 인간 대비 33%p 낮은 성능 기록

기존 AI 에이전트 평가가 단일 파일이나 단순한 지시 이행에 그쳤던 것과 달리, 실제 사무 환경처럼 수만 개의 파일과 복잡한 의존성이 얽힌 환경에서 에이전트의 실질적인 업무 수행 능력을 평가합니다. 연구 결과 현재 가장 뛰어난 에이전트도 인간의 업무 완성도에 크게 못 미치는 것으로 나타나, 향후 에이전트 아키텍처가 나아가야 할 방향을 제시합니다.

HF Daily Papers Coding Agents Agents

Kimi Agent Swarm 분석으로 밝힌 4,000단계 멀티 에이전트 강화학습의 핵심 원리

LLM 에이전트가 단순한 도구 사용자를 넘어 팀 단위로 협업하는 시대로 진화함에 따라, 팀 전체의 효율성을 극대화하는 강화학습 방법론이 필수적이다. 이 논문은 산업계의 대규모 에이전트 시스템과 학계 연구 사이의 간극을 메우고, 에이전트 생성부터 결과 취합까지의 전 과정을 최적화하기 위한 기술적 프레임워크를 제공한다.

Claude CodeKimi Agent Swarm

HF Daily Papers Products

SymptomAI, 전문의보다 2.47배 정확한 AI 감별 진단 달성

일상생활에서 발생하는 건강 증상을 AI가 전문 의료진 수준으로 정확하게 평가할 수 있음을 입증했다. 특히 사용자가 주도하는 대화보다 AI가 체계적으로 질문을 던지는 인터뷰 방식이 진단 정확도를 획기적으로 높인다는 점을 확인하여 미래 의료 AI의 방향성을 제시한다.

Fitbit

HF Daily Papers

LLM의 특허 심사 능력 검증, GPT-5-mini가 반박 생성에서 90.5% 점유율 달성

특허 심사는 고도의 기술적 전문성과 법적 논리가 결합된 복잡한 과정이지만, 기존 AI 연구는 단순 분류나 추출에 그쳤다. 이 논문은 심사관의 거절 이유 통지(Office Action)와 출원인의 반박(Rebuttal)이라는 상호작용적 전 과정을 모델링한 최초의 벤치마크를 제시하여 LLM의 실질적인 법적 추론 능력을 평가한다.

HF Daily Papers

LLM의 '헤비 씽킹' 기술로 복잡한 추론 성능 극대화

기존의 복잡한 에이전트 오케스트레이션 시스템 대신 LLM 자체의 내재적 기술로 '깊게 생각하기'를 구현할 수 있음을 입증했다. 병렬 추론과 순차적 숙의라는 두 단계 파이프라인을 통해 모델의 추론 능력을 테스트 타임에 확장할 수 있는 새로운 경로를 제시한다.

HF Daily Papers Vision AI

이미지와 비디오를 넘나드는 통합 분할 모델 X2SAM 공개

기존의 분할 모델들은 이미지나 비디오 중 하나에 특화되어 있거나 텍스트와 시각적 프롬프트를 동시에 처리하는 데 한계가 있었다. X2SAM은 이를 하나의 프레임워크로 통합하여 복잡한 대화형 지시문과 시각적 프롬프트를 모두 지원하며 비디오에서의 시간적 일관성까지 확보했다.

X2SAM

HF Daily Papers

PRISM: 멀티모달 AI의 고질적 문제인 'SFT 성능 저하'를 해결하다

표준적인 멀티모달 모델 학습 과정에서 지도 학습(SFT)이 오히려 모델의 원래 능력을 해치거나 분포 불일치를 일으키는 문제를 해결한다. SFT와 강화학습 사이에 '사전 정렬' 단계를 추가하여 시각적 이해와 논리적 추론 능력을 동시에 개선함으로써 최종 성능을 극대화한다.

HF Daily Papers Agents Prompting

단 1만 개의 데이터로 강화학습 없이 SOTA 검색 에이전트 달성

대규모 자본이 투입되는 복잡한 강화학습(RL) 파이프라인 없이도, 고품질의 데이터 설계만으로 세계 최고 수준의 검색 에이전트를 개발할 수 있음을 입증했다. 학계나 오픈소스 커뮤니티에서도 적은 비용으로 고성능 에이전트를 구축할 수 있는 새로운 방법론을 제시했다.

OpenSeeker-v2ReAct

HF Daily Papers

잠자는 동안 AI가 실험부터 논문 투고까지 자율적으로 수행

기존의 자율 연구 에이전트들이 동일 모델 계열 내에서 자기 수정을 반복하며 발생하는 상관 오류 문제를 해결하기 위해 서로 다른 모델 계열 간의 적대적 협업 구조를 도입했다. 이를 통해 실험 데이터의 무결성을 검증하고 논문의 논리적 허점을 찾아내는 강력한 보증 계층을 구축하여 신뢰할 수 있는 자율 연구 환경을 제공한다.

r/LangChain Libraries

프롬프트 한 줄 바꿨는데 에이전트가 폭주한다면? Shadow로 해결

프롬프트나 모델 변경으로 인한 AI 에이전트의 동작 변화를 감지하고 원인을 분석하는 오픈소스 테스트 도구 Shadow가 공개됐다.

AG2CrewAILangGraph

TechCrunch AI Companies

xAI의 데이터센터를 통째로 빌린 Anthropic, 머스크의 진짜 속셈은?

xAI가 Colossus 1 데이터센터의 연산 자원 전체를 Anthropic에 대여하기로 결정하면서, AI 모델 개발보다 인프라 제공 사업에 집중하는 전략적 변화를 보였다.

xAI

TechCrunch AI Products Companies

Snapchat에서 Perplexity AI 검색 못 본다? 4억 달러 계약 파기

Snap이 1분기에 Perplexity와의 AI 검색 엔진 통합 파트너십을 종료했으며, 향후 매출 가이드라인에서도 관련 기여분을 제외했다.

PerplexitySnapSnapchat

Claude

Devin 개발사와 유니콘들이 밝히는 AI 에이전트 아키텍처의 실체

Cognition, Gamma, Harvey 세 팀이 멀티 에이전트 오케스트레이션, MCP 도입 및 자율 에이전트 설계 시 직면한 기술적 트레이드오프와 아키텍처 결정을 공유했다.

HF Community Blogs

100만 파라미터 모델이 270억 모델을 이긴 비결: Sparrow의 수학 정복기

초소형 모델 FANT와 Sparrow를 통해 SleepGate와 SpinorApollonian Memory 같은 독창적 아키텍처가 수학적 추론 성능을 극대화하는 과정을 다룹니다.

The AI Grid Companies

인류 최후의 발명? 억만장자들이 AGI를 두려워하면서도 만드는 이유

AGI 개발을 주도하는 리더들이 정렬 문제, 지능 폭발, 경제적 붕괴 위험을 경고하면서도 경쟁적으로 기술 개발에 박차를 가하는 모순적 상황과 그 위험성을 분석한다.

OpenAI

Hacker News - LLM

LLM 에이전트도 굴복시킨 46년 된 게임 NetHack 포팅 대회 개최

44만 라인의 C 코드로 구성된 NetHack 5.0을 LLM 에이전트 등을 활용해 브라우저용 JavaScript로 완벽하게 이식하는 기술 경진 대회가 열립니다.

r/LangChain Libraries

쇼핑 전 레딧·유튜브 뒤지는 수고를 덜어줄 AI 구매 에이전트

아마존 가격 비교부터 레딧의 실사용자 불만까지 교차 분석하여 제품 구매 여부를 판단해주는 AI 에이전트 구현 사례이다.

LangChain

Hacker News - LLM

NVIDIA B200에서 TensorRT-LLM을 능가하는 추론 엔진 TokenSpeed 공개

TokenSpeed는 에이전트 워크로드에 최적화된 고성능 추론 엔진으로, NVIDIA Blackwell 환경에서 TensorRT-LLM 대비 높은 처리량과 낮은 지연 시간을 달성했습니다.

Claude

Claude Managed Agents: 인프라 고민 없이 에이전트를 배포하는 방법

Claude Managed Agents를 통해 상태 관리, 세션 유지, 가드레일 등 복잡한 인프라를 자동화하여 확장 가능한 AI 에이전트를 구축하고 배포하는 실무 전략을 제시한다.

r/PromptEngineering Language Models Training

단순한 페르소나 설정이 AI의 성능을 망칠 수 있는 이유

PRISM 논문이 주장하는 페르소나의 정렬 효과가 자기참조적 평가와 부실한 프롬프트 구조로 인해 왜곡되었음을 지적하고 대안적 프레임워크를 제시했다.

ClaudeLoRAQwen2.5-7B

r/artificial Companies Coding Agents

Anthropic-SpaceX 동맹 체결, Claude Code 제한 2배로 풀렸다

Anthropic이 SpaceX의 데이터 센터 인프라를 확보하며 Claude Code의 사용 제한을 2배로 늘리고 API 속도 제한을 완화했다.

AnthropicClaude CodeSpaceX

r/artificial Language Models Agents

소상공인의 무기 Claude와 Manus, 대기업과의 싸움에서 승리하다

텍사스의 한 비건 치즈 제조업체가 Claude와 Manus 같은 AI 도구를 활용해 대형 배송업체와의 분쟁 및 항소 절차를 성공적으로 관리했다.

ClaudeManus

Matthew Berman Companies

Claude는 살아있는 생명체인가? Anthropic과 OpenAI의 소름 돋는 철학 차이

Anthropic과 OpenAI가 AI를 바라보는 근본적인 시각 차이와 그로 인해 발생하는 안전성, 배포 전략, 기업 문화의 대조적인 모습을 심층 분석한다.

Anthropic