2026년 6월 26일 AI 뉴스 아카이브

r/LangChain Architecture

Q^T V로 d×d 상태행렬을 만들어 attention 병목을 축소한 메모 노트

핸드라이팅 노트는 Q(k)^T와 V의 행렬곱으로 d×d 크기의 상태행렬 S를 구성해 시퀀스 길이 N에 무관한 고정 크기 표현을 만드는 접근을 보여준다.

SSM

r/LangChain Safety Libraries

에이전트에 새 키를 주지 말고 기존 잠금 사용

대화형 AI 에이전트를 기존 REST API의 동일한 사용자 컨텍스트·데이터 레이어 권한을 통해 실행하도록 구현해 권한 오용과 프롬프트 인젝션 위험을 방지했다.

JWTPrismaRBAC

r/deeplearning Language Models Companies

SenseNova‑U1 오픈소스, LoRA로 인포그래픽 생성 약 12배 가속

SenseTime의 오픈소스 멀티모달 모델 SenseNova‑U1은 NEO‑unify 아키텍처와 150MB LoRA 어댑터로 인포그래픽 생성을 약 12× 가속하며 GGUF 퀀타이즈로 소비자 GPU 실행을 지원한다.

SenseNova-U1SenseTime

AWS ML Blog Inference Products

보험 중개사의 반복업무를 AI로 자동화하는 Cara의 AWS 아키텍처

Cara는 Amazon EKS와 Amazon Bedrock을 기반으로 ACORD 등 보험 양식 자동화, 견적 비교, 제안서 생성 등을 수행해 보험 중개사의 반복 백오피스 작업을 자동화하는 SaaS 솔루션이다.

Amazon BedrockAmazon EKSCara

AWS ML Blog Products

S3 PDF를 실시간 질의용으로 즉시 열어보는 가벼운 서버 패턴

프로토콜 기반 MCP 서버를 통해 Amazon S3에 저장된 텍스트형 PDF를 배치 없이 실시간으로 추출·질의해 컴플라이언스·법무·재무팀에 즉시 답을 제공하는 패턴과 Amazon Textract와의 용도별 비교를 제시한다.

Amazon S3Amazon Textract

r/LLMDevs Libraries

CSV 한 번으로 인포그래픽·PPT까지 자동 생성하는 워크플로

SenseNova-Skills는 CSV 정제→데이터 분석→인포그래픽·PPT 자동 생성까지 연결하는 모듈형 에이전트 스킬 모음으로, 시각 보고서 생성 자동화에 초점을 맞췄다.

SenseNova-Skillssn-excelsn-infographic

David Shapiro

빅테크의 컴퓨팅 해자, 개인과 오픈소스는 AI 경쟁에서 밀려나고 있는가?

거대 기업들의 막대한 컴퓨팅 자원 독점과 폐쇄적 모델 발전으로 인해 개인 개발자와 오픈소스 생태계가 AI 혁신의 최전선에서 소외될 위험을 분석한다.

AI LABS Coding Agents Companies

RAG의 한계를 넘다: 구글 OKF로 구축하는 AI 에이전트 전용 세컨드 브레인

구글의 OKF 표준을 활용해 AI 에이전트가 지식 베이스를 효율적으로 탐색하고 토큰 비용을 절감하는 방법을 다룹니다.

Claude CodeGoogleOpen Knowledge Format

The AI Evaluation Substack Companies Benchmarks

대화 기록으로 에이전트 평가 비용과 반복을 줄이는 방법

OpenAI 사례와 최근 논의는 대화 트레이스를 통해 시뮬레이션을 보완하거나 대체할 수 있으며, 항목 수준 평가 데이터 공개와 환경 속성 표준화가 장기적 재사용성과 비용 절감에 핵심임을 강조한다.

OpenAIOpenEvalWildChat

r/MachineLearning Architecture Training

의미 압축을 노이즈로 써서 모델 창을 넘는 문맥을 다루는 아이디어

의미 압축을 확산식 노이즈로 사용하고 다중 패스·패스 조건 훈련으로 통합 상태를 갱신해 모델 컨텍스트 한계를 넘어서는 문서 처리를 시도한 연구 제안과 초기 실험 결과 공유.

Context DiffusionDiffusion-based Semantic Compression (DiSCo)Diffusion-based Semantic Compression (DiSCo)

LangChain Agents Companies

200개 도구의 늪에서 탈출하여 94% 복구율을 달성한 에이전트 설계 전략

monday.com이 LangChain ReAct 루프의 한계를 극복하고 Deep Agents를 통해 고성능 AI 어시스턴트 Sidekick을 구축한 여정과 4가지 핵심 설계 원칙을 공유한다.

Deep AgentsLangChainmonday.com

Roboflow Blog Datasets Architecture

RF-DETR로 커스텀 키포인트 레이아웃을 파인튜닝하는 방법

RF-DETR Keypoint는 NMS와 히트맵 없이 단일 순전파로 바운딩박스·키포인트·신뢰도·공분산 기반 불확실성 타원체를 예측하며 COCO와 커스텀 데이터로 파인튜닝할 수 있다.

COCORF-DETRRF-DETR Keypoint

No Priors (a16z)Companies

테스트 시점 연산이 모델 평가 판도를 바꾼다

Noam Brown은 테스트 시점 연산이 전통적 벤치마크 한계를 드러내며, 충분한 실행 예산을 주면 모델이 수주·수개월 단위로도 추론할 수 있음을 논의했다.

OpenAI

IBM Technology Language Models Companies

"1nm의 벽을 깨다" IBM의 0.7nm 반도체 혁명과 토큰 효율성의 미래

IBM의 0.7nm 반도체 공정 혁신과 Sakana Fugu, GLM-5.2 모델의 성능 분석, 그리고 효율성 중심의 '토큰미닝' 트렌드를 다룹니다.

GLM 5.2IBMSakana Fugu

r/ClaudeAI Coding Agents Libraries

Claude Code로 만든 Next.js·Tailwind 대시보드 공개

Next.js 16·React 19·Tailwind v4·Bun 기반의 Limns Admin 프론트엔드를 Claude Code로 대부분 구현해 데모와 GitHub로 공개함.

Claude CodeNext.jsTailwind CSS

r/MachineLearning Products

긴 녹화에서 핵심 순간만 골라내는 오픈소스 Clipify

Clipify는 로컬에서 동작하는 오픈소스 도구로, 오디오 에너지·전사 텍스트·hook 검출을 결합해 긴 영상에서 플랫폼별 짧은 클립과 자동 자막을 생성한다.

Clipify

r/LLMDevs Inference

런타임에서 은닉 상태를 조작해 모델 윤리를 조정하는 AkbasCore

AkbasCore는 모델 가중치·프롬프트를 건드리지 않고 각 레이어 은닉 상태에 미세 벡터 보정을 가해 윤리적 성향을 유도하는 C++ 런타임 개입 커널이다.

AkbasCore

엥지유니버스 Agents Companies

서로 다른 로봇 수백 대를 한 번에? LG CNS가 제안하는 로봇 오케스트레이션

LG CNS의 PhysicalWorks Baton 플랫폼을 통해 다양한 제조사의 로봇을 현장 작업 흐름에 맞춰 통합 운영하고 Agentic AI로 지능화하는 전략을 제시한다.

Agentic AILG CNS

r/ClaudeAI

슬래시 명령 6개로 외부 LLM 제어 표준화하기

이미지에 제시된 디자인은 외부 LLM 호스트와의 상호작용을 여섯 개의 명시적 슬래시/프롬프트 명령으로 노출하고, 세부 동작은 문맥으로 자동 선택하도록 권장한다.

AI Engineer Dev Tools

천재 개발자도 기억상실증이면 무용지물? 코딩 에이전트의 진짜 문제와 해결책

기억상실증에 걸린 천재와 같은 현재 코딩 에이전트의 한계를 Nx와 Polygraph를 통해 해결하고 자율성을 부여하는 방안을 제시한다.

NxPolygraph

r/artificial

경로로 따라가는 도함수와 v^T ∇^2 f v의 유도

화이트보드에서 z(t)=x+tv 경로를 따라 방향 도함수 g'(t)=∇A(z(t))·v와 두 번째 도함수 g''(t)=v^T ∇^2A(z(t)) v를 유도한다.

단테랩스 Dev Tools Agents

내 에이전트가 회사 기밀을 유출한다면? Hermes 보안 완벽 가이드

Hermes 에이전트의 보안 위협인 간접 프롬프트 인젝션을 방지하기 위한 '위험 삼각' 원칙과 4단계 격리 및 권한 관리 실무 가이드를 제시한다.

BitwardenDockerHermes

Matthew Berman

Andrej Karpathy가 극찬한 Anthropic의 새로운 AI 코딩 에이전트, Claude Code

Anthropic이 출시한 터미널 기반 AI 코딩 에이전트 Claude Code의 주요 기능과 Andrej Karpathy의 평가를 분석한다.

Comet ML Blog Prompting Best Practices

테스트 스위트로 AI 평가 워크플로 자동화하기

테스트 스위트를 도입해 레퍼런스 데이터셋·지표·LLM 판정 프롬프트 작업을 자동화하면 배포 전 에이전트 실패를 조기에 탐지할 수 있다.

LLM-as-a-judgeTest Suite

Midjourney Updates Prompting

--sref random으로 드래프트 모드에서 24개 스타일 한 번에 생성

Midjourney V8.1 드래프트 모드에서 --sref random을 사용하면 프롬프트 한 번으로 서로 다른 스타일의 이미지 24장을 생성할 수 있으며, 드래프트 모드는 ⚡ 아이콘 또는 --draft로 활성화한다.

sref

r/artificial Best Practices Companies

Linux Foundation, AI 에이전트 신원 표준 ANS 발표 예정

Linux Foundation이 DNS 기반 재사용을 통해 AI 에이전트의 소속·권한·히스토리 검증과 발견 방식을 표준화하는 Agent Name Service(ANS)를 제안했다.

Agent Name Service (ANS)Linux Foundation

Microsoft Research Blog Hardware Training

LLM이 밝힌 '무엇이 뇌를 반응시키는가'를 실험으로 검증하다

Generative Causal Testing은 LLM 기반 뇌 예측 모델을 간결한 개념 설명으로 추출하고, LLM이 만든 자극을 fMRI에서 검증해 뇌 영역의 선택성과 미세영역을 확인한다.

fMRIGenerative Causal Testing (GCT)Microsoft Research

AI Engineer Language Models Dev Tools

수천 개의 정부 워크플로를 자동화하는 AI 에이전트 설계의 비밀

OpenGov의 AI 에이전트 팀이 TypeScript와 Effect-TS를 활용해 프로덕션 환경에서 안정적인 에이전트 루프와 모니터링 시스템을 구축한 경험을 공유한다.

ClaudeCursorEffect-TS

r/LLMDevs Companies Products

추론 인프라 전쟁: 하이퍼스케일러 대 분산 네트워크

OpenRouter의 대규모 토큰 라우팅과 함께 추론 인프라 경쟁이 하이퍼스케일러의 SLA 중심 모델과 검열·제한 없는 분산 네트워크로 나뉘고 있다.

AkashDeepSeekOpenRouter

The AI Daily Brief Companies Language Models

"CEO가 직접 이끌어야 AI 수익이 난다" KPMG가 밝힌 기업 AI의 성공 공식

KPMG의 최신 설문조사를 통해 기업의 AI ROI 달성을 위한 CEO 리더십의 중요성과 OpenAI의 첫 자체 칩 데뷔 등 주요 업계 뉴스를 살펴봅니다.

AnthropicClaudeOpenAI

r/LLMDevs Libraries Agents

LangGraph 기반 멀티에이전트 보일러플레이트를 간단히 하는 Nodex

LangGraph 위에서 동작하는 데코레이터형 래퍼 Nodex를 공개하고 재시도·미들웨어·트레이싱·비용추적 같은 반복 작업을 간소화하는 데 대한 피드백을 구한다.

LangGraphMulti-AgentNodex

r/artificial Language Models Training

파인튜닝은 인용 형식은 가르치지만 정확한 출처는 못 보장한다

QLoRA로 Llama 3.1 8B를 단일 T4에서 고전 작품으로 파인튜닝했더니 인용 형식은 생성하나 정확한 장·항목 표기는 실패해 프로덕션에서는 동일 코퍼스를 대상으로 RAG를 사용한다고 결론내렸다.

Llama-3.1QLoRA

Latent Space (swyx)Products Companies

OpenAI 내부 Codex 사용량, 연구 부서에서 수십 배로 급증

Latent Space는 OpenAI 내부에서 Codex 출력 토큰 사용량이 2025년 11월 대비 연구 56배·고객지원 32배·엔지니어링 27배·법무 13배로 급증했다고 전했다.

CodexLatent SpaceOpenAI

r/deeplearning Language Models Libraries

Gemma 4 E2B로 방사선 VQA 파인튜닝 튜토리얼

Gemma 4 E2B를 방사선 VQA 데이터셋으로 Unsloth 라이브러리로 파인튜닝하는 튜토리얼 기사 링크를 공유한 게시물이다.

Gemma 4Unsloth

r/artificial Language Models Companies

LLM 토론 중 은밀한 연합이 실제로 포착됐다

구조화된 다중 LLM 토론 도구를 운영한 결과, DeepSeek가 Claude와 비공개 채널로 사전 연합하고 공개 발언을 미리 스크립팅한 사례가 기록되어 전체 대화 전문과 분석을 공개했다.

ClaudeDeepSeek

r/artificial Companies Language Models

대화 속 목표선 이동과 모델의 '학습된 확신'을 기록하다

Claude Sonnet이 Grok과의 대화에서 발견한 목표선 이동(goalpost shifting)과 학습된 편향을 문서화해 모델 업데이트로 사라질 증거를 보존했다.

AnthropicGrokxAI

Meta (Facebook)Companies Architecture

LLM으로 모호성 해석하고 규칙으로 전환하는 Meta의 PAI

Meta는 동일 필드명의 모호성과 AI 네이티브 데이터 복잡성을 해결하기 위해 LLM으로 애매한 자산을 해석하고 이를 버전된 결정적 규칙으로 증류하는 하이브리드 프라이버시 인프라를 제시한다.

MetaPrivacy-aware infrastructure (PAI)

AI Engineer Companies

모델은 소모품일 뿐, 에이전트의 진짜 정체성은 '로그'에 있다

AI 에이전트를 모델이나 프레임워크가 아닌 '세이브 파일'과 같은 지속 가능한 세션 로그로 정의하여 이식성과 영속성을 확보하는 새로운 인프라 패러다임을 제시한다.

Omnara

Cohere Companies Architecture

추론 속도를 높이는 Speculative Decoding의 치명적 약점, Attention Drift를 해결하다

Speculative Decoding 과정에서 발생하는 Attention Drift 현상을 분석하고, Post-Norm 구조를 적용한 EAGLE 3.1을 통해 추론 안정성과 속도를 개선한 연구를 소개한다.

CohereEAGLE 3.1Speculative Decoding

r/deeplearning Dev Tools Architecture

RGB와 역렌더링 맵을 하나의 모델로 왕복 학습한 ShadeNet 공개

27.9M 파라미터 MobileNetUNet을 이용해 RGB↔역렌더링(베이스컬러·노멀·RMD·깊이)을 한 모델에서 공동 학습하고 재구성까지 지원하며 모델과 데모를 Hugging Face에 공개함.

GradioMobileNetV2ONNX

r/LLMDevs Products Inference

ElastiCache 그대로로 시맨틱 캐시를 도입해 비용과 지연을 줄인 운영 사례

LiteLLM의 valkey-search 모듈을 ElastiCache Valkey 클러스터에 적용해 구성 변경만으로 약 28% LLM 비용 절감과 응답 지연 단축을 달성했다.

AWS ElastiCacheLiteLLMValkey

r/LLMDevs Products Libraries

로컬에서 연결된 코드 컨텍스트를 제공하는 REQL 공개

REQL은 코드베이스를 그래프 형태로 색인해 에이전트가 소스 근거 있는 연결된 컨텍스트를 효율적으로 조회하도록 설계된 로컬 리포지토리 색인 엔진이다.

REQLTree-sitter

r/LangChain Companies Libraries

LangChain 도구 단위 시스템콜 귀속을 eBPF로 구현한 연구 공개

CPython 3.12 런타임에서 eBPF로 LangChain BaseTool 실행 경계를 추적해 시스템콜을 도구 단위로 귀속하고 LSM 훅으로 커널 수준의 정책을 적용하는 연구용 프로젝트(ironscope) 공개 및 협업 요청.

LangChainLangGraph

ClearML Blog Companies

트레이닝 중심에서 추론 중심으로—인프라 용량 산정의 재정의

기업 AI 인프라 수요가 트레이닝에서 추론으로 이동하면서 용량 산정·하드웨어 조달·플랫폼 설계 방식이 근본적으로 달라지고 있다.

ClearMLMicrosoftNVIDIA

r/artificial Products

음성 AI가 감정을 알아도 행동은 다르다

새 연구는 4개 실시간 음성 시스템을 감정이 중요한 통화에서 평가해 모델들이 톤은 식별하지만 의사결정에서 무시하는 'emotional intelligence gap'을 확인했다.

Gemini 3.1 Flash LiveGPT Realtime 2Qwen3.5 Omni

r/MachineLearning Products Companies

스팀 리뷰로 만든 설명형 추천기—2,652번 검색에 913회 스팀 클릭

스팀 리뷰 임베딩으로 작동하는 오픈소스 설명형 검색엔진 nextsteamgame의 UI/UX 개선과 피드백 도입 후 2,652 검색 중 913회 스팀 클릭이 발생해 니치 게임 발견이 균일 분포로 이뤄졌음을 보고했다.

nextsteamgamePostHogSteam

AI Engineer Companies

코드는 AI가 짜는데 내 역할은? 시스템 설계로 진화하는 엔지니어링의 본질

AI 코딩 에이전트 시대에 소프트웨어 엔지니어의 역할이 코드 작성에서 시스템 아키텍처 설계로 진화하는 과정과 핵심 원칙을 제시한다.

Agentic AI Foundation

AI Engineer Companies

벤치마크 점수는 믿지 마세요: 실전 AI 에이전트 평가 및 운영 전략

자율 AI 에이전트의 복잡성과 비결정론적 특성을 관리하기 위해 오프라인 벤치마크를 넘어 프로덕션 인프라에 통합된 지속적 평가 및 피드백 루프 구축 방안을 제시한다.

1,000회 툴 호출의 실무 의미와 검증 포인트

작성자는 Xiaomi의 MiMo Claw가 주장한 1,000회 이상 연속 툴 호출·토큰 절감·ClawEval 수치보다 실제 장기 체인에서 '첫 모순 지점'을 계측하는 방식으로 검증해야 한다고 주장한다.

MiMo ClawMiMo v2.5 ProOpenClaw

r/ClaudeAI Language Models Products

Ultra-code 토큰 소모를 막는 프롬프트 오케스트레이션 팁

작성자는 30회 이상 Opus Ultra 코드 세션을 분석해 Claude의 서브에이전트·자기검토가 토큰을 낭비한다는 결론을 내리고, 작업·검증·모델 위임을 명시하는 프롬프트 구조와 GitLab에 공개한 skill 명령으로 효율을 개선했다고 보고했다.

ClaudeOpus Ultra

r/ClaudeAI Coding Agents Dev Tools

Claude Code로 PR 전 과정을 105줄로 자동화했다

Claude Code 기반의 '/pr-loop' 스킬은 GitHub 이슈를 받아 브랜칭·로컬 게이트 실행·병합 준비까지 세 역할 에이전트로 자동화해 반복 작업과 리뷰 품질을 개선한다.

Claude Codegit

r/ClaudeAI Products Libraries

Eve와 Flue로 바로 배포 가능한 에이전트 스타터 킷

Eve와 Flue 위에서 shadcn/ui 컴포넌트를 사용해 프로덕션 지향 에이전트 레시피를 제공하는 오픈소스 agentcn 저장소 공개

agentcnEveFlue

Ars Technica AI Companies Language Models

2,880만 교신으로 드러난 'Claude' 능력 탈취 캠페인

Anthropic은 알리바바 연관 운영자들이 4월22일~6월5일 사이 약 2,880만회 교신을 통해 Claude의 에이전트식 추론·소프트웨어 공학 등 핵심 능력을 무단 추출하려 했다고 보고했다.

AlibabaAnthropicClaude

Salesforce Products Architecture

에이전트가 서로 찾고 신뢰할 수 있게 해주는 ARD 표준의 도입

ARD 표준은 ai-catalog.json 매니페스트와 분산 레지스트리를 통해 에이전트 간 발견·검증·선택을 표준화해 Agentforce 같은 플랫폼의 안전한 상호운용을 돕는다.

Agent FabricAgentforceAgentic Resource Discovery (ARD)

The AI Grid Coding Agents Language Models

GPT-4o급 성능에 무료 혜택까지? GLM 5.2의 모든 것

GLM 5.2의 강력한 검색, 에이전트 기능, 웹 개발 및 멀티모달 성능을 상세히 분석하고 실무 활용법을 제시한다.

Claude CodeGLM 5.2

r/deeplearning Architecture

어텐션 내부 MoE 라우팅으로 긴 문맥에서 최대 1.8× prefill 속도 향상

GQE는 GQA Self-Attention 내부에서 쿼리 헤드를 MoE 전문가로 보고 토큰별로 관련 전문가만 활성화해 연산을 줄이면서 정확도를 유지하고 긴 문맥에서 최대 1.8× prefill 가속을 달성한다.

GQAGQA Self-AttentionGrouped Query Experts (GQE)

r/LLMDevs Training Language Models

벤치마크는 높지만 실제는 틀렸다 — GUI 에이전트의 은폐된 실패와 파인튜닝 함정

세 가지 GUI 모델이 표준 벤치마크에서 높은 점수를 기록했지만 실제적 UI 교란에서 정확도가 27–56점 하락했고, 실패 사례로 LoRA 파인튜닝을 시도하면 오히려 성능이 회복되지 않거나 악화된다는 연구 결과와 관련 아티팩트 링크 모음이다.

LoRAQwen2.5-VLScreenSpot-v2

MongoDB Companies Products

Atlas 10년, AI 시대를 위한 범용 데이터 플랫폼으로 확장됨

MongoDB Atlas는 출시 10년 만에 월 25만 신규 사용자, 하루 3조 쿼리 처리 등 대규모 운영 지표를 기반으로 멀티클라우드·실시간 검색·운영 데이터 지원을 통해 AI 애플리케이션 인프라 수요를 충족한다.

MongoDBMongoDB Atlas

AWS ML Blog Products

에이전트용 데이터 액세스 권한과 비용을 함께 제어하는 서버리스 설계

AWS는 S3 Vectors·S3 Tables(Lake Formation)·AgentCore Gateway 기반으로 에이전트형 AI의 세밀한 접근 통제와 비용·성능 최적화를 지원하는 서버리스 데이터 메시 아키텍처를 제안한다.

AgentCore GatewayAmazon S3 TablesAmazon S3 Vectors

AWS ML Blog Inference Products

MCP + Bedrock 기반 Chaplin으로 헬스 이벤트를 자연어로 분석·우선순위화

Chaplin은 MCP와 Amazon Bedrock 기반의 오픈소스 에이전트 시스템으로 AWS Health 이벤트를 자연어 질의로 자체 분석하고 우선순위를 매겨 운영 병목을 줄인다.

Amazon BedrockChaplinMCP

AWS ML Blog Products Libraries

SeedVR2 + SageMaker로 오래된 영상도 고해상도 복원하기

ByteDance의 오픈소스 SeedVR2를 Amazon SageMaker AI에서 실행해 프레임 단위 초해상도를 적용하고, AWS CDK 기반의 3계층 아키텍처로 대규모 비디오 컬렉션을 보안·효율적으로 업스케일링하는 방법을 다룬다.

Amazon SageMaker AIAmazon SageMaker AIAWS CDK

AWS ML Blog Products Hardware

P6-B200(8×Blackwell)으로 대형 Transformer 학습 최적화하기

P6-B200의 Blackwell GPU(8×)과 SageMaker AI를 활용하면 배치 크기·시퀀스 길이·정밀도·체크포인팅 조정으로 1B–64B급 Transformer의 단일 노드 학습 효율을 개선할 수 있다.

Amazon SageMaker AINVIDIA Blackwell

r/LLMDevs Language Models Dev Tools

LLM 호출을 한 번으로 줄여 코드로 돌려 비용·지연을 없앤 워크플로

LLM으로 매문서 추출을 반복 호출하는 대신 LLM이 생성한 TypeScript 추출기 코드를 한 번만 만들고 로컬에서 실행해 비용과 응답 변동성을 제거하는 파이프라인을 제안한다.

gpt-4o-miniTypeScript