2026년 7월 1일 AI 뉴스 아카이브

LangChain Coding Agents Language ModelsNEW11시간 전

100만 토큰 GLM 5.2와 dcode로 구축하는 최강 코딩 에이전트

100만 토큰 컨텍스트의 GLM 5.2 모델을 dcode 에이전트와 연결하고 LangSmith로 추론 과정을 추적하는 방법을 다룹니다.

dcode GLM-5.2

Latent Space (swyx)Coding Agents ProductsNEW11시간 전

Warp의 Oz 에이전트 오케스트레이션 플랫폼

Warp가 Oz라는 에이전트 오케스트레이션 플랫폼을 내세워 로컬과 클라우드 샌드박스에서 모델과 코딩 하네스를 연결해 연속적 소프트웨어 변경 워크플로를 자동화하려 한다.

Claude Code Oz

Latent Space (swyx)Companies Domain AINEW11시간 전

PEARL로 정밀해진 3D 구조 예측

Genesis의 PEARL은 확산 모델을 활용해 단백질 유연성을 함께 모델링하며 소분자 신약 설계에 필요한 예측 정확도에 도달했다고 보도되었다.

Genesis Molecular AI PEARL

r/LLMDevs Architecture ProductsNEW11시간 전

MCP 서버 상태 점수화와 폴백 라우팅

MCP 도구 서버를 9개 신호로 점수화해 CI 차단과 폴백 라우팅을 제공하는 오픈소스 프로젝트이다

MCP polyforge

r/LLMDevs Companies Best PracticesNEW11시간 전

분해·독립검증으로 신뢰성 개선, +14.8 사례

작성자는 단일 ReAct 루프와 작업 분해 후 독립 검증을 수행하는 팀 기반 아키텍처를 비교하며 독립 검증 도입이 장기 연구 작업의 신뢰성을 크게 개선한다고 결론지었다.

apodex Loop Engineering

r/LangChain Libraries Vector DBNEW12시간 전

3,248 청크로 환각 제거한 RAG 파이프라인

정규표현식 기반 청킹·메타데이터 필터링·해시 기반 이던포턴시로 헌법 문서의 RAG 환각을 제거한 실무 사례이다.

LlamaParse Pinecone

r/LangChain Architecture LibrariesNEW12시간 전

에이전트 메모리 토큰 87% 절감 MCP 도구

Thrift는 에이전트의 메모리 파일을 토큰 예산 기준으로 선별 복원하여 메모리 관련 토큰 사용을 크게 줄이는 MCP 도구이다.

MCP thrift-memory

AI LABS Language Models CompaniesNEW12시간 전

Hermes Agent 운영비 90% 절감? 성능은 그대로 유지하는 실전 최적화 가이드

Hermes Agent를 OpenRouter와 연동하여 배경 작업 및 컨텍스트 비대화 문제를 해결하고, 모델 선택과 압축 기술을 통해 운영 비용을 획기적으로 줄이는 방법을 다룹니다.

Hermes Nous Research

r/artificial Vision AINEW13시간 전

실시간 영상 기반 발표 전달력 평가 데모

영상을 WebSocket으로 스트리밍해 Inter-1에서 자신감·망설임·에너지 같은 전달 신호와 콘텐츠 점수를 실시간으로 반환하는 데모이다.

Inter-1

r/ClaudeAINEW13시간 전

ANTHROPIC 프록시 판별·스테가마크 JS 코드 노출

스크린샷은 ANTHROPIC_BASE_URL에서 프록시 호스트를 판별하고 시스템 프롬프트용 날짜 문자열을 스테가노그래픽 표식과 함께 생성하는 JavaScript 코드를 담고 있다.

r/ClaudeAINEW15시간 전

A-CODE-LLM Bench 종합 점수 비교 그래프 공개

이미지로 공개된 A-CODE-LLM Bench의 Overall Score 그래프에서 모델 간 점수 차이가 뚜렷하게 나타났다.

r/artificial Language Models LibrariesNEW15시간 전

프롬프트 인젝션 차단용 Sentinel Gateway

Sentinel Gateway는 에이전트와 툴 사이에 신뢰 채널과 비신뢰 채널을 분리하고 런타임 서명 토큰으로 실행을 제한하는 미들웨어이다.

Claude FastAPI

Siraj Raval Products CompaniesNEW17시간 전

6시간 걸릴 테스트를 3분 만에? Kane AI의 자동 복구 성능 테스트

자연어 명령으로 테스트 코드를 생성하고 UI 변경 시 스스로 코드를 수정하는 Kane AI의 성능과 실전 활용 사례를 다룹니다.

Kane AI LambdaTest

AWS ML Blog Inference CompaniesNEW23시간 전

Claude Fable 5 재공급과 강화된 가드레일

AWS는 Amazon Bedrock에서 Anthropic의 Claude Fable 5 모델을 다시 제공하며 강화된 가드레일과 문제가 발생할 때 Opus 4.8로 자동 폴백하는 보안 조치를 적용한다고 밝혔다.

Amazon Bedrock Anthropic

SambaNova Systems Hardware CompaniesNEW1일 전

단어에서 토큰까지, LLM이 문장을 생성하는 핵심 원리

LLM이 텍스트를 토큰으로 처리하고 트랜스포머 아키텍처를 통해 다음 토큰을 예측하며 응답을 생성하는 기본 원리와 추론 과정의 공학적 과제를 다룬다.

RDU SambaNova

Weights & Biases Agents CompaniesNEW1일 전

모델 성능을 스스로 개선하는 AI 연구원, ARIA의 자율 실험 루프

ARIA는 가설 수립부터 실험, 평가까지의 전 과정을 자동화하여 모델과 에이전트의 성능을 지속적으로 개선하는 자율 연구 에이전트이다.

ARIA CoreWeave

LlamaIndex LibrariesNEW1일 전

LlamaParse Index의 진화: 에이전트가 직접 파일 grep하고 하이브리드 검색까지

LlamaParse Index가 에이전트 루프에서 직접 호출 가능한 시맨틱 검색, 서버사이드 grep, 파일 리스팅 등 강력한 네이티브 검색 도구들을 지원한다.

LlamaParse

Matt Wolfe Products CompaniesNEW1일 전

침대 옆으로 오는 자율 주행 변기? 스스로 비우고 닦는 로봇 Xiaoban 등장

중국 Yueban사가 개발한 자율 주행 변기 Xiaoban은 거동 불편자를 위해 스스로 이동, 오물 배출, 세척 및 충전을 수행한다.

Xiaoban Yueban

AWS ML Blog Inference ProductsNEW1일 전

Amazon Bedrock 모델 접근을 중앙에서 배포

Managed entitlements를 사용하면 중앙 계정에서 AWS Marketplace 모델을 한 번 구독하고 AWS License Manager로 조직 전체에 모델 접근 권한을 배포할 수 있다.

Amazon Bedrock AWS License Manager

LangChain Agents Language ModelsNEW1일 전

Gemini Live와 Deep Agents의 결합: 대화 끊김 없는 고성능 음성 AI 구현

Gemini Live의 실시간 음성 반응성과 LangChain Deep Agents의 심층 추론을 비동기 방식으로 결합하여 지연 시간 문제를 해결한 음성 에이전트 아키텍처를 소개한다.

Deep Agents Gemini Live

Microsoft Research Blog TrainingNEW1일 전

SkillOpt의 52개 평가 셀 우수 성능·모델 불변 최적화

SkillOpt은 스킬 파일을 모델 외부의 학습 가능한 매개변수로 취급해 한정된 텍스트 편집과 검증 게이트 등으로 모델 가중치를 바꾸지 않고 6개 벤치·7개 모델·3개 실행 모드의 52개 평가 셀에서 최상위 성능을 달성했다.

SkillOpt

r/LLMDevsNEW11시간 전

self-agreement 역전과 시스템 프롬프트 유출률 비교 실험

이미지 실험에서 self-agreement와 실제 프롬프트 유출 사이의 상관이 모델별로 반대 방향으로 나타났고 4개 모델을 대상으로 2,592회 호출로 평가가 이루어졌다.

LangChain Companies MLOpsNEW13시간 전

수동 체크인 없이 AI 에이전트 성능을 2배로? Pendo의 LangSmith 활용법

Pendo의 CAO Zain Lakhani가 LangSmith의 추적 기능을 활용해 AI 에이전트 Novus의 성능을 개선하고 고객 피드백 루프를 자동화한 사례를 공유한다.

LangChain LangSmith

Matt Wolfe Companies Language ModelsNEW13시간 전

Anthropic이 OpenAI를 추월했다? 9,650억 달러 가치와 기업용 시장의 반전

Anthropic이 기업 가치와 매출에서 OpenAI를 앞서며 기업용 시장을 장악하고 있는 반면, OpenAI는 압도적인 소비자 기반을 유지하고 있다.

Anthropic Claude

SentinelOne Blog CompaniesNEW13시간 전

성숙도 모델과 40%·18%의 도입 격차

SentinelOne의 성숙도 모델은 SOC 자동화를 0에서 4단계로 구분하여 조직의 현재 상태와 다음 단계로의 실무적 요건을 진단하도록 설계되었다.

Gartner SentinelOne

r/LLMDevsNEW13시간 전

TPR‑FPR 운영곡선 기반 프롬프트 탐지기 벤치마크

여러 오픈소스 prompt injection 탐지기를 TPR 대 FPR 운영곡선으로 비교한 공개 벤치마크와 소스를 공유하고 커뮤니티 피드백을 바랐다.

r/LLMDevs Companies LibrariesNEW13시간 전

Orin 코딩 에이전트 아키텍처 공개

Orin은 스트리밍 기반의 헤드리스 루프와 BM25 기반 툴 검색, 모델 라우팅, 파일 스냅샷 등 실무 중심 설계를 채택한 코딩 에이전트이다.

Anthropic Ratel

r/LLMDevs Libraries Language ModelsNEW13시간 전

모델 라우팅과 캐시로 요청당 비용 40% 절감 사례

모델 라우팅, 임베딩 기반 캐시, 롤링 요약, 문서 전처리와 출력 제약을 병행해 요청당 비용을 약 40% 낮췄다.

GPTcache LlamaParse

r/LLMDevs Coding Agents ArchitectureNEW13시간 전

컨텍스트 레이어 소유로 하네스 종속성 해소

단일 통합 메모리와 MCP 도구를 통해 컨텍스트를 소유하면 하네스 교체 시에도 문맥과 스킬을 신속히 이전할 수 있다.

Claude Code MCP

IBM Technology Companies SafetyNEW15시간 전

양자 컴퓨터가 모든 암호를 해독하는 날, Q-Day 생존 전략

양자 컴퓨팅이 기존 암호 체계를 무력화하는 Q-Day의 위협과 이를 대비하기 위한 포스트 퀀텀 암호화(PQC) 및 국가적 대응 전략을 다룬다.

IBM Post-Quantum Cryptography

r/LLMDevs Agents Best PracticesNEW16시간 전

Event Storming 기반 에이전트 검증 루프

Event Storming 보드를 LLM 기반 코딩 에이전트가 원인-결과 그래프 검사로 반복 검증해 기계적 누락은 자동 수정하고 미결정 비즈니스 쟁점은 표면에 남긴다.

Coding Agent Event Storming

r/ClaudeAI Language ModelsNEW17시간 전

노력·비용 대비 Agentic 검색 성능 비교

차트 비교에서 Sonnet 5가 높은 비용 구간에서 가장 높은 성공률을 보였고 Opus 4.8이 근소하게 뒤쫓는 반면 Sonnet 4.6은 전반적으로 낮게 머물렀다.

Sonnet 5

r/LLMDevs Dev ToolsNEW18시간 전

13토큰 참조로 토큰 86% 절감한 sqz

sqz는 SHA-256 기반 중복 캐시와 안전 규칙으로 반복 파일·로그·JSON에서 토큰을 줄여 LLM 비용을 낮추는 도구다.

sqz

r/LangChain Companies BenchmarksNEW18시간 전

CogniCore의 에이전트 메모리 평가와 LongMemEval 95% 달성

CogniCore 팀이 다양한 메모리 백엔드와 평가법을 적용해 '기억이 실제로 도움이 되는지'를 검증하려고 한다.

CrewAI LangChain

r/ClaudeAINEW19시간 전

보수적 안전 분류기와 안전 여유 설계

안전 분류기는 보수적 임계값으로 동작해 일부 합법적 요청을 거부하는 '안전 여유'를 도입함으로써 위험 출력을 줄이는 대신 사용자 불편을 수반했다.

UiPath Blog Coding Agents ProductsNEW21시간 전

개발 속도와 통제를 연결하는 UiPath 통합

UiPath for Coding Agents는 코딩 에이전트가 생성한 코드의 검증·테스트·배포·가버넌스를 UiPath 플랫폼과 연계해 엔터프라이즈 자동화의 신뢰성을 높인다.

GitHub Copilot OpenAI Codex

r/ClaudeAINEW23시간 전

Claude Sonnet 시리즈 컨텍스트·성능 비교

Modelglass 비교표가 Claude Sonnet 계열의 컨텍스트 윈도우, 가격, 추론·코딩·다국어 능력을 토큰 단위와 평점으로 제시하고 있다.

The AI Daily Brief Companies Language ModelsNEW1일 전

1,750억 달러의 증명, AI 거품론을 잠재우는 실질적 성장

AI 산업이 연간 매출 1,750억 달러를 기록하며 실질적 가치를 입증하는 가운데 규제와 하드웨어 공급망 등 주요 업계 이슈를 분석합니다.

Anthropic Claude

r/deeplearning Architecture LibrariesNEW1일 전

0.0114 MAE의 배터리 SOH 트리 기반 방법

측정 시퀀스를 9클래스 하모닉 공간으로 접어 557차원 기술자를 만든 뒤 ExtraTrees와 XGBoost로 학습해 Severson 데이터에서 MAE 0.0114를 달성했다.

Neural ODE XGBoost

Simon Willison Language ModelsNEW1일 전

Sonnet 5 토크나이저로 인한 비용 증가와 1M 컨텍스트

Claude Sonnet 5는 Opus 4.8과 비슷한 성능을 유지하면서 1,000,000 토큰 컨텍스트와 128,000 토큰 출력 한도를 제공하지만 새로운 토크나이저로 입력당 약 30% 더 많은 토큰이 발생해 실질 비용이 상승한다.

Claude Sonnet 5 Mythos 5

SambaNova Systems CompaniesNEW1일 전

학습보다 어려운 추론? AI 모델의 핵심 원리와 실행의 비밀

AI 모델이 데이터를 통해 가중치를 학습하는 원리와 실제 서비스 단계인 추론이 왜 기술적으로 더 어려운지 설명한다.

SambaNova

SambaNova Systems CompaniesNEW1일 전

LLM 토큰 생성의 비밀, 데이터플로우 그래프가 결정하는 추론 속도

LLM 추론 시 토큰 생성 과정을 데이터플로우 그래프의 노드와 의존성 관계로 정의하고 병렬 실행이 성능에 미치는 영향을 설명한다.

SambaNova

r/LLMDevs Companies ProductsNEW1일 전

스키마 덤프 대신 메타데이터로 Text-to-SQL 신뢰성 확보

작성자는 스키마 직렬화에 의존하면 생산 환경에서 텍스트-투-SQL이 잘못된 테이블·조인·비즈니스 용어 매핑을 반복한다고 보고, 테이블·칼럼 설명과 예제 SQL, 비즈니스 용어 정의 및 런타임 거버넌스가 신뢰성을 높였다고 밝혔다.

Databricks Databricks Genie

r/LLMDevsNEW1일 전

프롬프트 순서로 LLM 비용 절감

프롬프트에서 고정된 부분을 앞에 두고 동적 입력을 뒤로 배치하면 캐시 적중률이 올라 대규모 운영에서 비용을 크게 낮출 수 있다.

r/MLOps Companies ProductsNEW1일 전

Lakehouse에서 Postgres 기반 온라인 피처 서빙 대안

작성자는 Databricks Lakebase의 synced tables와 PgBouncer를 활용해 reverse-ETL 부담을 줄이고 온라인 피처 서빙을 단순화하는 방안을 공유했다.

Databricks Databricks Lakebase

Pika Architecture CompaniesNEW1일 전

내 축구 골 장면을 애니메이션으로? Pika 신규 스킬 출시

Pika가 축구 영상을 애니메이션 스타일로 변환하는 'Anime Soccer Skill'을 MCP를 통해 공식 출시했다.

MCP Pika

r/ClaudeAI Coding Agents ProductsNEW1일 전

Soufflé Datalog 기반 Claude Code 보안 플러그인 Sasy-Guard 공개

자연어 정책을 Soufflé Datalog 규칙으로 컴파일해 세션 이력을 근거로 도구 호출을 판정하는 Sasy-Guard 플러그인이 공개되었다.

Claude Code Sasy-Guard

r/ClaudeAI Language ModelsNEW1일 전

실제 효과를 내는 6가지 Claude 프롬프트 기법 요약

Anthropic 문서와 사용자 사례에서 추려진 여섯 가지 프롬프트 패턴이 구체적 템플릿과 함께 제시되어 출력 품질·일관성·불확실성 표시에 영향을 준다.

Claude

r/LLMDevs Libraries Vector DBNEW1일 전

모델 환각을 걸러내는 메모리 그라운딩 전략

모델 신뢰도만으로는 환각을 영구 저장하지 않고 정규화된 부분 문자열 매칭과 토큰 오버랩을 통해 근거가 확인된 주장만 장기 메모리로 승격시키는 절차를 도입했다.

CRMy Postgres

Ars Technica AI Language Models CompaniesNEW1일 전

빠른 이미지 생성용 Nano Banana 2 Lite 출시

Nano Banana 2 Lite는 Gemini 3.1 계열의 경량 이미지 모델로 짧은 시간 내 이미지 생성에 최적화되며 Arena.ai의 Elo 평점에서 비-Lite 모델과 거의 동등한 평가를 받았다.

Gemini 3.1 Flash Google DeepMind

r/artificial Language Models ProductsNEW1일 전

Minimi의 2주 만에 50유료사용자 확보 사례

Minimi는 화면과 통화 컨텍스트를 수동으로 캡처해 MCP를 통해 Claude에 전달하며 2주 만에 50명의 유료 사용자를 확보했다.

Claude Minimi

PyTorch LibrariesNEW1일 전

LLM RL 포스트트레이닝을 위한 Miles 프레임워크

Miles는 SGLang, Megatron-LM, Ray, PyTorch를 결합해 MoE와 저정밀도 환경에서 대규모 LLM의 RL 포스트트레이닝을 분산 시스템 수준에서 재현 가능하고 확장성 있게 운영할 수 있게 한다.

Megatron-LM PyTorch

AWS ML Blog Best Practices ProductsNEW1일 전

AG-UI와 FAST로 Bedrock AgentCore 대화형 에이전트 연결

AG-UI 프로토콜을 통해 AgentCore 위에서 에이전트와 프런트엔드를 분리하여 대화형 UI, 공유 상태, 인간 승인 흐름을 지원한다.

AG-UI Amazon Bedrock AgentCore

Simon Willison Products LibrariesNEW1일 전

Playwright로 웹 루틴을 녹화하는 shot-scraper video 도구

shot-scraper 1.10에 shot-scraper video 명령이 추가되어 storyboard.yml로 정의한 웹 루틴을 Playwright로 실행해 인증 쿠키를 사용한 세션을 녹화하고 MP4로 출력할 수 있다.

Datasette Playwright

r/LLMDevs Libraries Language ModelsNEW1일 전

Qwen2.5-1.5B 스티어링 실험과 압력 다이얼 53% 증가 비교

추론 시 은닉 상태에 미세한 '압력'을 주는 커널이 출력 형식과 코드 실행 가능성에 영향을 주었으며 두 테스트 간 총압력은 약 53% 차이를 보였다.

PyTorch Qwen2.5-1.5B

r/LLMDevs Products Language ModelsNEW1일 전

Hermes용 플러그인으로 메모리 교체 패턴

작성자는 Hermes의 provider 인터페이스를 활용해 에이전트 코드를 수정하지 않고 교체 가능한 장기 메모리 플러그인을 구현해 음성 대화 저장과 의미 기반 검색을 연결했다.

Engram Hermes

r/computervision ProductsNEW1일 전

소형 온보드로 구동하는 Mighty Camera

Mighty Camera는 소형 온보드 컴퓨트에서 단안 SLAM을 수행하며 하드웨어 동기화를 통해 SGBM 기반 깊이와 VIO 포즈를 동시에 생성한다.

Mighty Camera

Weights & Biases Agents MLOpsNEW1일 전

실험부터 리포트까지 자동화하는 W&B의 AI 에이전트 ARIA

Weights & Biases에 내장된 AI 에이전트 ARIA는 실험 자동화, 프로젝트 요약, 패턴 분석 등 ML 워크플로 전반을 지원하는 클라우드 기반 도구이다.

ARIA Weights & Biases

r/ClaudeAI Language ModelsNEW1일 전

Claude Sonnet 5 유출 정보, 1M 컨텍스트와 가격 단서

보도된 링크는 Claude Sonnet 5의 유출을 알리며 1M 토큰 컨텍스트와 가격 정보를 포함한다.

Claude Sonnet 5

AWS ML Blog Inference Language ModelsNEW1일 전

Nova Micro 파인튜닝으로 추출 정확도 94.77% 달성

Parcel Perform은 SageMaker AI로 Amazon Nova 모델을 PEFT(LoRA) 기반으로 파인튜닝해 이메일 엔티티 추출에서 최대 94.77% 정확도와 비용 50% 절감을 달성했다.

Amazon Bedrock Amazon Nova

AWS ML Blog Inference Language ModelsNEW1일 전

Nova Pro에서 Nova Lite로 95% F1 성능의 NER 실무화

IBS Software는 Amazon Bedrock의 토큰 기반 지식 증류로 영어·일본어 화물 이메일에서 23개 엔티티를 실시간으로 추출하며 95.085% F1과 운영비용 14배 절감을 달성했다.

Amazon Bedrock Nova Lite

AWS ML Blog Products CompaniesNEW1일 전

P5 기반 훈련 속도 8배 개선 사례

Outpost VFX는 Amazon EC2 P5 인스턴스로 분산 학습 파이프라인을 도입해 얼굴 교체 모델의 훈련 속도를 기존 대비 8배로 단축하고 온셋 워크플로 병목을 해소했다.

Amazon EC2 Outpost VFX

MIT AI News Agents Language ModelsNEW1일 전

행동하는 AI의 작동 원리와 훈련 한계

에이전트형 AI는 생성 모델에 도구와 기억을 결합해 행동을 수행하며, 데이터 부족과 시도·오류 학습이 핵심 과제이다.

Agentic AI Claude

r/artificialNEW1일 전

프롬프트·문맥·반복이 성능을 결정하는 이유

모델 업그레이드보다 프롬프트 설계, 문맥 누적, 출력 형식 명시, 반복 개선이 더 큰 성능 차이를 만들었다.

Chris Raroque Products Language ModelsNEW1일 전

내 앱을 Claude와 연결하는 법: MCP 도입과 4가지 기술적 난제

1인 개발자가 생산성 앱 'Amy'를 MCP와 Siri에 연동하며 겪은 기술적 도전과 AI 에이전트 최적화 전략을 공유한다.

ChatGPT Claude

Figure AI CompaniesNEW1일 전

BMW 공장에 투입된 Figure 03의 자율 조립 작업 현장

Figure AI의 최신 휴머노이드 로봇 Figure 03이 BMW 생산 라인에서 부품 조립 및 운반 작업을 자율적으로 수행하는 데모 영상이다.

BMW

Ben's Bites CompaniesNEW1일 전

A0 테이프아웃과 $800M로 주목받는 Etched의 추론 인프라

Etched는 칩·랙·소프트웨어를 수직 통합해 추론용 클러스터를 만들고 A0 테이프아웃과 대규모 자금·수주로 빠르게 생산 단계에 진입하고 있다.

Etched OpenAI

NVIDIA - Deep Learning Blog Libraries HardwareNEW1일 전

Isaac ROS와 Jetson 기반 물리적 AI 인프라

NVIDIA의 Isaac ROS는 ROS 2와 CUDA 기반 가속을 결합해 Jetson부터 DGX Spark까지 모듈형 로보틱스 패키지를 제공한다.

Isaac ROS NVIDIA Jetson

NVIDIA - Deep Learning Blog Language Models InferenceNEW1일 전

Blackwell 소프트웨어로 토큰 비용 5배 절감

NVIDIA의 Blackwell 전체 스택 소프트웨어는 DeepSeek V4에서 토큰 비용을 최대 5배 낮추었고 TensorRT-LLM 적용 사례에서는 초당 토큰을 최대 50% 더 확보했다.

DeepSeek V4 Dynamo