2026년 6월 24일 AI 뉴스 아카이브

r/LangChain Optimization

HBM과 SRAM 관점으로 본 FlashAttention 연산 흐름

핸드드로잉 다이어그램은 HBM에서 SRAM으로 청크를 스트리밍하며 온라인 소프트맥스 추적으로 FlashAttention 연산을 수행하는 메모리·연산 파이프라인을 보여준다.

FlashAttention

r/artificial

AI 모델 7종의 베팅 대결과 전 호출 로그 공개

작성자는 7개 AI 모델을 월드컵 베팅 실험에 참여시켜 매 호출과 토큰·비용·추론 흔적을 기록해 모델별 의사결정과 비용효율을 비교한다.

r/artificial Companies

오픈 AGI 생태계에 4,200만 달러가 투입된 공개형 보조금·투자 프로그램이 시작됐다

Sentient Foundation이 오픈 소스 유지관리자와 오픈 구성요소 기반 스타트업을 대상으로 총 4,200만 달러 규모의 보조금 및 투자 프로그램을 운영하며 신청 링크와 참여 조건을 공개했다.

Alibaba CloudPrinceton UniversitySentient Foundation

The Verge AI Companies

OpenAI가 Broadcom과 만든 추론 전용 ASIC 'Jalapeño'를 공개했다

OpenAI가 Broadcom과 공동 설계한 AI 추론 ASIC 'Jalapeño'를 공개하고 2026년 말까지 서버 배치를 목표로 삼았다.

BroadcomOpenAI

r/MachineLearning Agents Prompting

검증자를 분리하면 동일 모델로도 두 자릿수 성능 향상이 가능하다

Setlur et al의 이론과 Apodex의 실무 사례는 테스트 시 검증자에 계산을 할당하는 구조가 동일 예산에서 성능을 크게 끌어올린다는 점을 시사한다.

ApodexReActSetlur et al

r/LLMDevs Libraries Companies

웹페이지를 LLM으로 정제해 출처 추적 가능한 위키로 만드는 Reptile

Reptile은 웹페이지를 LLM으로 세 단계 증류해 출처 추적이 가능한 링크형 위키 항목으로 재구성하는 로컬 배포형 도구이다.

D3.jsGitHubReptile

Kili Technology Blog Best Practices Companies

라벨링 단계가 규제 감사를 통과하려면 무엇이 필요한가

데이터 라벨링은 원시 데이터 노출의 최대 지점이며, 배포 모드·인증·프로젝트 수준 접근 제어·라벨 단위 감사 로그가 규제 준수와 모델 신뢰도를 결정한다.

ISO 27001Kili TechnologySOC 2 Type II

LangChain

월 3억 5천만 개의 AI 에이전트를 운영하며 배운 프로덕션 스케일링 전략

Clay의 Head of AI가 월 3억 5천만 개의 GTM 에이전트를 운영하며 해결한 인프라, 비용, 품질 최적화 전략을 공유한다.

AI Jason Dev Tools

AI 에이전트 수십 개를 동시에 돌리는 병렬 개발 환경 구축법

Crabbox를 사용하여 AI 에이전트별로 독립적인 클라우드 샌드박스를 생성하고 병렬 테스트와 작업 검증을 자동화하는 방법.

Crabbox

r/LLMDevs Coding Agents

Claude Code의 자율 실행을 안전하게 만드는 엔지니어링 루프 템플릿

Claude Code의 조기 실행·미검증 문제를 막기 위해 Receive→Understand→Decompose→Plan→Align→Execute→Verify→Goal Check의 엔지니어링 루프를 강제하는 CLAUDE.md 템플릿을 GitHub에 공개했다.

Claude Code

KDNugget

소비자 GPU로 실전 코딩 가능한 로컬 모델 7선과 선택 기준

GGUF 양자화와 MoE/블록-디퓨전 등 구조적 최적화를 통해 16GB 수준의 개인 GPU에서도 실무용 코딩 모델 운용이 가능해졌고, 모델별로 범용성·멀티모달·속도 측면에서 선택 기준이 달라진다.

IBM Technology

AI 에이전트에게 신분증을? AI가 바꾸는 사이버 보안의 미래

AI 기반 운영체제와 에이전트 ID 도입이 사회 공학적 해킹과 피싱 공격을 방어하는 새로운 보안 패러다임으로 주목받고 있다.

엥지유니버스 Domain AI

로봇이 물체를 더 정밀하게 다루는 법: VLA와 물리 감각의 결합

VLA 모델에 힘과 촉각 센서 데이터를 통합하여 로봇의 정밀한 조작 능력을 향상시키는 최신 연구 동향을 정리한다.

ForceVLATactile-VLATLA

Latent Space (swyx)Coding Agents Products

Slack에서 팀원처럼 동작하는 Claude Tag가 베타 출시되었다

Anthropic이 Slack 워크스페이스 내부에서 채널·도구·코드베이스 접근을 받아 비동기적·지속적으로 작업을 위임·관리하는 Claude Tag를 베타로 공개했다.

Claude CodeClaude TagSlack

annotell Blog

픽셀 단위 장면 이해로 주행 결정을 개선하는 시맨틱 세그멘테이션

자율주행에서 시맨틱 세그멘테이션은 이미지와 포인트클라우드의 모든 픽셀·포인트에 클래스 레이블을 부여해 주행 가능한 영역·차선·배경 문맥을 정확히 파악하도록 돕는다.

r/deeplearning Architecture

2000장 이상의 딥러닝 노트와 데모 깃허브 공개

연속 업데이트되는 2000장 이상 분량의 딥러닝·확률모델 강의 노트와 데모 코드를 깃허브에 모아 공개한 자료 안내이다.

GANsTransformersVAEs

Qdrant

벡터 DB Qdrant은 왜 '어려운 길'을 택해 밑바닥부터 개발했을까?

Qdrant의 CEO가 오픈소스 벡터 데이터베이스의 기원과 기술적 철학, 그리고 에이전트 시대를 대비한 아키텍처 최적화 과정을 공유한다.

Qdrant

모델 재학습 없이 AI 에이전트를 똑똑하게 만드는 메모리 설계 전략

AI 에이전트의 지속적 학습을 위해 모델 재학습 대신 메모리 계층과 벡터 데이터베이스를 활용한 상태 관리 전략을 제시한다.

r/MachineLearning

코딩 에이전트 평가를 바꾸는 DeepSWE의 4가지

DeepSWE는 데이터 오염 제거·91개 저장소 기반 다양성·실무 수준 복잡도(코드 5.5배, 출력 토큰 약 2배)·동작 기반 수작업 검증기를 통해 코딩 에이전트 성능 평가 신뢰도를 높인다.

DataRobot Blog RAG Companies

DataRobot, ARD 호환 AI 카탈로그 공개로 에이전트 검색 가능

DataRobot이 Agentic Resource Discovery(ARD)를 지원해 .well-known/ai-catalog.json으로 Agent Skills와 MCP 서버를 공개함으로써 에이전트와 레지스트리의 표준화된 동적 검색을 가능하게 했다.

ARD (Agentic Resource Discovery)DataRobot

r/artificial Dev Tools Language Models

프롬프트 예시가 무음 영상에서 문장을 발화하게 만든다

프롬프트에 들어있던 출력 예시와 post-training된 언어적 priors가 결합해 Inter-1이 무음 비디오에서 특정 문장을 반복 발화한 사례와 실험 결과를 공유한다.

GEPA prompt-optimizerInter-1

r/artificial Agents

모델이 만든 인용을 믿었다가 징계로 이어지는 현실

챗봇이 생성한 허구적 판례 인용을 변호사가 검증 없이 제출해 징계가 발생하며, 작성자와 분리된 독립 검증만이 이를 확실히 잡아낸다는 결론이 제시된다.

Apodex

Wired AI Companies

Qualcomm이 소프트웨어 계층으로 칩 생태계 확장에 박차를 가하다

Qualcomm이 다중 칩 실행을 지원하는 소프트웨어 플랫폼을 가진 Modular를 거의 40억 달러에 인수해 AI 기기와 데이터센터용 컴퓨팅 역량을 확대한다.

ModularQualcomm

Microsoft AI Blog Companies

제로 워터 냉각과 운영 최적화로 물 사용 강도 대폭 절감

Microsoft는 설계 기반의 저수·무수 냉각 기술과 운영 최적화, 재사용수 확대 및 지역 투자로 데이터센터 물 사용 강도를 크게 낮추고 FY25에 전 세계적으로 순수 보전 성과를 실현했다.

Microsoft

r/LLMDevs Coding Agents Best Practices

조용한 회귀를 잡는 실전 EDD 워크플로

과거 트레이스 기반 입력 시뮬레이션과 헤드리스 에이전트 실행으로 오프라인에서 변경 전후를 비교해 조용한 회귀를 사전에 탐지하는 실무 프로세스이다.

Claude CodeEvaluation-Driven Development (EDD)Opik

r/artificial Language Models Dev Tools

Swokei와 Claude로 2시간 만에 만든 유료 웹사이트 실전 사례

작성자는 Swokei로 잠재 고객을 자동 발굴하고 Claude로 2시간 만에 사이트를 제작해 선불 4,700달러를 받았다.

ClaudeSwokei

WRITER Companies

AI 에이전트로 리드 작업을 자동화하여 회의 예약을 대폭 늘린 실무 사례

WRITER가 제시한 세 종류의 AI 에이전트는 리드 중복 제거, 360° 기업 프로필 생성, 개인화된 아웃리치 자동화를 결합해 관계관리자의 수작업을 줄이고 회의 예약과 신규 매출을 크게 늘렸다.

McKinseyWRITER

Qdrant RAG Libraries

RAG 시스템에서 데이터 유출을 막는 그래프 기반 거버넌스 아키텍처

Qdrant의 벡터 검색과 Neo4j의 그래프 거버넌스를 결합하여 사용자 권한에 따라 차별화된 RAG 결과를 생성하는 아키텍처를 소개한다.

GraphRAGNeo4jQdrant

Qdrant

SKILLS.md는 이제 그만, AI 에이전트가 스스로 스킬을 학습하는 자동화의 미래

정적 설정 파일인 SKILLS.md의 한계를 분석하고, Gemini와 MCP를 활용해 에이전트가 워크플로우를 관찰하고 스스로 스킬을 생성하는 동적 자동화 방안을 제시한다.

Qdrant

200억 개 벡터를 관리하는 법: HubSpot의 인프라 자동화 전략

HubSpot이 Helm의 한계를 극복하고 Kubernetes Operator를 도입하여 대규모 벡터 검색 인프라의 운영 효율과 비용을 최적화한 사례.

Qdrant Companies

Slack은 어떻게 수조 개의 메시지를 실시간으로 검색할까?

Slack이 수조 개의 메시지를 벡터화하여 실시간 시맨틱 검색을 구현하기 위해 도입한 아키텍처와 최적화 전략을 다룬다.

Slack

Qdrant

10년 걸릴 신약 개발을 2년으로 단축한 벡터 DB 활용 전략

Oncotelic Therapeutics가 Qdrant 벡터 데이터베이스를 활용해 2,800만 개의 PubMed 초록을 인덱싱하고 신약 개발 파이프라인을 획기적으로 단축한 사례.

Qdrant Hardware

에이전트 AI의 지연 시간과 데이터 주권을 해결하는 인프라 설계 전략

에이전트 AI의 지연 시간과 데이터 주권 문제를 해결하기 위한 인프라 설계와 Vultr-Qdrant 협업 모델을 다룬다.

Vultr

Qdrant Libraries

PDF 문서 이해가 어려운 진짜 이유와 AI 에이전트 자동화 전략

기업 데이터의 90%를 차지하는 비정형 문서를 AI 에이전트가 정확히 이해하고 처리하기 위한 기술적 과제와 해결 방안을 다룬다.

LlamaIndex

Qdrant

RAG 성능을 객관적으로 측정하고 개선하는 실전 평가 가이드

RAG 시스템의 검색 성능을 측정하기 위한 핵심 지표와 LLM-as-a-judge를 활용한 평가 자동화 전략을 다룬다.

Qdrant

클라우드 없이 실시간 검색, Qdrant Edge로 온디바이스 AI 구현하기

Qdrant Edge는 애플리케이션 내부에 직접 임베드되어 네트워크 의존성 없이 실시간 로컬 벡터 검색을 가능하게 하는 새로운 배포 모델이다.

Qdrant

클라우드 대신 엣지에서, 온디바이스 AI 에이전트 구축 전략

온디바이스 AI의 이점과 NPU 기반의 효율적인 에이전트 배포를 위한 Qualcomm AI Hub 활용 방안을 다룬다.

Qdrant

로봇에게 말로 명령하세요: Strands Agents를 활용한 물리적 AI 구현

오픈소스 에이전트 프레임워크인 Strands Agents를 사용하여 자연어 명령으로 로봇을 제어하고, 엣지-클라우드 하이브리드 아키텍처로 지능형 로봇을 구축하는 방법.

r/artificial RAG Products

증거 기반 CBB 그래프로 추론을 투명하게 만드는 IONS 프로젝트

IONS는 증거 기반의 Cognitive Building Blocks 그래프로 지식과 추론을 명시적으로 저장해 답변과 근거 경로, 신뢰도 정보를 반환하는 오픈소스 메모리·추론 시스템이다.

GraphRAGIONSKnowledge Graph

Qdrant Vector DB

AI 에이전트와 롱 컨텍스트 시대, 벡터 검색은 어떻게 변하고 있는가?

Qdrant CTO가 AI 에이전트와 롱 컨텍스트 모델 환경에서 벡터 검색의 역할과 프로덕션 시스템 구축 전략을 제시한다.

Qdrant