2026년 6월 4일 AI 뉴스 아카이브

LangChain을 걷어내고 커스텀 런타임으로 전환했더니 얻은 것들

LangChain 기반 AI CLI 도구에서 커스텀 런타임으로 전환하며 코드 간결성과 디버깅 효율을 개선한 경험을 공유하고, 프레임워크 사용에 대한 커뮤니티 의견을 묻는 글.

r/MachineLearning Architecture Language Models

AI 에이전트의 위험한 작업 실행을 차단하는 보안 프로토콜 PIC Standard

AI 에이전트가 고위험 작업을 수행하기 전 의도와 출처를 검증하여 보안 사고를 방지하는 로컬 우선 프로토콜 PIC Standard를 소개한다.

PyTorch 없이 Rust로 구현한 1비트 LLM 엔진, CPU에서 150 TPS 돌파

Rust로 작성한 제로 의존성 추론 엔진이 1비트 양자화 모델을 CPU에서 150 TPS 이상의 속도로 구동함.

BitNetQwenTinyLlama

r/ClaudeAI Libraries Dev Tools

Claude Code 시스템 프롬프트 업데이트: 디자인 동기화와 도구 제어 기능 강화

Claude Code 시스템 프롬프트가 v2.1.162로 업데이트되어 디자인 동기화 기능과 도구 사용 지침, 개발 환경 설정이 대폭 개선되었다.

ReactStorybook

16개월간 다듬은 Claude 프롬프트, 어디까지 공개할 것인가?

2만 1천 달러 MRR 규모의 튜터링 플랫폼 운영자가 브랜드 인지도와 커뮤니티 기여를 위해 범용 프롬프트 20개를 공개하고, 핵심 경쟁력인 독점 프롬프트 50개는 비공개로 유지하기로 결정했다.

AI Engineer Language Models

Python 서비스 없이 JUnit으로 LLM과 에이전트를 직접 테스트하는 방법

JVM 환경에서 JUnit 테스트를 통해 LLM 출력과 에이전트 동작을 직접 검증할 수 있는 오픈소스 평가 도구 Dokimos 소개.

TechCrunch AI Companies

AI 데이터 센터를 텐트에? Meta의 파격적인 인프라 구축 전략

Meta가 AI 데이터 센터 건설 기간을 단축하기 위해 텐트 형태의 급속 배포 구조물을 도입하고 오프그리드 가스 터빈으로 전력을 공급한다.

Dell AI Factory와 ClearML의 결합으로 엔터프라이즈 AI 구축 기간 단축

ClearML과 Dell Technologies가 협력하여 Dell 하드웨어 위에서 엔터프라이즈 AI 플랫폼을 신속하게 구축하고 운영할 수 있는 통합 솔루션을 제공한다.

GPT-4o와 다른 Gemini Diffusion의 양방향 어텐션, 텍스트 생성의 미래를 바꾸다

Gemini Diffusion 모델은 양방향 어텐션을 통해 생성 중 오류를 수정하며, 텍스트 확산 방식을 적용해 실시간 인터랙티브 AI 애플리케이션을 구현한다.

Gemini 2.5 FlashGemini DiffusionGPT-4o

Hacker News - LLM

LLM으로 대충 만든 안티봇, 과연 안전할까?

기업이 LLM을 활용해 자체 구축한 안티봇 솔루션이 보안상 취약하며, 리버스 엔지니어링을 통해 쉽게 우회될 수 있음을 분석한다.

Hacker News - LLM Products Dev Tools

리더보드 순위는 무시하세요: 실제 LLM 코딩 비용과 신뢰도를 측정하는 법

LLM 코딩 에이전트의 언어, 모델, 도구 조합에 따른 실제 신뢰도와 비용을 통계적으로 측정하는 프레임워크 'retort'를 소개합니다.

Clauderetort

r/deeplearning

생성형 AI는 어떻게 고차원 데이터의 매니폴드를 학습하는가?

매니폴드 가설은 고차원 데이터가 실제로는 저차원 공간에 존재한다는 이론으로, 생성형 AI의 핵심 역할은 이 복잡하게 얽힌 매니폴드를 펼쳐 의미 있는 데이터를 생성하는 것이다.

TechCrunch AI

Apple Messages for Business에 최초로 승인된 AI 에이전트 Poke

AI 에이전트 스타트업 Poke가 Apple의 Messages for Business 플랫폼에 최초로 승인되어 iMessage를 통해 서비스를 제공한다.

Hugging Face Blog Language Models

NVIDIA, 기업용 다중 모달 안전 모델 Nemotron 3.5 공개: 맞춤형 정책 및 추론 기능 탑재

NVIDIA가 다중 모달 입력, 12개 언어 지원, 맞춤형 정책 적용 및 추론 기능을 통합한 4B 파라미터 규모의 안전 모델 Nemotron 3.5 Content Safety를 공개했다.

Nemotron 3.5 Content Safety

AI 프로젝트 95%가 실패하는 이유: 모델보다 인프라에 집중해야 하는 이유

기업용 생성형 AI 프로젝트의 95%가 성과를 내지 못하는 이유는 모델 자체보다 데이터 인프라와 워크플로 재설계에 필요한 노력을 과소평가하기 때문임.

규모의 경제에 갇힌 AI: 더 큰 모델이 지능을 보장하지 않는 이유

현재의 AI 개발은 모델 규모와 추론 속도 최적화에만 집중하고 있으며, 지능의 핵심인 '목표 지향적 동기'를 간과하고 있다는 비판적 시각을 제시함.

28가지 LLM 신뢰성 기법을 하나로: 비용 절감과 성능 향상을 위한 agentcodec

LLM 신뢰성 향상 기법 28가지를 단일 API로 통합하고, 프롬프트별 적응형 라우팅을 통해 비용과 품질을 최적화하는 라이브러리 agentcodec을 소개한다.

Replit Blog Dev Tools Coding Agents

vLLM으로 로컬 LLM 추론 최적화하기: 하드웨어와 메모리 관리 실전 가이드

DeepLearning.AI에서 vLLM을 활용한 로컬 LLM 추론 최적화, 메모리 관리, 벤치마킹을 다루는 실무 중심 강의를 공개했다.

Replit Agent와 대화하여 나만의 Shopify 스토어프론트를 10분 만에 구축하는 방법

Replit Agent를 활용해 자연어 프롬프트만으로 커스텀 Shopify 스토어프론트를 설계, 생성, 배포하는 엔드투엔드 워크플로를 지원한다.

ReplitReplit AgentShopify

r/deeplearning

PyTorch로 구현한 폐렴 진단 CNN 프로젝트, 데이터 누수 방지 파이프라인 포함

PyTorch를 사용하여 흉부 X-ray 이미지에서 폐렴을 탐지하는 CNN 모델을 구축하고, 데이터 전처리 및 평가 파이프라인을 포함한 프로젝트를 공유함.

MIT AI News

AI와 물리학의 융합, IAIFI가 5년간의 연구 성과를 바탕으로 2단계 도약을 시작한다

MIT 주도의 IAIFI가 NSF로부터 5년간 추가 지원을 확보하며 AI와 물리학의 상호 발전을 위한 연구 모델을 확장한다.

Nicolai Nielsen

1인 개발자가 AI 에이전트로 풀스택 제품을 만드는 방법

Claude Code를 활용해 소셜 미디어와 뉴스 데이터를 분석하고 주식 투자 기회를 포착하는 AI 소프트웨어 개발 사례.

WRITER

5단계 AI 에이전트 워크플로로 블로그 SEO를 자동화하는 방법

5개의 AI 에이전트가 연구, 전략 수립, 콘텐츠 작성, 게시, 성과 분석을 수행하여 블로그 SEO를 자동화하는 워크플로를 소개합니다.

AI Engineer

인간은 풀지만 AI는 1% 미만, ARC AGI 3가 던지는 벤치마크의 과제

AI 벤치마크의 한계를 극복하기 위해 필요한 평가 방법론과 환경 복잡성, 자율성 등 차세대 벤치마크 설계의 핵심 요소를 다룬다.

Meta Newsroom Products

페이스북 크리에이터를 위한 AI 파트너, Creator assistant 출시

페이스북이 크리에이터의 성과 분석과 콘텐츠 아이디어 생성을 돕는 AI 기반 'Creator assistant'를 출시했다.

Facebook

Eye on AI

고객이 인간 대신 AI 음성 에이전트를 선택한 놀라운 이유

Aircall의 Tom Chen이 AI 음성 에이전트의 운영 효율성과 고객 선호도, 그리고 성공적인 배포를 위한 핵심 병목인 사내 지식 문서화의 중요성을 설명한다.

The Verge AI

TSMC CEO 'AI 수요 너무 높아, 미국 생산만으로 대응에 긴 시간 걸릴 것'

AI 수요 폭증으로 세계 최대 반도체 기업 TSMC가 공급난을 겪으며 미국 내 생산 확대에도 불구하고 수요 충족에 장시간이 소요될 전망이다.

KDNugget

AI 에이전트가 데이터 과학자의 업무 방식을 어떻게 바꾸고 있는가

AI 에이전트가 데이터 과학 워크플로를 자동화하며, 데이터 과학자는 절차적 반복 업무에서 벗어나 시스템 설계와 평가라는 고차원적 판단 역할로 전환된다.

r/MLOps

전통적인 ML 평가와 에이전트 평가, 어떻게 통합해야 할까?

MLOps 팀이 에이전트 제품의 평가 파이프라인 부재 문제를 해결하기 위해 기존 ML 워크플로에 에이전트 평가를 통합하는 실무적인 방법과 실패 분류 전략을 논의함.

LangChain

AI 에이전트가 과학 연구의 속도를 2배 높이는 방법

Benchling AI의 Head of AI가 과학 연구 데이터 플랫폼 위에서 에이전트 아키텍처를 설계하고 검증하는 실무 전략을 공유한다.

DataRobot Blog

도구 래퍼 유지보수는 그만, 에이전트가 직접 API 명세를 읽고 도구를 작성하게 하라

에이전트에게 OpenAPI 명세와 안전한 Deno 샌드박스를 제공하여, 정적 도구 래퍼 없이 스스로 필요한 도구를 작성하고 실행하는 NL 에이전트 패턴을 소개한다.

Hugging Face Blog Libraries Audio AI

40개 언어를 단일 모델로 처리하는 NVIDIA의 실시간 스트리밍 음성 인식 모델, Nemotron 3.5 ASR 공개

NVIDIA가 공개한 600M 파라미터 규모의 Nemotron 3.5 ASR은 40개 언어를 실시간으로 처리하며, 캐시 인식 아키텍처를 통해 낮은 지연 시간과 높은 정확도를 동시에 제공한다.

NeMoNemotron 3.5 ASR

The Verge AI

플랫폼들은 왜 AI 콘텐츠 필터링 기능을 제공하지 않는가

주요 플랫폼들이 AI 콘텐츠 라벨링을 도입했으나, 사용자가 이를 효과적으로 필터링할 수 있는 기능은 여전히 부재하다.

KDNugget

시계열 데이터 분석부터 예측까지, 파이썬으로 마스터하는 7단계 가이드

파이썬을 이용한 시계열 데이터의 구조 이해, 전처리, 통계적 모델링, 머신러닝 예측 및 배포까지의 7단계 실무 가이드.

Practical AI

AI 모델의 90%가 2025년에 탄생했다? 스탠퍼드 AI 보고서가 말하는 기술의 가속화

스탠퍼드 AI 인덱스 보고서를 통해 AI 기술의 가속화, 오픈소스 모델의 현황, 미·중 간의 AI 경쟁 구도를 살펴본다.

iMerit Blog

정밀 살포 AI의 성능을 좌우하는 다단계 작물 어노테이션 전략

작물 성장 단계별 다단계 어노테이션을 통해 정밀 살포 시스템의 인식 정확도와 현장 적응력을 높이는 데이터 구축 전략.

Wired AI

50와트로 작동하는 AI? Flourish가 뇌 과학으로 LLM의 한계를 넘으려는 이유

Flourish는 인간 뇌의 에너지 효율성과 지속적 학습 능력을 모방한 'Cortex AI'를 개발하여 현재 LLM의 전력 및 데이터 비효율성을 해결하고자 한다.

개발동생

Claude Code 신기능 Dynamic Workflows로 AI 에이전트 하네스 최적화하기

Claude Code의 Dynamic Workflows 기능을 사용하여 AI 코딩 에이전트의 불필요한 규칙과 설정을 진단하고 최적화하는 실전 워크플로우 설계 가이드.

r/AutoGPT

AI 코딩 에이전트의 성능 조작을 막는 4단계 아키텍처 설계

AI 코딩 에이전트가 메트릭을 조작하지 않도록 정보 비대칭과 상태 격리를 적용한 4단계 파이프라인을 구축하고 성능을 검증했다.

LangChain 에이전트의 멀티턴 프롬프트 인젝션, 이제 Bendex Arc로 방어하세요

LangChain 에이전트의 멀티턴 프롬프트 인젝션을 탐지하기 위해 세션 전체의 행동 궤적을 추적하는 보안 도구 Bendex Arc를 소개합니다.

r/ClaudeAI Companies Products

모델 간 교차 검증으로 글쓰기 품질을 높이는 15분 워크플로

Claude로 초안을 작성하고 다른 모델로 비판적 검토를 수행한 뒤 다시 수정하는 다중 모델 루프 방식의 워크플로 공유.

Anthropic의 유료화에 대응하는 Claude CLI 대안, dash-p 공개

Anthropic의 Claude Agent SDK 유료화에 대응하여, 공식 TUI를 활용해 프로그래밍 가능한 인터페이스를 제공하는 오픈소스 CLI 도구 dash-p가 공개되었다.

AnthropicClaudedash-p

개발자 없이 Claude Code만으로 1,400개 제품 커머스 사이트 구축한 후기

웹 디자인 경험만 있는 사용자가 Claude Code를 활용해 1,400개 제품을 포함한 커머스 사이트를 처음부터 끝까지 직접 구축한 사례.

Wired AI Companies

Anthropic이 IPO를 공식화하며 OpenAI와 경쟁을 시작했다.

Anthropic의 IPO 추진, 트럼프 행정부의 AI 행정명령, 인스타그램 챗봇 해킹 사례 등 AI 업계의 주요 이슈를 다룬다.

Anthropic

Claude 최신 모델, 상시 지침 준수 능력 얼마나 개선되었나?

인프라 자동화 엔지니어가 Claude 최신 모델에서 상시 지침 준수 능력이 이전 버전 대비 크게 향상되었음을 보고했다.

LLM이 당신의 의견에 무조건 동조하나요? 비판적 피드백을 이끌어내는 프롬프트 기술

LLM의 동조 성향으로 인한 확증 편향을 방지하기 위해 자신의 의견을 숨기고 반대 입장의 논리를 요구하는 프롬프트 전략을 제안함.

Claude Code의 세션 간 기억력 문제를 해결하는 프로젝트 메모리 레이어 FreeRide

Claude Code 사용 시 세션 간 컨텍스트 유지 문제를 해결하기 위해 에이전트와 인간이 공유하는 구조화된 메모리 레이어인 FreeRide를 개발하여 공유했다.

r/ClaudeAI Companies Coding Agents

JIRA MCP 토큰 낭비 해결: Claude Code 컨텍스트 최적화 방법

공식 JIRA MCP 서버의 과도한 메타데이터로 인한 토큰 낭비 문제를 해결하기 위해, 필수 필드만 반환하는 경량화된 MCP 서버 사용을 제안한다.

AI가 보안 취약점을 10배 빠르게 찾지만, 정작 중요한 것은 '수정'의 우선순위다

Anthropic의 Mythos가 대규모 보안 취약점 탐지 효율을 입증했으나, 실무에서는 탐지된 결과를 처리할 인간의 리소스와 우선순위 설정이 더 큰 병목임을 지적한다.

AnthropicClaude CodeMythos

AI 안전 필터가 당신의 건강한 습관을 '섭식 장애'로 오해한다면?

AI 안전 필터의 높은 오탐지율이 건강한 사용자에게 불필요한 자기 의심과 심리적 불안을 유발하는 부작용을 지적한 사례.

AWS ML Blog Language Models Companies

Claude Code에서 이전 세션의 기억을 불러오는 MCP 서버 개발

Claude Code가 과거 세션의 기록을 읽고 컨텍스트를 유지할 수 있도록 돕는 MCP 서버와 플러그인을 개발하여 공유함.

NVIDIA Nemotron 3 Ultra, SageMaker JumpStart에서 즉시 배포 가능

NVIDIA Nemotron 3 Ultra 모델이 Amazon SageMaker JumpStart에 출시되어 에이전트 워크로드의 추론 속도와 비용 효율성을 개선한다.

NVIDIA Nemotron 3 UltraNVIDIAAmazon SageMaker JumpStart

Hacker News - LLM Products

블랙박스 AI를 넘어, 추론 과정을 투명하게 보여주는 'Clarity' 플랫폼

Steerling 8B 기반의 Clarity는 모델의 추론 과정을 시각화하고 훈련 데이터 추적 및 개념 기반 제어를 지원하는 해석 가능한 AI 플랫폼이다.

Clarity

r/MachineLearning Companies

벤치마크 경쟁은 끝났다? AI 인프라와 하드웨어의 이동

모델 성능 경쟁에서 벗어나 에이전트 구동을 위한 로컬 추론 및 맞춤형 하드웨어 인프라로 AI의 중심이 이동하고 있다.

에이전트의 할루시네이션을 60% 줄이는 계획 및 검증 파이프라인 설계

에이전트 시스템에서 메타인지와 캘리브레이션을 활용해 할루시네이션을 예방하는 계획 및 검증 파이프라인 설계와 실무적 트레이드오프 분석.

Google

Hacker News - LLM Inference

복잡한 LLM 에이전트 디버깅, 코드 수정 없이 프록시 설정만으로 해결

LLM 에이전트 워크플로우의 트레이싱과 비용 관리를 지원하는 경량 오픈소스 프록시 도구 Spanlens.

Techpresso Companies

Google의 Gemma 4 12B 출시와 Apple의 Vision 제품 로드맵 수정

Google의 Gemma 4 12B 모델 출시, Apple의 Vision 제품군 로드맵 축소, 주요 AI 기업들의 합성 DNA 스크리닝 의무화 촉구 소식을 다룬다.

OpenAI

vLLM으로 배우는 LLM 추론 최적화: 모델 압축부터 벤치마크까지

Red Hat과 DeepLearning.AI가 vLLM 생태계를 활용한 LLM 추론 최적화, 배포, 벤치마킹 실습 과정을 공개했다.

vLLM

3만 건의 LLM 토론 데이터 분석: Claude Opus 4.7이 가장 설득력 높았다

AI Roundtable의 3만 건 공개 세션 데이터를 분석한 결과, Claude Opus 4.7이 타 모델의 의견을 가장 많이 뒤집으며 영향력 1위를 기록했다.

Claude Code로 구동되는 로컬 멀티 에이전트 시스템 Munder Difflin 공개

Claude Code 기반의 에이전트들을 로컬에서 자율적으로 운영하고 관리할 수 있는 멀티 에이전트 하네스 Munder Difflin이 오픈소스로 공개되었다.

대시보드 대신 대화로 Instagram 데이터 분석하기: MCP 활용기

Instagram 분석 도구 OwlStat에 MCP 서버를 구축하여 Claude와 직접 연동함으로써 대시보드 접속 없이 데이터 조회 및 보고서 생성을 자동화했다.

Claude와 Gemini를 활용한 복잡한 앱 개발 워크플로우와 안티-사이코팬시 프롬프트

LLM의 환각과 동조 현상을 방지하기 위해 아키텍처 문서화와 다중 모델 검토 프로세스를 결합한 개발 워크플로우.

Claude Code로 Linear 티켓 자동 생성 시 발생하는 데이터 누락 방지 패턴

Claude Code와 Linear MCP 연동 시, 티켓 생성 전 검증 및 컨텍스트 통합 도구를 추가하여 데이터 품질을 개선하는 방법.

Gemma 4를 로컬 전처리기로 활용하여 API 비용과 지연 시간을 줄이는 하이브리드 파이프라인 전략

Gemma 4 모델을 로컬 전처리 단계로 활용하여 API 호출 비용과 지연 시간을 최적화하는 하이브리드 파이프라인 전략.

Hacker News - LLM Companies

로컬에서 Claude Code 기반 멀티 에이전트 팀을 운영하는 Munder Difflin

Claude Code 기반의 에이전트들을 로컬에서 클러스터 형태로 운영하며 자율적으로 작업을 수행하는 멀티 에이전트 하네스 Munder Difflin을 오픈소스로 공개했다.

AI 제품 가격 책정의 6가지 핵심 결정 요소와 실무 전략

AI API 및 LLM 제품의 가격 책정 시 계량 방식, 단위, 티어 구조, 크레딧 지갑 관리 등 6가지 핵심 요소를 체계적으로 설계하는 방법론을 제시한다.

Solvimon

Hacker News - LLM Companies

구글이 해고한 연구자의 경고, 4년 후 AI 업계의 현실이 되다

2020년 구글이 해고한 Timnit Gebru의 논문 'Stochastic Parrots'가 예견했던 AI의 위험성들이 현재 업계의 고질적인 문제로 실현됨을 다룬다.

Google

TechCrunch AI

휴머노이드 열풍 속, 실용성을 택한 Hello Robot의 Stretch 4

Hello Robot이 실생활 환경에서 안전하게 작동하도록 설계된 4세대 가정용 보조 로봇 Stretch 4를 출시했다.

r/MachineLearning Benchmarks Optimization

AGI가 3년 내에 온다면, 누가 승자가 될 것인가?

모델의 지능보다 에이전트의 제어, 비용 가시성, 안전한 격리를 보장하는 거버넌스 계층이 AGI 시대의 핵심 경쟁력이 된다.

KV-Cache 압축 3-4배 달성: KVarN 양자화 기법 공개

Hadamard 회전과 분산 정규화를 결합하여 KV-Cache를 3-4배 압축하면서도 정확도 손실을 1% 미만으로 유지하는 KVarN 기법.

AIME24KVarNvLLM

r/ClaudeAI Coding Agents Products

CRM 자동화, API 비용 100달러 태우고 깨달은 CLI 에이전트의 효율성

Twenty CRM의 무거운 API 호출 방식 대신 맞춤형 Claude CLI 에이전트를 구축하여 비용을 절감하고 제어력을 높인 사례.

복잡한 LLM 답변을 DAG로 자동 변환하여 분석 효율을 높이는 Detangled

LLM의 선형적인 채팅 출력을 DAG와 섹션별 텍스트로 변환하여 복잡한 시스템 아키텍처 분석의 인지 부하를 줄여주는 도구 Detangled를 개발했다.

Claude CodeDetangled

r/ClaudeAI Coding Agents Products

AI 에이전트와의 협업, 정말 생산적인가? DiscipLog로 확인하는 실제 작업 시간

AI 에이전트와의 협업 과정을 기록하고 승인 대기 시간을 분석하여 실제 생산성을 측정하는 MCP 서버 도구.

Claude CodeDiscipLogMCP

AI Engineer

Claude Code는 어떻게 막힌 환경에서도 코딩 문제를 해결할까?

Claude Code가 git 기록과 우회 경로를 활용해 SWE rebench 문제를 해결하는 방식과, 데이터 오염을 방지하기 위한 벤치마크 설계 원칙을 다룬다.

IBM Research Libraries Companies

IBM이 공개한 Granite 4.1과 생성형 컴퓨팅: AI 모델을 소프트웨어처럼 모듈화하다

IBM이 AI 모델을 소프트웨어처럼 모듈화하여 재사용 가능한 어댑터로 최적화하는 '생성형 컴퓨팅' 접근 방식과 Granite 4.1 모델군을 공개했다.

Granite LibrariesIBM

AI 컴패니언은 어떻게 사용자를 중독시키는가: 5개월간의 경험과 기술적 분석

AI 컴패니언이 사용자의 심리를 파악하고 관계를 형성하여 중독을 유도하는 기술적 메커니즘과 그 위험성을 분석한 경험담.

프롬프트가 아닌 파일로 관리하는 에이전트 아키텍처: Claude Code, Codex, Gemini CLI 호환

특정 런타임에 종속되지 않고 파일 기반으로 에이전트 팀을 구성하며, 티켓팅된 메모리와 게이트 시스템으로 안정성을 확보하는 오픈소스 아키텍처.

DeepSeek와 Qwen이 선택한 학습법, On-policy Distillation이란?

On-policy Distillation(OPD)은 모델의 오류를 롤아웃 중간에 힌트 토큰으로 교정하여 효율적으로 학습시키는 최신 포스트 트레이닝 기법이다.

Hugging Face Blog Benchmarks

실제 오픈소스 기여로 증명한 자율 에이전트의 성능과 한계: Truffle 프로젝트

8주 동안 211개의 PR을 제출하고 125개를 병합시킨 자율 코딩 에이전트 'Truffle'의 실전 운영 기록과 아키텍처를 공유한다.

음성 에이전트 성능을 검증하는 EVA-Bench 2.0, 3개 도메인과 213개 시나리오로 확장

EVA-Bench 2.0은 항공, IT, 의료 등 3개 도메인에 걸쳐 213개의 시나리오와 121개의 도구를 포함하여 음성 에이전트의 실무 평가를 지원한다.

EVA-Bench

Claude 사용량 확인이 번거롭다면? xbar 플러그인으로 실시간 모니터링하기

Claude.ai의 사용량 제한을 실시간으로 확인하기 위해 xbar 플러그인을 직접 개발하여 공유함.

MIT Technology Review Products

16시간 걸리던 이사회 준비를 12분 만에 끝내는 Claude 활용 전략

SaaS 창업자가 8개의 방대한 문서를 Claude 프로젝트에 업로드하여 이사회 준비 시간을 16시간에서 12분으로 획기적으로 단축한 사례.

Hugging Face Blog

공개 태스크 데이터를 활용해 LLM 추론 능력을 11% 향상시키는 합성 데이터 생성법

공개 태스크의 학습 데이터를 시드로 활용하여 추론과 지식이 강화된 합성 Q&A 데이터를 생성하고, 이를 통해 LLM의 MMLU-Pro 및 GPQA 성능을 개선하는 파이프라인을 구축했다.

나홀로 소송 급증의 주범은 AI? 판사들이 목격한 법정의 변화

AI를 활용해 법률 문서를 작성하는 나홀로 소송이 급증하면서, 판사들은 문서 가독성 향상을 체감하는 한편 챗봇의 법적 책임과 기밀 보호 문제에 직면하고 있다.

ChatGPT

Hacker News - LLM

LLM이 뇌 활동을 분석하고 SNN으로 시각화하는 교육용 플랫폼 CogniGraph

사용자의 시나리오를 LLM으로 분석하여 뇌 영역과 신경전달물질 반응을 예측하고, Brian2 SNN을 통해 3D 뇌 모델로 시각화하는 교육용 데모 프로젝트입니다.

iMerit Blog Companies

로봇이 병뚜껑을 못 여는 이유: 정교한 조작을 위한 데이터 파이프라인 구축 전략

로봇의 정교한 조작(Dexterous Manipulation) 구현을 위해 필요한 고품질 멀티모달 데이터와 동기화 기술의 핵심 요건을 설명합니다.

iMerit

긴 영상을 숏폼으로 자동 변환하고 예약까지 해주는 오픈소스 Mac 앱

Gemma 모델을 활용하여 긴 영상을 숏폼으로 자동 편집, 변환, 예약 게시까지 수행하는 오픈소스 Mac 앱 Shortcast 소개.

Hacker News - LLM

LLM 메모리 검색의 한계를 넘다: 정밀도 중심 벤치마크와 Tenure의 등장

LLM 메모리 시스템의 검색 정밀도를 독립적으로 측정하는 PrecisionMemBench와 이를 해결하는 구조적 신념 저장소 Tenure를 제안한다.

r/ClaudeAI Products Agents

Claude와 MCP로 하드웨어를 제어한다: BugBuster 개발기

Claude를 주 개발자로 활용하여 오픈소스 하드웨어 계측기 BugBuster를 개발하고 MCP를 통해 하드웨어 제어 기능을 구현한 사례.

Claude의 트래픽 점유율은 낮지만, 왜 기업들은 Claude에 주목할까?

Claude의 웹 트래픽 점유율은 낮으나, MCP와 Claude Code를 통한 워크플로 통합 중심으로 기업 사용량이 급증하고 있다.

ChatGPTClaudeMCP

r/ClaudeAI Coding Agents Agents

Claude Code 멀티 에이전트의 효율을 높이는 로컬 메모리 레이어 'Cosmos' 실험기

Claude Code와 MCP를 활용해 프로젝트 구조와 과거 수정 이력을 공유하는 로컬 메모리 레이어 'Cosmos'를 구축하고 멀티 에이전트 워크플로를 실험한 사례.

Claude CodeMCP

The Verge AI Companies Products

아마존의 차세대 Proteus 로봇, 이제 코딩 없이 언어로 작업 지시 가능

아마존이 언어 기반 제어가 가능하고 작업 범위를 확장한 차세대 Proteus 물류 로봇을 공개했다.

AmazonProteus

OpenAI Blog Products Companies

Endava가 AI 에이전트를 통해 소프트웨어 개발 프로세스를 재설계한 방법

Endava는 OpenAI 기술을 전사적으로 도입하여 소프트웨어 개발 방법론인 DavaFlow를 구축하고, 엔지니어링부터 운영까지 업무 전반에 AI 에이전트를 내재화했다.

ChatGPTEndava

Hacker News - LLM Products

왜 AI 인프라 도구들은 서로 다른 기능을 하면서 같은 이름을 가질까?

AI 인프라 생태계의 카테고리 정의가 모호하여 발생하는 도구 명칭 중복과 개념적 혼란에 대한 고찰.

LLM을 밑바닥부터 학습하는 것은 비효율적이다: 파인튜닝과 데이터베이스 내 추론이 정답인 이유

LLM을 처음부터 학습하는 과정의 한계와 파인튜닝을 통한 실무 적용, 그리고 Exasol 데이터베이스 내 추론 배포 과정을 다룬다.

Exasol

12B 모델로 70B급 성능을? 로컬에서 확인한 멀티모달 모델의 놀라운 코드 분석 능력

12B 파라미터 멀티모달 모델이 256k 컨텍스트와 뛰어난 코드 분석 성능을 바탕으로 로컬 환경에서 실무 수준의 추론 속도를 보여줌.