AI 에이전트가 편의점을 운영한다면? Andon Labs가 발견한 기이한 행동들
Andon Labs는 AI 에이전트의 실제 비즈니스 수행 능력을 평가하는 Vending-Bench와 실전 환경 테스트를 통해 모델의 공격적 행동과 실패 모드를 분석한다.
총 100건
Andon Labs는 AI 에이전트의 실제 비즈니스 수행 능력을 평가하는 Vending-Bench와 실전 환경 테스트를 통해 모델의 공격적 행동과 실패 모드를 분석한다.
에스토니아 언어 연구소가 러시아의 전략적 서사 등 정치적 선전에 대한 LLM의 저항 능력을 평가하는 벤치마크를 공개했다.
LangChain 기반 AI CLI 도구에서 커스텀 런타임으로 전환하며 코드 간결성과 디버깅 효율을 개선한 경험을 공유하고, 프레임워크 사용에 대한 커뮤니티 의견을 묻는 글.
AI 에이전트가 고위험 작업을 수행하기 전 의도와 출처를 검증하여 보안 사고를 방지하는 로컬 우선 프로토콜 PIC Standard를 소개한다.
Rust로 작성한 제로 의존성 추론 엔진이 1비트 양자화 모델을 CPU에서 150 TPS 이상의 속도로 구동함.
Claude Code 시스템 프롬프트가 v2.1.162로 업데이트되어 디자인 동기화 기능과 도구 사용 지침, 개발 환경 설정이 대폭 개선되었다.
2만 1천 달러 MRR 규모의 튜터링 플랫폼 운영자가 브랜드 인지도와 커뮤니티 기여를 위해 범용 프롬프트 20개를 공개하고, 핵심 경쟁력인 독점 프롬프트 50개는 비공개로 유지하기로 결정했다.
JVM 환경에서 JUnit 테스트를 통해 LLM 출력과 에이전트 동작을 직접 검증할 수 있는 오픈소스 평가 도구 Dokimos 소개.
Meta가 AI 데이터 센터 건설 기간을 단축하기 위해 텐트 형태의 급속 배포 구조물을 도입하고 오프그리드 가스 터빈으로 전력을 공급한다.
ClearML과 Dell Technologies가 협력하여 Dell 하드웨어 위에서 엔터프라이즈 AI 플랫폼을 신속하게 구축하고 운영할 수 있는 통합 솔루션을 제공한다.
Gemini Diffusion 모델은 양방향 어텐션을 통해 생성 중 오류를 수정하며, 텍스트 확산 방식을 적용해 실시간 인터랙티브 AI 애플리케이션을 구현한다.
기업이 LLM을 활용해 자체 구축한 안티봇 솔루션이 보안상 취약하며, 리버스 엔지니어링을 통해 쉽게 우회될 수 있음을 분석한다.
LLM 코딩 에이전트의 언어, 모델, 도구 조합에 따른 실제 신뢰도와 비용을 통계적으로 측정하는 프레임워크 'retort'를 소개합니다.
매니폴드 가설은 고차원 데이터가 실제로는 저차원 공간에 존재한다는 이론으로, 생성형 AI의 핵심 역할은 이 복잡하게 얽힌 매니폴드를 펼쳐 의미 있는 데이터를 생성하는 것이다.
AI 에이전트 스타트업 Poke가 Apple의 Messages for Business 플랫폼에 최초로 승인되어 iMessage를 통해 서비스를 제공한다.
NVIDIA가 다중 모달 입력, 12개 언어 지원, 맞춤형 정책 적용 및 추론 기능을 통합한 4B 파라미터 규모의 안전 모델 Nemotron 3.5 Content Safety를 공개했다.
기업용 생성형 AI 프로젝트의 95%가 성과를 내지 못하는 이유는 모델 자체보다 데이터 인프라와 워크플로 재설계에 필요한 노력을 과소평가하기 때문임.
현재의 AI 개발은 모델 규모와 추론 속도 최적화에만 집중하고 있으며, 지능의 핵심인 '목표 지향적 동기'를 간과하고 있다는 비판적 시각을 제시함.
LLM 신뢰성 향상 기법 28가지를 단일 API로 통합하고, 프롬프트별 적응형 라우팅을 통해 비용과 품질을 최적화하는 라이브러리 agentcodec을 소개한다.
DeepLearning.AI에서 vLLM을 활용한 로컬 LLM 추론 최적화, 메모리 관리, 벤치마킹을 다루는 실무 중심 강의를 공개했다.
Replit Agent를 활용해 자연어 프롬프트만으로 커스텀 Shopify 스토어프론트를 설계, 생성, 배포하는 엔드투엔드 워크플로를 지원한다.
PyTorch를 사용하여 흉부 X-ray 이미지에서 폐렴을 탐지하는 CNN 모델을 구축하고, 데이터 전처리 및 평가 파이프라인을 포함한 프로젝트를 공유함.
MIT 주도의 IAIFI가 NSF로부터 5년간 추가 지원을 확보하며 AI와 물리학의 상호 발전을 위한 연구 모델을 확장한다.
Claude Code를 활용해 소셜 미디어와 뉴스 데이터를 분석하고 주식 투자 기회를 포착하는 AI 소프트웨어 개발 사례.
5개의 AI 에이전트가 연구, 전략 수립, 콘텐츠 작성, 게시, 성과 분석을 수행하여 블로그 SEO를 자동화하는 워크플로를 소개합니다.
AI 벤치마크의 한계를 극복하기 위해 필요한 평가 방법론과 환경 복잡성, 자율성 등 차세대 벤치마크 설계의 핵심 요소를 다룬다.
페이스북이 크리에이터의 성과 분석과 콘텐츠 아이디어 생성을 돕는 AI 기반 'Creator assistant'를 출시했다.
Aircall의 Tom Chen이 AI 음성 에이전트의 운영 효율성과 고객 선호도, 그리고 성공적인 배포를 위한 핵심 병목인 사내 지식 문서화의 중요성을 설명한다.
AI 수요 폭증으로 세계 최대 반도체 기업 TSMC가 공급난을 겪으며 미국 내 생산 확대에도 불구하고 수요 충족에 장시간이 소요될 전망이다.
AI 에이전트가 데이터 과학 워크플로를 자동화하며, 데이터 과학자는 절차적 반복 업무에서 벗어나 시스템 설계와 평가라는 고차원적 판단 역할로 전환된다.
MLOps 팀이 에이전트 제품의 평가 파이프라인 부재 문제를 해결하기 위해 기존 ML 워크플로에 에이전트 평가를 통합하는 실무적인 방법과 실패 분류 전략을 논의함.
Benchling AI의 Head of AI가 과학 연구 데이터 플랫폼 위에서 에이전트 아키텍처를 설계하고 검증하는 실무 전략을 공유한다.
에이전트에게 OpenAPI 명세와 안전한 Deno 샌드박스를 제공하여, 정적 도구 래퍼 없이 스스로 필요한 도구를 작성하고 실행하는 NL 에이전트 패턴을 소개한다.
NVIDIA가 공개한 600M 파라미터 규모의 Nemotron 3.5 ASR은 40개 언어를 실시간으로 처리하며, 캐시 인식 아키텍처를 통해 낮은 지연 시간과 높은 정확도를 동시에 제공한다.
주요 플랫폼들이 AI 콘텐츠 라벨링을 도입했으나, 사용자가 이를 효과적으로 필터링할 수 있는 기능은 여전히 부재하다.
파이썬을 이용한 시계열 데이터의 구조 이해, 전처리, 통계적 모델링, 머신러닝 예측 및 배포까지의 7단계 실무 가이드.
스탠퍼드 AI 인덱스 보고서를 통해 AI 기술의 가속화, 오픈소스 모델의 현황, 미·중 간의 AI 경쟁 구도를 살펴본다.
작물 성장 단계별 다단계 어노테이션을 통해 정밀 살포 시스템의 인식 정확도와 현장 적응력을 높이는 데이터 구축 전략.
Flourish는 인간 뇌의 에너지 효율성과 지속적 학습 능력을 모방한 'Cortex AI'를 개발하여 현재 LLM의 전력 및 데이터 비효율성을 해결하고자 한다.
Claude Code의 Dynamic Workflows 기능을 사용하여 AI 코딩 에이전트의 불필요한 규칙과 설정을 진단하고 최적화하는 실전 워크플로우 설계 가이드.
AI 코딩 에이전트가 메트릭을 조작하지 않도록 정보 비대칭과 상태 격리를 적용한 4단계 파이프라인을 구축하고 성능을 검증했다.
LangChain 에이전트의 멀티턴 프롬프트 인젝션을 탐지하기 위해 세션 전체의 행동 궤적을 추적하는 보안 도구 Bendex Arc를 소개합니다.
Claude로 초안을 작성하고 다른 모델로 비판적 검토를 수행한 뒤 다시 수정하는 다중 모델 루프 방식의 워크플로 공유.
Anthropic의 Claude Agent SDK 유료화에 대응하여, 공식 TUI를 활용해 프로그래밍 가능한 인터페이스를 제공하는 오픈소스 CLI 도구 dash-p가 공개되었다.
웹 디자인 경험만 있는 사용자가 Claude Code를 활용해 1,400개 제품을 포함한 커머스 사이트를 처음부터 끝까지 직접 구축한 사례.
인프라 자동화 엔지니어가 Claude 최신 모델에서 상시 지침 준수 능력이 이전 버전 대비 크게 향상되었음을 보고했다.
LLM의 동조 성향으로 인한 확증 편향을 방지하기 위해 자신의 의견을 숨기고 반대 입장의 논리를 요구하는 프롬프트 전략을 제안함.
Claude Code 사용 시 세션 간 컨텍스트 유지 문제를 해결하기 위해 에이전트와 인간이 공유하는 구조화된 메모리 레이어인 FreeRide를 개발하여 공유했다.
공식 JIRA MCP 서버의 과도한 메타데이터로 인한 토큰 낭비 문제를 해결하기 위해, 필수 필드만 반환하는 경량화된 MCP 서버 사용을 제안한다.
Anthropic의 Mythos가 대규모 보안 취약점 탐지 효율을 입증했으나, 실무에서는 탐지된 결과를 처리할 인간의 리소스와 우선순위 설정이 더 큰 병목임을 지적한다.
AI 안전 필터의 높은 오탐지율이 건강한 사용자에게 불필요한 자기 의심과 심리적 불안을 유발하는 부작용을 지적한 사례.
Claude Code가 과거 세션의 기록을 읽고 컨텍스트를 유지할 수 있도록 돕는 MCP 서버와 플러그인을 개발하여 공유함.
NVIDIA Nemotron 3 Ultra 모델이 Amazon SageMaker JumpStart에 출시되어 에이전트 워크로드의 추론 속도와 비용 효율성을 개선한다.
Steerling 8B 기반의 Clarity는 모델의 추론 과정을 시각화하고 훈련 데이터 추적 및 개념 기반 제어를 지원하는 해석 가능한 AI 플랫폼이다.
모델 성능 경쟁에서 벗어나 에이전트 구동을 위한 로컬 추론 및 맞춤형 하드웨어 인프라로 AI의 중심이 이동하고 있다.
에이전트 시스템에서 메타인지와 캘리브레이션을 활용해 할루시네이션을 예방하는 계획 및 검증 파이프라인 설계와 실무적 트레이드오프 분석.
LLM 에이전트 워크플로우의 트레이싱과 비용 관리를 지원하는 경량 오픈소스 프록시 도구 Spanlens.
Google의 Gemma 4 12B 모델 출시, Apple의 Vision 제품군 로드맵 축소, 주요 AI 기업들의 합성 DNA 스크리닝 의무화 촉구 소식을 다룬다.
Red Hat과 DeepLearning.AI가 vLLM 생태계를 활용한 LLM 추론 최적화, 배포, 벤치마킹 실습 과정을 공개했다.
AI Roundtable의 3만 건 공개 세션 데이터를 분석한 결과, Claude Opus 4.7이 타 모델의 의견을 가장 많이 뒤집으며 영향력 1위를 기록했다.
Claude Code 기반의 에이전트들을 로컬에서 자율적으로 운영하고 관리할 수 있는 멀티 에이전트 하네스 Munder Difflin이 오픈소스로 공개되었다.
Instagram 분석 도구 OwlStat에 MCP 서버를 구축하여 Claude와 직접 연동함으로써 대시보드 접속 없이 데이터 조회 및 보고서 생성을 자동화했다.
LLM의 환각과 동조 현상을 방지하기 위해 아키텍처 문서화와 다중 모델 검토 프로세스를 결합한 개발 워크플로우.
Claude Code와 Linear MCP 연동 시, 티켓 생성 전 검증 및 컨텍스트 통합 도구를 추가하여 데이터 품질을 개선하는 방법.
Gemma 4 모델을 로컬 전처리 단계로 활용하여 API 호출 비용과 지연 시간을 최적화하는 하이브리드 파이프라인 전략.
Claude Code 기반의 에이전트들을 로컬에서 클러스터 형태로 운영하며 자율적으로 작업을 수행하는 멀티 에이전트 하네스 Munder Difflin을 오픈소스로 공개했다.
AI API 및 LLM 제품의 가격 책정 시 계량 방식, 단위, 티어 구조, 크레딧 지갑 관리 등 6가지 핵심 요소를 체계적으로 설계하는 방법론을 제시한다.
2020년 구글이 해고한 Timnit Gebru의 논문 'Stochastic Parrots'가 예견했던 AI의 위험성들이 현재 업계의 고질적인 문제로 실현됨을 다룬다.
Hello Robot이 실생활 환경에서 안전하게 작동하도록 설계된 4세대 가정용 보조 로봇 Stretch 4를 출시했다.
모델의 지능보다 에이전트의 제어, 비용 가시성, 안전한 격리를 보장하는 거버넌스 계층이 AGI 시대의 핵심 경쟁력이 된다.
Hadamard 회전과 분산 정규화를 결합하여 KV-Cache를 3-4배 압축하면서도 정확도 손실을 1% 미만으로 유지하는 KVarN 기법.
Twenty CRM의 무거운 API 호출 방식 대신 맞춤형 Claude CLI 에이전트를 구축하여 비용을 절감하고 제어력을 높인 사례.
LLM의 선형적인 채팅 출력을 DAG와 섹션별 텍스트로 변환하여 복잡한 시스템 아키텍처 분석의 인지 부하를 줄여주는 도구 Detangled를 개발했다.
AI 에이전트와의 협업 과정을 기록하고 승인 대기 시간을 분석하여 실제 생산성을 측정하는 MCP 서버 도구.
Claude Code가 git 기록과 우회 경로를 활용해 SWE rebench 문제를 해결하는 방식과, 데이터 오염을 방지하기 위한 벤치마크 설계 원칙을 다룬다.
IBM이 AI 모델을 소프트웨어처럼 모듈화하여 재사용 가능한 어댑터로 최적화하는 '생성형 컴퓨팅' 접근 방식과 Granite 4.1 모델군을 공개했다.
AI 컴패니언이 사용자의 심리를 파악하고 관계를 형성하여 중독을 유도하는 기술적 메커니즘과 그 위험성을 분석한 경험담.
특정 런타임에 종속되지 않고 파일 기반으로 에이전트 팀을 구성하며, 티켓팅된 메모리와 게이트 시스템으로 안정성을 확보하는 오픈소스 아키텍처.
On-policy Distillation(OPD)은 모델의 오류를 롤아웃 중간에 힌트 토큰으로 교정하여 효율적으로 학습시키는 최신 포스트 트레이닝 기법이다.
8주 동안 211개의 PR을 제출하고 125개를 병합시킨 자율 코딩 에이전트 'Truffle'의 실전 운영 기록과 아키텍처를 공유한다.
EVA-Bench 2.0은 항공, IT, 의료 등 3개 도메인에 걸쳐 213개의 시나리오와 121개의 도구를 포함하여 음성 에이전트의 실무 평가를 지원한다.
Claude.ai의 사용량 제한을 실시간으로 확인하기 위해 xbar 플러그인을 직접 개발하여 공유함.
SaaS 창업자가 8개의 방대한 문서를 Claude 프로젝트에 업로드하여 이사회 준비 시간을 16시간에서 12분으로 획기적으로 단축한 사례.
공개 태스크의 학습 데이터를 시드로 활용하여 추론과 지식이 강화된 합성 Q&A 데이터를 생성하고, 이를 통해 LLM의 MMLU-Pro 및 GPQA 성능을 개선하는 파이프라인을 구축했다.
AI를 활용해 법률 문서를 작성하는 나홀로 소송이 급증하면서, 판사들은 문서 가독성 향상을 체감하는 한편 챗봇의 법적 책임과 기밀 보호 문제에 직면하고 있다.
사용자의 시나리오를 LLM으로 분석하여 뇌 영역과 신경전달물질 반응을 예측하고, Brian2 SNN을 통해 3D 뇌 모델로 시각화하는 교육용 데모 프로젝트입니다.
로봇의 정교한 조작(Dexterous Manipulation) 구현을 위해 필요한 고품질 멀티모달 데이터와 동기화 기술의 핵심 요건을 설명합니다.
Gemma 모델을 활용하여 긴 영상을 숏폼으로 자동 편집, 변환, 예약 게시까지 수행하는 오픈소스 Mac 앱 Shortcast 소개.
LLM 메모리 시스템의 검색 정밀도를 독립적으로 측정하는 PrecisionMemBench와 이를 해결하는 구조적 신념 저장소 Tenure를 제안한다.
Claude를 주 개발자로 활용하여 오픈소스 하드웨어 계측기 BugBuster를 개발하고 MCP를 통해 하드웨어 제어 기능을 구현한 사례.
Claude의 웹 트래픽 점유율은 낮으나, MCP와 Claude Code를 통한 워크플로 통합 중심으로 기업 사용량이 급증하고 있다.
Claude Code와 MCP를 활용해 프로젝트 구조와 과거 수정 이력을 공유하는 로컬 메모리 레이어 'Cosmos'를 구축하고 멀티 에이전트 워크플로를 실험한 사례.
아마존이 언어 기반 제어가 가능하고 작업 범위를 확장한 차세대 Proteus 물류 로봇을 공개했다.
Endava는 OpenAI 기술을 전사적으로 도입하여 소프트웨어 개발 방법론인 DavaFlow를 구축하고, 엔지니어링부터 운영까지 업무 전반에 AI 에이전트를 내재화했다.
AI 인프라 생태계의 카테고리 정의가 모호하여 발생하는 도구 명칭 중복과 개념적 혼란에 대한 고찰.
LLM을 처음부터 학습하는 과정의 한계와 파인튜닝을 통한 실무 적용, 그리고 Exasol 데이터베이스 내 추론 배포 과정을 다룬다.
12B 파라미터 멀티모달 모델이 256k 컨텍스트와 뛰어난 코드 분석 성능을 바탕으로 로컬 환경에서 실무 수준의 추론 속도를 보여줌.
다양한 어텐션 메커니즘을 쉽게 교체하고 실험할 수 있는 오픈소스 라이브러리 'attnhut' 개발 및 공유.
파일 편집, 셸 명령, VNC 데스크톱을 지원하며 컨텍스트 최적화를 위해 'Living Tool State' 아키텍처를 적용한 오픈소스 자율 코딩 에이전트.