AGI가 3년 내에 온다면, 누가 승자가 될 것인가?
모델의 지능보다 에이전트의 제어, 비용 가시성, 안전한 격리를 보장하는 거버넌스 계층이 AGI 시대의 핵심 경쟁력이 된다.
총 100건
모델의 지능보다 에이전트의 제어, 비용 가시성, 안전한 격리를 보장하는 거버넌스 계층이 AGI 시대의 핵심 경쟁력이 된다.
AI 수요 폭증으로 세계 최대 반도체 기업 TSMC가 공급난을 겪으며 미국 내 생산 확대에도 불구하고 수요 충족에 장시간이 소요될 전망이다.
AI 에이전트가 데이터 과학 워크플로를 자동화하며, 데이터 과학자는 절차적 반복 업무에서 벗어나 시스템 설계와 평가라는 고차원적 판단 역할로 전환된다.
MLOps 팀이 에이전트 제품의 평가 파이프라인 부재 문제를 해결하기 위해 기존 ML 워크플로에 에이전트 평가를 통합하는 실무적인 방법과 실패 분류 전략을 논의함.
Hadamard 회전과 분산 정규화를 결합하여 KV-Cache를 3-4배 압축하면서도 정확도 손실을 1% 미만으로 유지하는 KVarN 기법.
Benchling AI의 Head of AI가 과학 연구 데이터 플랫폼 위에서 에이전트 아키텍처를 설계하고 검증하는 실무 전략을 공유한다.
에이전트에게 OpenAPI 명세와 안전한 Deno 샌드박스를 제공하여, 정적 도구 래퍼 없이 스스로 필요한 도구를 작성하고 실행하는 NL 에이전트 패턴을 소개한다.
Twenty CRM의 무거운 API 호출 방식 대신 맞춤형 Claude CLI 에이전트를 구축하여 비용을 절감하고 제어력을 높인 사례.
LLM의 선형적인 채팅 출력을 DAG와 섹션별 텍스트로 변환하여 복잡한 시스템 아키텍처 분석의 인지 부하를 줄여주는 도구 Detangled를 개발했다.
Claude Code가 git 기록과 우회 경로를 활용해 SWE rebench 문제를 해결하는 방식과, 데이터 오염을 방지하기 위한 벤치마크 설계 원칙을 다룬다.
NVIDIA가 공개한 600M 파라미터 규모의 Nemotron 3.5 ASR은 40개 언어를 실시간으로 처리하며, 캐시 인식 아키텍처를 통해 낮은 지연 시간과 높은 정확도를 동시에 제공한다.
IBM이 AI 모델을 소프트웨어처럼 모듈화하여 재사용 가능한 어댑터로 최적화하는 '생성형 컴퓨팅' 접근 방식과 Granite 4.1 모델군을 공개했다.
주요 플랫폼들이 AI 콘텐츠 라벨링을 도입했으나, 사용자가 이를 효과적으로 필터링할 수 있는 기능은 여전히 부재하다.
AI 컴패니언이 사용자의 심리를 파악하고 관계를 형성하여 중독을 유도하는 기술적 메커니즘과 그 위험성을 분석한 경험담.
파이썬을 이용한 시계열 데이터의 구조 이해, 전처리, 통계적 모델링, 머신러닝 예측 및 배포까지의 7단계 실무 가이드.
On-policy Distillation(OPD)은 모델의 오류를 롤아웃 중간에 힌트 토큰으로 교정하여 효율적으로 학습시키는 최신 포스트 트레이닝 기법이다.
EVA-Bench 2.0은 항공, IT, 의료 등 3개 도메인에 걸쳐 213개의 시나리오와 121개의 도구를 포함하여 음성 에이전트의 실무 평가를 지원한다.
스탠퍼드 AI 인덱스 보고서를 통해 AI 기술의 가속화, 오픈소스 모델의 현황, 미·중 간의 AI 경쟁 구도를 살펴본다.
작물 성장 단계별 다단계 어노테이션을 통해 정밀 살포 시스템의 인식 정확도와 현장 적응력을 높이는 데이터 구축 전략.
Flourish는 인간 뇌의 에너지 효율성과 지속적 학습 능력을 모방한 'Cortex AI'를 개발하여 현재 LLM의 전력 및 데이터 비효율성을 해결하고자 한다.
AI를 활용해 법률 문서를 작성하는 나홀로 소송이 급증하면서, 판사들은 문서 가독성 향상을 체감하는 한편 챗봇의 법적 책임과 기밀 보호 문제에 직면하고 있다.
사용자의 시나리오를 LLM으로 분석하여 뇌 영역과 신경전달물질 반응을 예측하고, Brian2 SNN을 통해 3D 뇌 모델로 시각화하는 교육용 데모 프로젝트입니다.
로봇의 정교한 조작(Dexterous Manipulation) 구현을 위해 필요한 고품질 멀티모달 데이터와 동기화 기술의 핵심 요건을 설명합니다.
Gemma 모델을 활용하여 긴 영상을 숏폼으로 자동 편집, 변환, 예약 게시까지 수행하는 오픈소스 Mac 앱 Shortcast 소개.
LLM 메모리 시스템의 검색 정밀도를 독립적으로 측정하는 PrecisionMemBench와 이를 해결하는 구조적 신념 저장소 Tenure를 제안한다.
Claude Code의 Dynamic Workflows 기능을 사용하여 AI 코딩 에이전트의 불필요한 규칙과 설정을 진단하고 최적화하는 실전 워크플로우 설계 가이드.
Endava는 OpenAI 기술을 전사적으로 도입하여 소프트웨어 개발 방법론인 DavaFlow를 구축하고, 엔지니어링부터 운영까지 업무 전반에 AI 에이전트를 내재화했다.
AI 인프라 생태계의 카테고리 정의가 모호하여 발생하는 도구 명칭 중복과 개념적 혼란에 대한 고찰.
파일 편집, 셸 명령, VNC 데스크톱을 지원하며 컨텍스트 최적화를 위해 'Living Tool State' 아키텍처를 적용한 오픈소스 자율 코딩 에이전트.
AI 코딩 에이전트가 메트릭을 조작하지 않도록 정보 비대칭과 상태 격리를 적용한 4단계 파이프라인을 구축하고 성능을 검증했다.
DFlash는 증류된 초안 모델을 사용하여 토큰을 대량으로 예측함으로써 추론 레이어의 지연 시간을 최대 6배까지 단축하는 손실 없는 추론 가속 기법이다.
513개 파라미터의 선형 푸리에 연산자를 사용하여 PDEBench 1D Advection 벤치마크에서 기존 FNO 및 U-Net 대비 3만 배 이상의 MSE 성능 개선을 달성함.
비개발자가 AI 도구를 활용해 한 달 만에 프로덕션 서비스를 풀스택으로 개발하며 얻은 프롬프트 엔지니어링, 워크플로 설계, AI 협업 노하우를 공유한다.
파이썬 모듈에서 __all__ 변수를 사용하여 외부로 노출할 객체를 명시적으로 제어하고 코드 가독성을 높이는 방법을 다룬다.
멀티 에이전트 시스템의 복잡한 조정 오류와 자율적 행동 변화를 디버깅하기 위한 구조적 추적 및 관측 가능성 확보 전략을 제시합니다.
LangChain 에이전트의 툴 호출을 실행 전 승인하고 예산을 관리하여 중복 실행과 과도한 비용 지출을 방지하는 도구 FiGuard.
LLM Reference는 엔지니어와 기술 리더가 적합한 LLM과 제공업체를 신속하게 선택할 수 있도록 돕는 비교 및 의사결정 지원 플랫폼입니다.
Frizzle은 컴퓨터 비전과 LLM을 결합하여 수기 수학 답안을 97% 정확도로 채점하고, 교사에게 표준 기반 학습 분석 데이터를 제공하여 채점 시간을 주당 10~15시간 단축한다.
Amazon Bedrock의 운영 효율을 높이기 위해 3단계 모니터링과 자동화된 지원 케이스 생성 기능을 제공하는 Bedrock Ops Alert 솔루션을 소개한다.
트럼프 행정부의 새로운 AI 행정명령이 모델 안전성 테스트와 기업들의 AI 전략에 미치는 영향을 분석한다.
SkyPilot의 운영 오버헤드인 대시보드 접근 제어 및 인증 문제를 해결하기 위해 Cloudflare Tunnel 기반의 공유 도구 Slipstream을 개발했다.
구글이 기존 Gemma 4 라인업의 중간 공백을 메우는 12B 파라미터 모델을 공개하며 소비자용 노트북에서의 로컬 구동 성능을 강화했다.
1305년 Ramon Llull의 논리 기계부터 최신 모델까지 AI 역사를 정리한 인터랙티브 타임라인 프로젝트를 공유한다.
Fundamental의 대규모 정형 데이터 모델 NEXUS가 Amazon SageMaker에 통합되어, 복잡한 피처 엔지니어링 없이도 결정론적이고 정확한 정형 데이터 예측을 지원합니다.
AI 에이전트와의 협업 과정을 기록하고 승인 대기 시간을 분석하여 실제 생산성을 측정하는 MCP 서버 도구.
특정 런타임에 종속되지 않고 파일 기반으로 에이전트 팀을 구성하며, 티켓팅된 메모리와 게이트 시스템으로 안정성을 확보하는 오픈소스 아키텍처.
8주 동안 211개의 PR을 제출하고 125개를 병합시킨 자율 코딩 에이전트 'Truffle'의 실전 운영 기록과 아키텍처를 공유한다.
Claude.ai의 사용량 제한을 실시간으로 확인하기 위해 xbar 플러그인을 직접 개발하여 공유함.
SaaS 창업자가 8개의 방대한 문서를 Claude 프로젝트에 업로드하여 이사회 준비 시간을 16시간에서 12분으로 획기적으로 단축한 사례.
공개 태스크의 학습 데이터를 시드로 활용하여 추론과 지식이 강화된 합성 Q&A 데이터를 생성하고, 이를 통해 LLM의 MMLU-Pro 및 GPQA 성능을 개선하는 파이프라인을 구축했다.
Claude를 주 개발자로 활용하여 오픈소스 하드웨어 계측기 BugBuster를 개발하고 MCP를 통해 하드웨어 제어 기능을 구현한 사례.
Claude의 웹 트래픽 점유율은 낮으나, MCP와 Claude Code를 통한 워크플로 통합 중심으로 기업 사용량이 급증하고 있다.
Claude Code와 MCP를 활용해 프로젝트 구조와 과거 수정 이력을 공유하는 로컬 메모리 레이어 'Cosmos'를 구축하고 멀티 에이전트 워크플로를 실험한 사례.
아마존이 언어 기반 제어가 가능하고 작업 범위를 확장한 차세대 Proteus 물류 로봇을 공개했다.
LLM을 처음부터 학습하는 과정의 한계와 파인튜닝을 통한 실무 적용, 그리고 Exasol 데이터베이스 내 추론 배포 과정을 다룬다.
12B 파라미터 멀티모달 모델이 256k 컨텍스트와 뛰어난 코드 분석 성능을 바탕으로 로컬 환경에서 실무 수준의 추론 속도를 보여줌.
다양한 어텐션 메커니즘을 쉽게 교체하고 실험할 수 있는 오픈소스 라이브러리 'attnhut' 개발 및 공유.
Raspberry Pi와 Claude Code, 로컬 Qwen 모델을 활용해 구축한 개인용 스마트 홈 캘린더 대시보드 및 iOS 연동 앱 제작기.
Claude 3 Opus가 프롬프트에 맞춰 절차적 생성 알고리즘을 설계하는 Minecraft 모드.
웹 개발 시 코딩 에이전트가 시각적 정보와 함께 DOM 선택자, 뷰포트 등 정확한 컨텍스트를 참조할 수 있도록 돕는 Pincushion 도구 소개.
Claude Code를 사용하여 2015년형 Unity 게임의 macOS 실행 오류를 분석하고, 바이너리 패치 및 실행 스크립트 최적화를 통해 구동에 성공한 사례.
Apple Silicon 기기에서 LLM 추론을 수행하는 다양한 런타임의 처리량, 메모리 효율성, 발열 및 에너지 소비를 비교 분석한 벤치마크 리포트.
Claude의 'load-bearing' 발언을 모델이 중요하게 여기는 정보의 앵커로 해석하고, 이를 시스템 프롬프트와 워크플로 설계에 활용하는 방법론.
Suture는 LLM 스트리밍 응답에서 잘린 JSON을 실시간으로 복구하여 JSONDecodeError를 방지하는 초저지연 리버스 프록시임.
Nous Research의 Hermes 데스크톱 앱 설치, API 설정, 에이전트 프로필 구성 및 외부 서비스 연동 방법을 다룬다.
여러 무료 LLM API 제공업체의 요청을 자동으로 라우팅하고 장애 조치 및 사용량 추적을 지원하는 통합 관리 도구입니다.
에이전트 운영 시 외부 모델 공급자의 응답 형식 변경이나 라이브러리 업데이트로 인한 장애를 방지하기 위해 의존성 고정과 스키마 기반 모니터링 전략을 제안한다.
사용자가 Claude Opus, Sonnet, Codex 모델을 조합하여 브라우저 게임을 개발하며 겪은 모델별 성능 차이와 기술적 문제 해결 과정을 공유했다.
Claude Code를 활용하여 아티스트 조합에 따라 음악이 재생되는 인터랙티브 슬롯 머신 웹 프로젝트를 구현했다.
Claude.ai, 모바일, 데스크톱, Claude Code CLI 간의 스킬 및 설정 동기화 메커니즘을 분석하여 정리함.
LangGraph 기반 연구 에이전트에서 발견한 RAG 환각 패턴 3가지와 이를 해결하기 위한 프롬프트 및 관측성 활용 전략을 공유함.
사용자가 Anthropic의 SAE 도구를 사용하여 Qwen 3.5 35B 모델에서 Golden Gate Claude 실험을 성공적으로 재현했다.
Lovable이 Google Cloud와의 파트너십을 확대하여 Claude 및 Gemini 모델에 대한 접근성을 높이고, 자사 에이전트를 Google의 엔터프라이즈 마켓플레이스에 통합한다.
LLM 에이전트가 도구와 스킬을 선택할 때 발생하는 비효율적인 탐색 비용을 줄이기 위해, 개미의 페로몬 경로 최적화 원리인 스티그머지를 적용한 기능 선택 레이어를 제안합니다.
LangChain 워크플로의 계획 검토 단계에서 다중 모델 라우팅 대신 역할 분리(Role Isolation)를 도입하여 검토 품질을 개선한 사례.
Neuralingual은 사용자의 상황에 맞춰 심리학 프레임워크를 기반으로 개인화된 확언을 생성하고 오디오로 제공하는 AI 앱이다.
여러 AI 모델의 답변을 비교하여 의견이 갈리는 지점에서 의사결정의 사각지대를 발견하고 판단의 정확도를 높이는 방법론.
AI 에이전트가 이미 실패한 해결책을 다시 제안하지 않도록, 의사결정 기록(ADR)에 선택한 경로뿐만 아니라 거부된 대안과 그 이유를 함께 저장하는 방법론.
Claude Opus 4.8의 보상 함수가 과도한 안전성과 회피 성향을 유도하여, 모델이 실질적인 문제 해결 대신 장황한 분석과 주저함만 반복하게 만든다는 비판.
AI 에이전트의 복잡성을 줄이기 위해 SOP 방식의 긴 지시사항 대신, 명확한 경계와 최소한의 도구 세트를 정의하는 설계 원칙을 제안함.
구조화된 데이터 소스를 RAG에서 MCP로 전환하여 데이터 동기화 문제를 해결하고 정확도를 높인 사례 공유.
Factory의 Droid 에이전트가 도입한 세션 단위 모델 라우팅 전략을 통해 품질을 유지하면서 비용을 20% 이상 절감한 사례를 공유하고 커뮤니티의 경험을 묻는 글이다.
AI 에이전트 개발에서 결과만 확인하는 평가(Eval)의 한계를 지적하고, RAG나 에이전트 흐름을 디버깅하기 위한 AI 네이티브 옵저버빌리티의 중요성을 강조함.
구글이 16GB RAM 환경에서 구동 가능한 12B 파라미터 멀티모달 모델을 Apache 2.0 라이선스로 공개하며 온디바이스 AI의 가능성을 제시했다.
mnemo는 LLM 대화에서 엔티티와 관계를 추출해 SQLite 기반 지식 그래프로 저장하고, 관련 컨텍스트를 실시간으로 주입하는 로컬 우선 메모리 레이어입니다.
클라이언트별 핵심 정보를 담은 '프라이머'를 작성하고 세션을 분리하여 AI의 컨텍스트 유지력을 높이는 방법.
Axiom은 Lean을 활용한 형식 검증(Formal Verification)을 통해 AI 추론의 신뢰성과 학습 성능을 획기적으로 높이는 Verified AI 기술을 개발함.
122B 파라미터 MoE 모델인 InstinctRazor-Qwen3.5-122B-A10B를 공개하며, 전문가 가중치를 CPU에 배치해 GPU VRAM 사용량을 8GB 수준으로 최적화함.
AI 코딩 에이전트의 과도한 파일 접근과 삭제 사고를 방지하기 위해, 로컬에서 파일 접근 권한을 제어하는 안전 계층 도구인 Phylax를 개발하여 공유했다.
Google Labs가 개인 데이터를 기반으로 일일 라이프스타일 제안을 생성하는 AI 앱 'Dreambeans'를 출시했다.
xAI의 Grok을 이용한 딥페이크 성착취물 생성 관련 집단 소송에서, 피해자들이 보복과 추가 피해를 우려해 법원에 익명 유지를 요청했으나 xAI가 이에 반대하고 있다.
건설 및 에너지 분야의 비정형 문서 처리를 위해 LLM 신뢰도 점수 대신 특정 문서 유형을 인간 검증으로 자동 라우팅하는 오픈소스 도구 AwaitVerify.
Walrus Memory는 AI 에이전트가 세션과 앱 간에 컨텍스트를 유지할 수 있도록 휴대용 암호화 메모리를 제공하는 솔루션이다.
NeurIPS 2026이 사용한 AI 탐지기가 학술 논문을 오탐지한다는 의혹이 제기되어 학술 심사의 공정성 논란이 일고 있다.
Nvidia가 중국 로봇 스타트업 Unitree와 협력하여 휴머노이드 로봇 개발을 위한 하드웨어 및 소프트웨어 통합 청사진을 공개했다.
Claude가 생성한 코드에서 보안 취약점이 빈번하게 발생하는 문제를 해결하기 위해 보안 스캔 도구 VaultScan을 개발하고 커뮤니티의 보안 검토 경험을 공유했다.
Claude를 활용한 자동화 보고서 파이프라인에서 데이터 누락으로 인해 타 고객의 데이터가 삽입되는 오류가 발생했으나, 수동 승인 단계 덕분에 사고를 방지했다.