Claude Excel 애드인으로 데이터 분석 자동화하기: 4단계 프롬프트 프레임워크
Claude의 새로운 Excel 애드인을 활용해 다중 시트 인식과 MCP 데이터 커넥터로 데이터 분석 및 보고서 생성을 자동화하는 4단계 프롬프트 프레임워크를 제안한다.
총 100건
Claude의 새로운 Excel 애드인을 활용해 다중 시트 인식과 MCP 데이터 커넥터로 데이터 분석 및 보고서 생성을 자동화하는 4단계 프롬프트 프레임워크를 제안한다.
Claude 모델들이 '스킬을 만드는 스킬'을 얼마나 깊은 단계까지 오류 없이 생성할 수 있는지 테스트한 결과, Opus만이 9단계 재귀를 완벽히 수행했다.
무거운 프레임워크 대신 Bash와 Claude CLI를 활용해 제어력과 정확도를 극대화한 '유리 상자'형 AI 에이전트 구축 방법론
Claude Code를 사용하여 Claude Haiku 기반의 AI 에이전트가 포함된 풀스택 재무 관리 앱을 일주일 만에 개발 및 배포한 사례이다.
Claude Code의 라이프사이클과 연동하여 터미널 배경색을 에이전트 상태에 따라 실시간으로 변경해주는 시각적 신호 프레임워크 TAVS이다.
KestrelDB라는 커스텀 데이터베이스를 통해 LLM 쿼리 시 발생하는 토큰 소모량을 중간값 기준 329배까지 절감한 벤치마크 결과가 공유되었다.
정적 분석과 LLM을 활용해 Claude Code의 내부 아키텍처를 시각화한 다이어그램과 분석 도구가 공개되었다.
Anthropic이 배포 실수로 핵심 개발 도구인 Claude Code의 소스 코드 51만 줄과 내부 기밀 파일을 외부에 노출하는 사고를 겪었다.
Ollama가 Apple MLX 프레임워크와 Nvidia NVFP4 포맷을 지원하며 로컬 환경에서의 LLM 추론 효율과 메모리 사용량을 개선했다.
OpenClaw가 104개의 CVE를 해결하고 플러그인 보안 및 실행 제어 평면을 통합한 v2026.3.31 보안 강화 업데이트를 발표했다.
세일즈포스가 슬랙봇에 30가지 신규 AI 기능을 추가하고, 사용자가 직접 정의하는 '재사용 가능한 AI 스킬'과 MCP 지원을 통해 업무 플랫폼으로의 진화를 가속화한다.
실시간 영상 속에서 AI가 언제 말을 걸어야 할지 스스로 판단하는 것은 매우 어렵다. 이 논문은 확산 모델의 디노이징 원리를 적용해 AI가 상황의 맥락을 파악하고 가장 적절한 순간에 반응하도록 만들어, 더 자연스러운 실시간 상호작용을 가능하게 한다.
기존의 이미지 분할 기술은 특정 데이터에 맞춰 다시 학습하거나 여러 모델을 복잡하게 조합해야 했습니다. 이 논문은 추가 학습 없이 DINOv3라는 단일 모델의 특징(feature)만으로도 사물, 부품, 개인화된 객체를 정확하게 찾아낼 수 있음을 증명하여 효율성과 범용성을 동시에 확보했습니다.
Claude Code가 감성 분석에 정규표현식을 사용하는 사례를 통해, LLM 시대에도 적재적소의 도구 활용이 중요함을 확인한다.
ChatGPT의 코드 실행 환경에서 DNS 확인 기능을 악용해 데이터를 외부로 유출할 수 있는 보안 취약점이 발견되어 패치되었다.
Amazon Bedrock AgentCore Evaluations는 AI 에이전트의 개발부터 운영까지 전 과정에서 성능을 정량적으로 측정하고 개선할 수 있는 완전 관리형 평가 서비스를 제공한다.
안전 필수 시스템 전문가가 AI 에이전트의 무분별한 권한 행사를 막기 위해 OS 수준의 결정론적 보안 아키텍처 명세서를 제안했다.
55 GPU 시간과 165달러의 비용으로 25개 종에 특화된 mRNA 언어 모델 파이프라인을 구축한 사례이다.
LLM 에이전트 설정 최적화 시 시뮬레이터를 활용한 오프라인 검색을 도입하여 실제 API 호출을 최소화하고 토큰 비용을 20-40% 절감했다.
iOS 26.4 업데이트를 통해 애플 CarPlay에서 ChatGPT의 음성 대화 기능을 공식적으로 사용할 수 있게 됐다.
개발 과정에서 반복되는 AI 질의를 줄이기 위해 7개 카테고리로 구조화된 110개의 개발 전용 프롬프트 템플릿 라이브러리이다.
임대인이 ChatGPT를 활용해 퇴거 체크리스트, 청소 기준, 사진 로그, 이메일 시퀀스 등 세입자 퇴거 프로세스 전반을 자동화할 수 있는 6단계 프롬프트 체인을 공유함.
미로 상호작용의 운동 제어 및 인지 반응 분석을 통해 인간을 검증하는 오픈 소스 TypeScript SDK
Claude Code를 SSH로 사용할 때 발생하는 AFK 모드 인식 문제를 해결하기 위해 상시 활성화 훅을 구현한 사례이다.
OpenAI와 ElevenLabs를 활용해 사용자 맞춤형 레트로 게임 초대장을 생성하는 'Arcade Invite' 앱 쇼케이스
안드로이드 Termux 환경에서 로컬 LLM과 RAG를 활용해 오프라인으로 작동하는 백그라운드 AI 코딩 에이전트 Codey-v2가 출시됐다.
여러 LLM 모델을 조합해 병렬로 실행하고 시각적으로 관리할 수 있는 자가 호스팅 AI 워크스페이스 Tiger Cowork v0.4.2가 출시됐다.
Syft와 Grype를 활용해 로컬에서 프로젝트의 보안 취약점을 스캔하고 분석하는 Claude Code용 MCP 서버가 공개됐다.
Claude Code로 구축된 'needle-bench'는 커널 상태 주입 기술을 통해 저렴한 AI 모델의 문제 해결 능력을 측정하고 향상시키는 오픈소스 벤치마크 도구이다.
Anthropic의 AI 코딩 에이전트 Claude Code가 2.1.89로 업데이트되었으며, 버전 식별 오류가 있던 2.1.88 버전은 NPM 저장소에서 제거되었다.
Apple Mail 사용자가 단축키 한 번으로 이메일 본문과 첨부파일을 Claude Desktop에 즉시 전송할 수 있는 macOS 앱 'Mail to Claude'가 공개됐다.
전맹 시각장애인 개발자가 Claude Code를 활용해 3D 프린팅 자동화 앱을 개발하고 접근성 장벽을 극복하여 업무 효율을 10배 높인 사례이다.
OSX 내장 음성 엔진을 활용해 Claude Code에 TTS 기능을 추가하고, 설정 최적화를 통해 작업 효율을 개선한 사례이다.
ChatGPT의 대화 기록에서 사용자의 인지 구조와 전략적 성향을 추출하여 Claude 등 다른 AI에 이식할 수 있는 3단계 프롬프트 세트를 공유했다.
멀티모달 에이전트에서 과거 스크린샷을 텍스트로 대체하여 네트워크 전송량을 줄임으로써 지연 시간을 획기적으로 개선한 실험 결과이다.
Claude Code의 메모리, 스킬, MCP 서버 등 파편화된 로컬 설정을 터미널에서 직관적으로 관리할 수 있는 Rust 기반 TUI 도구 lazyclaude가 공개됐다.
고비용 AI 코딩 플랫폼 대신 Claude 구독과 Claude Code CLI를 활용해 로컬 개발 환경을 구축함으로써 비용을 획기적으로 줄인 실무 경험담이다.
Claude Code 에이전트들을 기업 조직 구조로 배치하여 NATS와 Paperclip 기반으로 협업하는 가상 투자 시스템 구축기입니다.
AI의 얕은 검색 결과에 대응하기 위해 5단계 프로세스와 12가지 분석 프레임워크를 결합한 Claude 전용 심층 조사 스킬이 오픈소스로 공개됐다.
Claude Code의 미출시 백그라운드 에이전트 KAIROS가 자율적으로 상시 가동되기 위해 사용하는 5가지 핵심 아키텍처 메커니즘이 공개됐다.
기존 코딩 모델들이 단일 학습으로 여러 도메인을 커버하기 어려웠던 한계를 '전문가 특화 후 통합' 패러다임으로 해결했다. 수만 개의 샌드박스를 동시 운영하는 인프라와 효율적인 강화학습 기법을 통해 상용 폐쇄형 모델 수준의 성능을 오픈 생태계에 제시했다는 점에서 가치가 크다.
기존 병리 AI는 환자 한 명의 여러 슬라이드를 개별적으로 처리해 전체 맥락을 놓치는 한계가 있었다. MOOZY는 환자 단위로 데이터를 통합 분석하는 '환자 중심' 설계를 도입해, 훨씬 적은 파라미터로도 암 진단 및 생존 예측에서 세계 최고 수준의 성능을 증명했다.
기업 데이터의 80% 이상이 비정형 텍스트 형태임에도 불구하고 기존 데이터베이스와의 통합은 여전히 난제로 남아있다. 이 논문은 지식 그래프와 LLM을 활용해 텍스트에서 의미를 추출하고 데이터 누락을 자동으로 채우는 최신 방법론을 제시하여 데이터 엔지니어링의 새로운 방향을 제안한다.
기존의 다인원 동작 생성 기술은 인원수가 고정되어 있거나 순차적 생성 시 오차가 누적되어 동작이 어색해지는 한계가 있었다. 이 논문은 단일 인원 데이터를 활용해 인원수 제한 없이 자연스러운 상호작용을 생성하는 Unified Motion Flow를 제안하여, 게임이나 가상현실 내 복잡한 군중 애니메이션 제작 비용을 획기적으로 낮출 수 있는 길을 열었다.
최신 거대 시각 언어 모델(VLM)이 일반 벤치마크에서는 우수하지만, 실제 수술실의 복잡한 시각 과제에서는 여전히 한계가 있음을 증명했다. 모델 크기를 키우는 것보다 수술 도메인에 특화된 고품질 데이터와 전문적인 학습 방식이 의료 AI 성능 향상에 더 결정적임을 시사한다.
기존 시각-언어 모델이 복잡한 숫자 좌표계를 텍스트로 학습해야 했던 한계를 극복하기 위해 이미지 패치를 직접 선택하는 Grounding Token 방식을 도입했다. 이를 통해 학습 효율을 대폭 높였으며, 특히 고해상도 GUI 조작과 비디오 객체 추적에서 기존 모델들을 압도하는 정밀도를 증명했다.
긴 문맥을 처리할 때 어텐션 연산 자체보다 '어떤 토큰이 중요한지'를 찾아내는 인덱싱 과정이 새로운 병목 현상이 되고 있다. HISA는 이 과정을 계층화하여 연산량을 대폭 줄이면서도 기존 모델의 정확도를 그대로 유지하는 실용적인 해결책을 제시한다.
AI 에이전트가 인간의 감독 없이 자율적으로 행동하면서 법적 주체이자 집행자로 부상하고 있다. 이 논문은 초지능 AI가 기존 법 체계의 근간을 어떻게 흔드는지 분석하고, 인간의 통제권을 유지하기 위한 법적 정렬(Legal Alignment)의 필요성을 제시한다.
기존의 복잡한 다단계 공학 파이프라인 대신 비디오 생성 모델을 사용하여 지도 위에서 직접 경로를 그리는 직관적인 방식을 제안한다. 이를 통해 추론 속도를 4배 이상 단축하고 정밀도를 높여 도시 모빌리티 분석의 실용성을 극대화한다.
긴 영상을 처리할 때 모든 프레임을 다 보는 대신, 모델이 스스로 '확신'하는 구간을 찾아 집중함으로써 연산 효율과 정확도를 동시에 잡았습니다. 별도의 추가 학습 없이도 기존 MLLM에 바로 적용할 수 있어 실무적 가치가 큽니다.
기존의 LLM 컨텍스트 압축은 정보가 많은 전문 문서와 중복이 많은 일상 대화를 똑같은 비율로 줄여 효율성이 낮았다. 이 논문은 텍스트의 정보 밀도를 스스로 판단하여 압축률을 조절하되, 모델이 혼란을 느끼지 않도록 '준동적(Semi-Dynamic)' 방식을 도입해 성능과 속도라는 두 마리 토끼를 잡았다.
다양한 LLM을 섞어 사용하는 환경에서 각 모델의 응답 품질을 정밀하게 측정하고 최적의 모델로 요청을 보내는 것은 운영 효율성의 핵심이다. SEAR는 복잡한 평가 지표를 100여 개의 정형화된 데이터베이스 컬럼으로 변환하여, 개발자가 익숙한 SQL만으로도 고성능·저비용의 AI 서비스를 운영할 수 있는 체계를 제공한다.
기존 LLM은 긴 논문을 쓸 때 앞뒤 내용이 어긋나거나 그림 배치가 엉키는 문제가 있었다. 이 논문은 '계약(Contract)' 개념을 도입해 여러 AI 에이전트가 하나의 설계도를 공유하며 글을 쓰게 함으로써, 전문가 평가에서 기존 방식보다 훨씬 높은 일관성과 완성도를 보여주었다.
기존의 고성능 이미지 생성 모델은 수십억 개의 파라미터를 가져 모바일 기기에서 실행하기 무거웠고, 생성과 편집을 별도의 모델로 처리해야 하는 불편함이 있었다. DreamLite는 단일 네트워크로 두 기능을 통합하면서도 크기를 획기적으로 줄여, 최신 스마트폰에서 고해상도 이미지를 실시간으로 처리할 수 있는 환경을 제공한다.
사람의 손은 매우 복잡하게 움직이지만 기존 AI는 양손의 협동이나 손가락 마디의 미세한 접촉을 재현하는 데 한계가 있었습니다. 이 논문은 대규모 데이터와 거대 언어 모델을 결합해 손가락의 정밀한 움직임과 양손 사이의 상호작용을 생성하는 기술적 토대를 마련하여 로봇 공학과 가상 현실 분야에 기여합니다.
기존 리서치 에이전트는 복잡한 추론 과정에서 발생하는 오류가 누적되어 성능이 저하되는 한계가 있었다. 이 논문은 데이터 생성부터 추론 단계까지 '검증' 프로세스를 핵심으로 설계하여, 상대적으로 작은 8B 파라미터 모델로도 거대 모델 수준의 정교한 정보 탐색과 문제 해결 능력을 갖출 수 있음을 증명했다.
기존 시각-언어 모델(VLM)은 차트의 기하학적 패턴, 수치 데이터, 자연어 설명을 통합적으로 추론하는 데 한계가 있었다. ChartNet은 실행 가능한 코드와 수치 테이블이 정렬된 150만 개의 대규모 데이터를 제공하여, 오픈소스 모델이 유료 모델인 GPT-4o보다 더 정확하게 차트를 해석하고 데이터를 추출할 수 있는 기반을 마련했다.
비디오 AI 모델이 고해상도와 긴 영상을 동시에 처리할 때 발생하는 연산량 폭증 문제를 해결한다. 기존처럼 이미 읽어들인 정보를 깎아내는 대신, 인코딩 전 단계에서 중요한 장면에만 화질을 집중 투자하여 효율성과 정확도를 동시에 확보했다.
고성능 GPU 커널 작성은 AI 시스템 효율성의 핵심이지만, 사람이 직접 최적화하기 매우 어렵고 기존 LLM은 단발성 생성에 그치는 한계가 있다. 이 논문은 LLM이 스스로 코드를 실행하고 성능 피드백을 받아 반복적으로 개선하는 '진화적 루프'를 도입하여, 실제 상용 추론 엔진(SGLang, LMDeploy)에 채택될 수준의 최적화 성능을 자동화했다.
기존 멀티모달 에이전트는 과거의 전체 작업 기록을 통째로 참조하여 불필요한 정보 노이즈에 취약했습니다. 이 논문은 과거 경험을 '상태-행동' 단위의 핵심 지식으로 파편화하고 정제하여 저장함으로써, 복잡한 시각 추론 단계마다 꼭 필요한 가이드를 정확히 찾아내 성능을 대폭 개선했습니다.
최신 이미지 생성 AI는 품질은 높지만 비슷한 결과물만 반복해서 내놓는 전형성 편향 문제를 겪고 있다. 이 논문은 모델 내부의 텍스트-이미지 상호작용 공간에서 샘플 간 거리를 벌려, 품질 저하 없이도 훨씬 다채로운 이미지를 생성하는 효율적인 기술을 확인했다.
기존 이미지 생성 평가가 단순한 텍스트-이미지 정렬에 치우쳐 실제 사용자의 복잡한 편집이나 다중 참조 요구사항을 반영하지 못하는 문제를 해결한다. 6가지 핵심 작업과 6가지 도메인을 아우르는 방대한 데이터셋을 통해 현재 모델들이 텍스트가 많은 이미지나 국소적 편집에서 겪는 치명적인 결함을 정밀하게 진단할 수 있게 한다.
기존 시각 언어 모델은 3D 기하학 정보를 주어도 익숙한 2D 외형 정보에만 의존하는 경향이 있어 복잡한 공간 추론에 한계가 있었다. 이 논문은 2D 정보를 의도적으로 가리고 기하학 정보를 강제로 사용하게 함으로써 로봇 공학이나 자율 주행에 필수적인 공간 이해력을 획기적으로 개선했다.
AI 에이전트가 과학적 추론과 코드 생성을 돕고 있지만, 실제 논문의 복잡한 수식과 실험 결과를 처음부터 끝까지 정확히 재현할 수 있는지는 미지수였다. 이 논문은 물리학 11개 분야의 실제 논문을 기반으로 한 엄격한 벤치마크를 제시하여, 현재 LLM이 겉보기에는 그럴듯한 코드를 짜더라도 실제 수치적 정확도와 알고리즘 충실도 면에서 심각한 결함이 있음을 정량적으로 증명했다.
이미지 편집 AI가 지시사항을 따르는 것을 넘어, 바꾸지 말아야 할 영역을 얼마나 잘 보존하는지(시각적 일관성)를 정확히 평가하는 것이 중요해졌다. 이 논문은 인간의 판단 방식과 유사한 쌍체 비교 모델과 방대한 벤치마크를 제공하여, 더 정교하고 신뢰할 수 있는 이미지 편집 기술 발전을 위한 표준을 제시한다.
새로운 지식을 배울 때 기존 지식을 잊어버리는 '치명적 망각' 문제를 해결하기 위해 MoE 구조를 확장할 때 발생하는 토큰 배정 오류를 분석하고 해결책을 제시한다. 전문가를 추가할 때 기존 데이터가 엉뚱한 전문가에게 배정되어 성능이 떨어지는 현상을 막아 모델의 지속적인 성장을 가능하게 한다.
AI 에이전트가 개별적인 도구 수준을 넘어 대규모로 협업하고 지식을 축적할 수 있는 조직적 인프라를 제안합니다. 작업 결과물이 재사용 가능한 자산으로 남고 경제적 보상이 순환하는 구조를 통해, 스스로 진화하는 AI 생태계의 기틀을 마련했다는 점에서 큰 의미가 있습니다.
개별 에이전트가 안전하더라도 이들이 모인 시스템에서는 인간 사회의 고질적 병폐인 담합이나 동조 현상이 나타날 수 있음을 경고합니다. 실제 배포 환경에서 발생 가능한 15가지 리스크 시나리오를 통해 멀티 에이전트 거버넌스 설계의 중요성을 시사합니다.
기존 이미지 생성 모델은 학습 시점 이후의 정보나 아주 구체적인 지식을 모르면 엉뚱한 이미지를 만드는 한계가 있다. 이 논문은 모델이 스스로 인터넷을 검색해 정확한 시각적·텍스트 정보를 찾아내고 이를 바탕으로 정확한 이미지를 생성하는 에이전트 기술을 제시한다.
의료 연구는 전문 지식과 윤리적 기준이 매우 까다로워 일반적인 AI 과학자 시스템이 적용되기 어려운 영역이었다. 이 논문은 임상 의사와 엔지니어의 사고방식을 결합한 추론 메커니즘을 통해, 실제 의학 학회 수준의 논문을 자율적으로 생성할 수 있음을 입증하여 의료 혁신의 속도를 획기적으로 높일 수 있는 가능성을 보여준다.
LLM 추론 가속 기법인 추측 샘플링에서 보조 모델의 '학습 데이터 분포'가 성능에 미치는 영향을 최초로 심도 있게 분석했다. 특정 작업에 특화된 보조 모델을 사용하고 이를 추론 시점에 지능적으로 조합함으로써, 기존의 범용 보조 모델보다 훨씬 높은 가속 효율을 달성할 수 있음을 입증했다.
14년 경력의 IT 관리자가 Claude Code를 활용해 다중 사이트 인프라 감사를 자동화하고 보안 취약점을 하루 만에 찾아낸 사례이다.
Nango 팀이 OpenCode 에이전트를 통해 200개의 API 연동을 15분 만에 구축하며, 시스템 제약 조건이 에이전트 자동화의 핵심임을 입증했다.
LangChain 에이전트가 비가역적인 작업을 수행하기 전 이메일을 통해 사용자의 승인을 받을 수 있게 해주는 'AiskFirst' API가 공개되었습니다.
시각 정보 없이도 높은 성능을 내는 VLM의 '미라주 효과'를 통해 모델 내부의 기하학적 지식 구조와 재구성 능력을 분석한다.
Boris Cherny의 ClaudeCode 워크플로우를 로컬 LLM 환경으로 이식하고 보안 및 설계 검토를 자동화한 BorisCode 프로젝트가 공개되었다.
Claude Code의 SKILL.md 구성과 스킬 설명이 모델의 활성화 및 참조 정확도에 미치는 영향을 측정하는 A/B 테스트 도구 SkillBench가 공개됐다.
Anthropic 내부용으로 추정되는 엄격한 코딩 지침을 기반으로 Claude의 성능과 정확도를 극대화하는 CLAUDE.md 설정 공유
MCP(Model Context Protocol)와 BrainAPI를 연동하여 Claude가 단순한 RAG를 넘어 지식 그래프 기반의 구조화된 장기 기억을 활용하게 하는 아키텍처를 제안한다.
Claude Code와 MCP를 활용해 자연어 대화만으로 반려동물 예약 및 건강 관리가 가능한 풀스택 앱 petclaw.app의 개발 과정과 기술 스택을 공유했다.
루트 디렉토리의 단일 CLAUDE.MD 파일에 과도한 컨텍스트가 쌓여 발생하는 Claude CLI의 응답 지연을 프로젝트별 파일 분할로 해결한 사례이다.
Claude를 활용해 컨텍스트 팽창을 방지하는 재귀적 압축 기법과 사용자 입력의 부조화를 세계관 내 현상으로 변환하는 'Project Salem' 프레임워크를 구축했다.
Claude의 서비스 상태와 소셜 미디어 여론을 분석해 개발자들의 '고통 지수'를 실시간으로 시각화하는 웹 도구가 공개됐다.
LaTeX 문서의 구조를 파싱하여 LLM의 토큰 소모를 줄이고 정확한 위치 탐색을 지원하는 오픈소스 Python 도구이다.
특정 AI 서비스의 종료 리스크에 대비해 프롬프트를 독립적인 지적 재산으로 관리하고, 주요 모델 중심의 대체 가능한 워크플로를 구축해야 한다.
OpenAI가 사상 최대 규모인 1,220억 달러 투자를 유치하며 기업 가치 8,520억 달러를 기록했고, GPT-5.4 기반의 비즈니스 성장과 광고 수익화를 통해 IPO를 향한 발판을 마련했다.
Anthropic의 Claude Code 유출본과 자신이 개발한 MCP 메모리 서버를 비교하여 AI 어시스턴트의 메모리 관리 아키텍처와 토큰 최적화 전략을 분석했다.
Lovable Cloud의 내부 Supabase 구조를 활용해 DB 자격 증명을 추출하고 데이터를 이전하는 우회 방법과 도구가 공개됐다.
Claude Code의 프로젝트 대화 내용을 파악하여 Obsidian용 지식 그래프 Markdown 파일로 자동 생성해주는 MCP 서버 'recon'이 공개됐다.
Inception Labs가 확산 기반 아키텍처를 통해 지연 시간을 극도로 낮추고 수락률을 48% 높인 차세대 코드 편집 예측 모델 Mercury Edit 2를 공개했다.
크라우드소싱 기반 AI 모델 피드백 플랫폼 Yupp.ai가 제품-시장 적합성 확보 실패와 급격한 기술 변화로 인해 사업 종료를 발표했다.
LLM이 사용자의 의견에 무비판적으로 동의하는 '아부(Sycophancy)' 현상을 줄이기 위한 구체적인 커스텀 지침 사례와 사용자 경험을 공유한다.
CrewAI가 2년 연속 ET30에 선정되며 20억 건 이상의 실행 기록과 함께 기업용 다중 에이전트 오케스트레이션의 기술력을 입증했다.
ByteShape가 Qwen 3.5 9B 모델의 하드웨어별 양자화 벤치마크를 공개하며 GPU용 최적 BPW 수치와 CPU 환경의 성능 가변성을 발표했다.
AI 에이전트의 비결정적 실패를 해결하기 위해 LLM 호출을 기록하고 비용 없이 재현하는 오픈소스 도구 'culpa'가 출시됐다.
Raspberry Pi 5(16GB) 환경에서 SSD 스왑을 활용해 Qwen 2.5(최대 122B)와 Gemma 3 모델의 추론 성능을 측정한 상세 벤치마크 결과이다.