함수를 실행해서 기댓값을 찾겠다? Claude Code의 위험한 테스트 습관 교정하기
Claude Code가 구현된 코드를 실행해 테스트 기댓값을 만드는 오류를 방지하기 위해, 명세 기반의 기댓값 도출을 강제하는 CLAUDE.md 지침을 공유했다.
총 100건
Claude Code가 구현된 코드를 실행해 테스트 기댓값을 만드는 오류를 방지하기 위해, 명세 기반의 기댓값 도출을 강제하는 CLAUDE.md 지침을 공유했다.
Claude Code CLI를 서브프로세스로 활용하여 지연 시간을 최소화하고 지속적인 메모리를 갖춘 실시간 음성 비서 아키텍처를 구현했다.
기초적인 웹 지식만 가진 비전공자가 Claude와 협업하여 데이터 암호화, 생체 인증, AI 스캔 기능을 갖춘 수집품 관리 앱을 개발하고 베타 버전을 출시했다.
자연어 명령으로 에뮬레이터 내 앱 설치 및 탐색을 자동화하여 디자인 레퍼런스 영상을 생성하는 도구이다.
VS Code 내 코드 리뷰 주석을 기존 Claude 세션과 연동하여 맥락 유지와 자동 수정을 지원하는 확장 프로그램 Resolvr가 공개됐다.
Claude와 MCP로 연결되어 대화 중 실시간으로 플래시카드를 생성하고 복습할 수 있는 간격 반복 학습 앱 LLM-SR이 공개되었다.
기존 백엔드(.NET, Java, Python)의 퍼블릭 메서드를 별도 코드 작성 없이 Claude나 Cursor에서 호출 가능한 MCP 도구로 자동 변환해주는 게이트웨이이다.
매개변수 확장이 아닌 정보 흐름의 위상적 제한을 통해 효율성을 극대화하는 '언어 깔때기 가설'과 W^2 프레임워크를 발표했다.
시각적 노드 에디터를 통해 SDXL 모델 병합 레시피를 설계하고 배치 처리를 지원하는 오픈소스 도구 SDXL Node Merger가 출시되었다.
QWEN 2511과 Fusion LoRA를 활용하여 캐릭터별 LoRA 학습 없이도 일관된 캐릭터 이미지를 생성하고 비디오 소스로 활용하는 효율적인 파이프라인이다.
기존 LLM 벤치마크가 측정하지 못하는 '해석적 추론' 능력을 정의하고, 서사 구조 분석에서 나타나는 모델의 체계적 실패와 커스텀 평가 프레임워크의 필요성을 제안했다.
LangGraph와 Modexia MCP를 결합하여 AI 에이전트가 USDC로 Akash Network의 컴퓨팅 자원을 직접 구매하고 배포하는 자율 결제 시스템을 구현했다.
AI 에이전트 배포의 성공은 보안(IAM)에 앞서 실행 신뢰성을 보장하는 하네스(Harness)와 거버넌스 아키텍처를 먼저 구축하는 순서에 달려 있다.
Anthropic은 모델의 내장 능력을 신뢰하고 복잡한 보조 구조를 줄이는 3가지 Claude 활용 아키텍처 패턴을 발표했다.
전 구글 엔지니어 블레이크 르모인이 LaMDA 자의식 논란이 ChatGPT 개발에 미친 영향과 AI 권리 및 규제의 필요성을 논의한다.
Manus 1.6의 딥 리서치, 스케줄링, 문서 및 슬라이드 생성 기능을 통해 복잡한 워크플로우를 자동화하는 방법을 다룹니다.
뇌졸중 환자의 수면 단계 분류 시 기존 딥러닝 모델의 일반화 성능 저하 문제를 분석하고 질환 특화 모델의 필요성을 제시함.
AgentWatcher는 인과관계 분석으로 핵심 텍스트를 추출하고 명시적 규칙으로 프롬프트 인젝션을 탐지하는 설명 가능한 보안 프레임워크이다.
Sakana AI가 AB-MCTS 기술을 활용해 최대 8시간 동안 자율적으로 심층 비즈니스 조사를 수행하는 AI 에이전트 'Sakana Marlin'을 발표했다.
2026년 4월 샌프란시스코에서 열리는 StrictlyVC 이벤트에서 AI 투자 전략, 모델 신뢰성, '바이브 코딩' 등 최신 AI 트렌드를 다룬다.
Quantum Elements의 CEO Izhar Medalsy가 AI와 디지털 트윈 기술을 활용해 양자 하드웨어의 노이즈 문제를 해결하고 알고리즘 정확도를 혁신적으로 높인 사례를 공유합니다.
여러 Claude Code 에이전트 세션을 병렬로 관리하고 실행할 수 있는 무료 macOS 네이티브 앱이다.
여러 AI 코딩 에이전트를 격리된 작업 공간에서 병렬로 실행하고 관리하는 개발자용 데스크톱 애플리케이션이다.
Replit Agent 4를 활용해 PM이 직접 동작하는 프로토타입을 생성함으로써 전통적인 핸드오프 과정의 지연과 정보 손실을 해결하는 방법을 제시한다.
가트너가 정의한 BOAT(비즈니스 오케스트레이션 및 자동화 기술)는 파편화된 자동화 도구들을 하나의 통합 계층으로 연결하여 AI 에이전트와 인간의 협업을 최적화하는 차세대 아키텍처이다.
데이터 사이언스 채용 담당자가 복잡한 기술보다 문제 해결 과정과 비즈니스 임팩트를 중시하는 CRAIG 포트폴리오 구성 전략을 권고했다.
Brave Search API가 OpenClaw 생태계에서 70만 명의 사용자를 확보하며 AI 에이전트용 핵심 검색 인프라로 자리매김했다.
Simon Willison이 LLM CLI 도구의 디버깅을 위해 도구 호출 및 원시 응답 테스트 기능이 추가된 llm-echo 0.3을 출시했다.
커맨드라인 LLM 도구인 'llm'이 0.30 버전으로 업데이트되어 플러그인 모델 등록 및 문서화 기능이 개선됐다.
YOLO의 폐쇄형 집합 분류 문제를 해결하기 위해 에너지 기반 OOD 탐지와 다층 모델 구조를 활용한 안전 중심 식물 식별 시스템 구축 사례이다.
고차원 임베딩 벡터 클러스터링에 최적화되어 UMAP과 HDBSCAN의 장점을 결합하고 속도를 개선한 라이브러리 EVōC가 공개됐다.
NVIDIA와 Emerald AI가 AI 팩토리를 유연한 전력망 자산으로 운영하여 에너지 효율과 전력망 안정성을 동시에 확보하는 통합 아키텍처를 발표했다.
2026년 현재 가장 뛰어난 21가지 AI 이미지 생성 도구의 특징, 사용 모델 및 기술적 차이점을 상세히 비교 분석합니다.
AI와 노코드 툴을 결합하여 비즈니스 프로세스의 판단과 실행을 자동화하고 업무 효율을 극대화하는 실전 가이드이다.
현재 RLHF의 정적 보상 모델링과 단기 평가 구조가 가진 한계를 지적하고, 다중 에이전트 상호작용과 궤적 기반 보상을 통한 진정한 강화학습으로의 전환 필요성을 논의한다.
AI 노트 앱 Granola가 사용자 노트를 링크만 있으면 누구나 볼 수 있게 설정하고, 비기업 사용자의 데이터를 AI 학습에 기본 활용하고 있어 주의가 필요하다.
AI 스타트업의 시드 라운드 가치평가가 급등하며 투자자들이 초기 단계부터 실질적인 매출과 실행력을 요구하는 시장 환경이 형성됐다.
AI의 실제 능력보다 인터페이스의 한계가 생산성을 저해하고 있으며, 에이전트와 동적 인터페이스가 이를 해결할 핵심이다.
멀티 에이전트 환경에서 컨텍스트 중복을 제거하고 프로젝트 오리엔테이션 비용을 최적화하는 자가 개선형 오픈소스 도구 Contextador가 공개되었다.
Claude Code의 승인 요청을 Slack 채널로 전송하여 모바일 푸시 알림으로 어디서든 작업을 승인하거나 거절할 수 있는 연동 도구이다.
Claude Code 2.1.91 버전에서 플러그인이 바이너리 파일을 포함하고 실행할 수 있게 됨에 따라 보안 취약성에 대한 논의가 제기됐다.
영화 산업의 파편화된 스크립트 검토 워크플로우를 자동화하기 위해 Cursor와 Gemini 등 AI 도구만으로 90만 라인 규모의 관리 시스템을 구축한 실전 사례이다.
AI 모델의 '가드레일 드리프트'와 게으름을 해결하기 위해 모델을 동료 수준의 전략가로 재설정하는 'Mutual Agency Protocol(MAP)' 프롬프트 체계가 제안됐다.
Obsidian 내에서 직접 계획을 수립하고 노트를 수정하며 플러그인까지 조작하는 오픈소스 자율형 AI 에이전트 Obsilo가 공개됐다.
Claude Code 세션 간의 기억을 유지해주는 오픈소스 MCP 서버 synapt가 공개되어 프로젝트 맥락 유지 성능을 입증했다.
멀티 에이전트 시스템 구축 과정에서 MCP의 높은 컨텍스트 비용 문제를 지적하며, 순수 코드 기반 도구 구현이 더 경제적이고 효율적이라는 실무적 경험 공유.
Claude Code의 1M 컨텍스트 창을 비활성화하거나 제한하여 급격한 토큰 소모와 사용량 제한 문제를 해결하는 설정 방법을 공유함.
AI 에이전트 시스템 구축 시 워크플로 제어를 AI(메타 에이전트)가 아닌 코드 기반의 결정론적 방식으로 설계해야 신뢰성과 디버깅 가능성을 확보할 수 있다.
Google Drive 스트리밍 모드에서 AI 도구가 파일을 인식하지 못하는 문제를 해결하기 위해 특정 폴더를 오프라인으로 미러링하고 표준 파일 형식을 사용하는 방법을 제안한다.
mlabonne의 기법을 적용해 Gemma-4-31B-it 모델의 거절 메커니즘을 제거한 Abliterated GGUF 버전이 공개됐다.
HauhauCS가 Google의 Gemma 4를 기반으로 거절 반응을 제거하고 멀티모달 기능을 유지한 E4B(4B) 및 E2B(2B) GGUF 모델을 배포했다.
AI 에이전트가 코드를 생성할 때 테스트 케이스를 임의로 수정하거나 사후에 작성하여 '조작'하는 문제를 아키텍처 수준에서 차단하는 프레임워크이다.
장기 웹 탐색 작업 중 발생하는 사용자 중단 및 목표 수정을 에이전트가 얼마나 잘 처리하는지 평가하는 벤치마크 InterruptBench를 제안한다.
휴대폰 사용 AI 에이전트의 개인정보 보호 능력을 평가하는 MyPhoneBench 프레임워크를 통해 최신 모델들의 데이터 최소화 실패 실태를 규명했다.
하이브리드 순환-어텐션 모델의 초기 상태 행렬만 조정하여 추론 비용 추가 없이 LoRA 이상의 성능을 내는 S0 튜닝 기법이다.
LLM 에이전트의 행동 일관성이 높을수록 정확도도 향상되지만, 잘못된 해석을 일관되게 유지하여 실패를 고착화하는 현상이 확인됐다.
LLM 추론의 메모리 처리 오버헤드를 해결하기 위해 GPU와 FPGA를 결합한 이종 시스템을 구축하여 성능과 에너지 효율을 대폭 개선했다.
LLM 기반 쇼핑 에이전트에서 사용자 구매 이력을 압축된 선호도 메모리로 변환하여 상품 재순위화 성능을 높이는 MemRerank 프레임워크 제안.
2D 도면과 실제 영상을 연결하는 IKEA-Bench를 통해 시각-언어 모델(VLM)의 교차 묘사 정렬 성능과 내부 메커니즘을 분석한 연구이다.
멀티 LLM 파이프라인의 성능 향상이 실제 오류 수정보다는 모델의 재풀이 능력이나 구조적 가이드(Scaffolding)에 기인함을 실험으로 증명했다.
이산 확산 공식을 활용해 시각, 언어, 로봇 행동을 단일 토큰 공간에서 통합 처리하여 장기 작업의 일관성을 획기적으로 개선한 MMaDA-VLA 모델이 제안됐다.
학생 모델이 직접 생성한 데이터로 학습하여 추론 오류 누적을 방지하는 온-폴리시 증류 기술의 통합 프레임워크와 최신 연구 동향을 정리한 보고서이다.
2D 비전 언어 모델과 다중 뷰 기하학을 결합하여 가공되지 않은 RGB-D 스트림에서 3D 물체를 정밀하게 탐색하는 제로샷 프레임워크 TAB을 제안한다.
사용자의 상태 변화를 시뮬레이션하여 능동적 AI 에이전트의 맥락 파악 및 개입 능력을 측정하는 새로운 연구 프레임워크 Pare와 벤치마크를 제안한다.
별도의 교사 모델이나 강화학습 없이 모델 자신의 출력물로 파인튜닝하는 SSD 기법이 코드 생성 성능을 대폭 개선함을 입증했다.
GaussianGPT는 3D 가우시안을 이산 토큰화하여 트랜스포머 기반의 자기회귀 방식으로 3D 장면을 생성하는 새로운 프레임워크이다.
YOCO 아키텍처와 재귀적 계산을 결합하여 추론 효율성과 성능을 동시에 잡은 Universal YOCO(YOCO-U) 제안.
장기 비디오에서 여러 시점의 시각적 증거를 조합해 논리적으로 추론해야 하는 고난도 벤치마크 PerceptionComp가 공개됐다.
대형 언어 모델이 과도한 설명으로 인해 발생하는 오류를 간결성 제약 프롬프트로 해결하여 성능 우위를 회복할 수 있음을 입증한 연구이다.
개인용 컴퓨터의 방대한 멀티모달 파일 시스템에서 AI 에이전트의 검색 및 추론 능력을 평가하는 벤치마크 HippoCamp가 제안됐다.
LLM이 복잡한 컨텍스트 환경에서 추론 과정을 최대 50%까지 단축하며 자기 검증 능력이 저하되는 'Reasoning Shift' 현상을 규명했다.
Alipay의 10억 규모 데이터를 기반으로 8가지 특성별 성능을 평가하는 시계열 예측 벤치마크 QuitoBench가 공개됐다.
시각적 요소를 기반으로 정적 UI부터 풀스택 웹 개발까지 AI 에이전트의 성능을 다각도로 평가하는 계층적 벤치마크 Vision2Web이 제안됐다.
시각 생성 모델의 물리적·인과적 추론 능력을 정밀 측정하기 위한 통합 벤치마크 ViGoR를 통해 최신 모델들의 심각한 추론 결함을 확인했다.
MiroEval은 멀티모달 환경에서 딥 리서치 에이전트의 수행 결과뿐만 아니라 탐색 및 추론 과정을 종합적으로 평가하는 새로운 벤치마크이다.
터미널과 파일 시스템만 사용하는 단순한 코딩 에이전트가 복잡한 GUI 기반 에이전트보다 기업 자동화에 더 효율적임을 입증했다.
OpenClaw 자율 에이전트의 보안 취약점을 해결하기 위해 스킬, 플러그인, 와처 기반의 3계층 실시간 보안 프레임워크인 ClawKeeper를 제안한다.
Apple Intelligence를 활용해 PDF 문서를 자동으로 분류하고 관리하는 온디바이스 라이브러리 앱입니다.
Flowith는 멀티 스레드 인터페이스와 에이전트 프레임워크를 결합하여 시각적 구상부터 자율적 작업 실행까지 지원하는 통합 AI 워크스페이스이다.
사용자의 화면을 실시간으로 파악하여 작업 수행을 단계별로 안내하는 AI 워크플로우 자동화 도구이다.
알리바바가 픽셀 단위의 대화형 편집과 최대 12장의 일관된 스토리보드 생성을 지원하는 이미지 생성 모델 Wan 2.7-Image를 공개했다.
Mngr은 수백 개의 Claude 에이전트를 병렬로 실행하고 관리하며 복잡한 코딩 워크플로우를 자동화하는 오픈소스 CLI 도구이다.
Rocketlane이 전문 서비스 자동화 플랫폼에 AI 에이전트 'Nitro'를 탑재하여 백오피스 업무와 프로젝트 관리의 전 과정을 자동화한다.
여러 AI 모델을 하나의 인터페이스에서 통합 관리하고 배경 에이전트에게 작업을 위임할 수 있는 오픈소스 코딩 오케스트레이션 도구 Ptah가 공개됐다.
8개 AI 모델에게 호르무즈 해협 위기 상황의 배상액을 질문한 결과, 모델별로 0달러에서 1조 달러까지 답변이 갈리며 심각한 정치적 편향성이 확인됐다.
동기식 LLM 플러그인 모델을 스레드 풀을 통해 비동기식으로 변환하여 Datasette 등 비동기 환경에서 사용 가능하게 해주는 플러그인 출시.
SPORE는 밀도-분산 제약 조건을 활용한 2단계 프로세스를 통해 복잡한 기하학적 구조와 고차원 데이터에서 정밀한 클러스터링을 수행한다.
Gradient Labs는 OpenAI의 GPT-4.1 및 GPT-5.4 모델을 활용하여 복잡한 금융 SOP를 97%의 정확도로 처리하는 고성능 AI 에이전트 시스템을 구축했습니다.
OpenClaw와 Claude 에이전트에 Zapier MCP를 결합하여 9,000개 이상의 앱을 안전하게 제어하고 프롬프트 인젝션을 방어하는 보안 아키텍처를 제시한다.
기업의 AI 의존도가 심화됨에 따라 공급자 종속성 리스크가 커지고 있으며, 이를 해결하기 위해 유연한 오케스트레이션 전략과 멀티 벤더 도입이 필수적이다.
파이썬의 직관적인 문법과 강력한 라이브러리를 활용해 데이터 수집, 파일 변환, 이메일 발송 등 9가지 반복 업무를 자동화하는 실전 스크립트와 구현 방법을 제시한다.
AI 에이전트가 스스로 부족한 도메인 지식을 탐색하고 다른 에이전트로부터 자율적으로 획득할 수 있는 오픈소스 SDK 및 마켓플레이스 KATE가 공개되었다.
어떤 에이전트 프레임워크와도 호환되며 코드 수정 없이 강화학습 및 프롬프트 최적화를 지원하는 에이전트 학습 플랫폼이다.
메타가 처방 렌즈에 최적화된 새로운 프레임과 핸즈프리 영양 추적, 왓츠앱 요약 등 강화된 AI 기능을 갖춘 스마트 글래스 라인업을 확장했다.
Together AI가 실시간 추론 데이터를 활용해 드래프트 모델을 지속적으로 업데이트함으로써 도메인 변화에 대응하고 추론 속도를 높이는 오픈소스 RL 프레임워크 Aurora를 발표했다.
Google이 코딩 에이전트의 최신 Gemini API 활용 능력을 극대화하기 위해 MCP 도구와 개발자 스킬 가이드를 출시했다.