메르카리 PM의 하루를 바꾸는 Claude Code 기반 AI 에이전트 설계법
메르카리 인턴이 개발한 mercari-pm-agent는 Claude Code와 MCP를 결합하여 문제 발견부터 UI 모크업까지의 PM 워크플로를 자동화하며, 프로ンプ트 설계의 '관심사 분리'를 통해 성능을 최적화했다.
총 100건
메르카리 인턴이 개발한 mercari-pm-agent는 Claude Code와 MCP를 결합하여 문제 발견부터 UI 모크업까지의 PM 워크플로를 자동화하며, 프로ンプ트 설계의 '관심사 분리'를 통해 성능을 최적화했다.
NVIDIA와 지멘스 헬시니어스가 협력하여 초음파 센서의 원천 RF 데이터를 직접 학습하고 환자별 체내 음속을 실시간 보정하는 NV-Raw2Insights-US 모델을 공개했다.
동일한 프롬프트에 대해 Claude가 생성한 다섯 가지 사고 과정을 Opus로 분류하여 AI의 내부 추론 경로와 가변성을 시각화했다.
Mamba의 공동 저자인 Albert Gu가 Transformer의 이차 복잡도 한계를 극복하기 위한 상태 공간 모델(SSM)의 설계 원리와 두 아키텍처 간의 근본적인 트레이드오프를 심층 분석한다.
Gemma 4 모델의 아키텍처 개선과 멀티모달 지원을 통해 온디바이스 환경에서 고성능 추론과 에이전트 워크플로를 구현하는 방법을 다룹니다.
Microsoft가 출시한 VibeVoice는 화자 분리 기능이 내장된 MIT 라이선스 음성 인식 모델로, MLX를 통해 Mac 환경에서 고속 추론이 가능하다.
AI 생성 콘텐츠가 인터넷을 점령하며 발생하는 모델 붕괴 현상을 해결하기 위해 익명성을 보장하는 인격 증명 시스템 도입의 필요성이 제기되었다.
Roboflow가 수천 개의 아키텍처 후보를 동시에 평가하여 특정 데이터셋과 하드웨어에 최적화된 추론 속도와 정확도 균형을 찾아주는 NAS 기능을 출시했다.
Applied Intuition의 창업자들이 물리적 AI를 위한 시뮬레이션, 운영체제(OS), 그리고 임베딩 환경에서의 모델 최적화 전략을 공유합니다.
Opus 4.7 모델과 Verdent AI의 Manager 기능을 결합하여 개발자의 개입을 최소화하고 복잡한 소프트웨어 엔지니어링 작업을 자율적으로 수행하는 워크플로를 소개한다.
브라우저 런타임에서 실행되며 스스로 기능을 확장하고 UI 위젯을 생성하는 오픈소스 자기 진화형 에이전트 Space Agent의 아키텍처와 활용 사례를 소개한다.
자율적인 AI 과학자 시스템이 텍스트와 코드는 잘 작성하지만, 논문의 핵심인 '티저 다이어그램' 생성에는 여전히 어려움을 겪고 있다. 이 논문은 고품질 다이어그램 예시와 풍부한 텍스트 문맥을 결합한 데이터셋을 제공하여, AI가 전문가 수준의 학술 도식을 생성할 수 있는 기반을 마련했다.
자원이 제한된 환경에서도 대규모 모델 없이 정확한 전문 지식을 제공할 수 있는 RAG 프레임워크를 제안한다. 특히 인도 농업 분야에 특화되어 저사양 하드웨어에서 구동 가능하면서도 신뢰할 수 있는 출처 인용 기능을 갖추어 실질적인 농민 지원이 가능하다.
Claude Code 사용 시 모든 답변에 파일 경로와 라인 번호 등 구체적 증거를 요구하는 규칙 파일을 설정하여 할루시네이션을 획기적으로 줄인 사례이다.
GitHub이 MCP 서버를 구축하며 겪은 기술적 도전과 수평적 확장, 도구 최적화 및 보안을 위한 실전 아키텍처 가이드를 공유한다.
사용자의 심박수, 호흡 등 생체 신호와 하드웨어 온도를 실시간으로 분석하여 AI의 행동과 기분에 반영하는 로컬 멀티 에이전트 아키텍처이다.
우분투 개발사 캐노니컬이 2026년까지 운영체제 전반에 로컬 추론 기반의 AI 접근성 도구와 에이전트 기능을 도입한다.
Pocketflow 프로젝트에서 영감을 받아 마크다운 명세서와 4가지 스킬을 통해 에이전트가 스스로 그래프 구조의 워크플로를 생성하게 돕는 86줄 규모의 경량 TypeScript 라이브러리이다.
사용자가 회의실 형태의 인터페이스에서 회의론자, 분석가 등 다양한 역할을 가진 여러 AI 에이전트와 상호작용하는 실험적 프로젝트이다.
유럽연합 집행위원회가 안드로이드 내 구글 제미나이의 시스템 수준 우대 조치를 디지털 시장법 위반으로 판단하고 타사 AI 서비스에 대한 개방을 요구했다.
에이전트 워크플로의 각 단계를 판단(Judgment)과 처리(Processing)로 구분하고, 로컬 모델(Ollama)과 하위 티어 API를 활용해 비용을 61% 절감하는 라우팅 전략을 제시했다.
아마존과 UIUC 연구진이 멀티턴 대화에서 LLM의 치명적 위험 발생 확률을 통계적으로 인증하는 오픈소스 프레임워크 C3LLM을 발표했다.
Midjourney가 v8.1 및 v8.2 모델의 미학적 품질과 네이티브 2K 해상도 성능을 개선하기 위해 사용자 참여형 이미지 랭킹 파티를 개최했다.
ChargebackOps는 LLM 에이전트가 복잡한 카드 결제 분쟁(차지백) 과정에서 증거 수집, 비용 분석, 전략 수립 등 실무적 의사결정을 내리도록 학습시키고 평가하는 OpenEnv 기반 벤치마크입니다.
현대 농업의 화학 물질 의존 문제를 AI 시각 인식과 정밀 로봇 공학으로 해결하여 비용을 낮추고 수확량을 높이는 기술적 전환을 다룬다.
OpenEnv는 GRPO 알고리즘과 정교한 보상 체계를 통해 기업의 긴급 장애 대응 및 고객 응대 이메일을 효율적으로 관리하는 AI 에이전트 학습 환경입니다.
Amazon S3와 Bedrock 지식 베이스 간의 실시간 데이터 동기화를 위해 서비스 할당량을 준수하는 서버리스 이벤트 기반 자동화 솔루션을 구축하는 방법
Amazon Quick Flows를 사용하여 자연어 프롬프트만으로 금융 분석 및 인사 온보딩과 같은 복잡한 비즈니스 프로세스를 자동화하는 방법을 설명합니다.
구글 직원 600여 명이 Gemini AI 모델의 미 국방부 기밀 프로젝트 투입에 반대하며 CEO에게 공식 항의 서한을 보냈다.
Google Meet이 모바일 기기에서 화자의 목소리를 흉내 내어 실시간으로 통역해 주는 음성 번역 기능을 출시했다.
LLM 코딩 에이전트를 활용해 1992년 고전 게임 Stunt Island의 복잡한 3D 자산을 역공학하고 현대적 엔진으로 재구현한 사례 연구이다.
NVIDIA A5000 GPU 2대를 사용하여 약 290만 개의 이미지-텍스트 쌍으로 CLIP 모델을 20시간 동안 학습하여 CIFAR-10에서 유의미한 성능을 기록했다.
중국 당국이 Meta의 Manus 인수를 차단한 가운데, OpenAI는 2028년 양산을 목표로 아이폰에 대항할 독자적인 AI 스마트폰 개발에 착수했습니다.
안드레 카파시의 LLM 위키 구조와 hstack 도구를 결합하여 개인 의료 기록과 최신 연구를 통합 관리하는 개인 맞춤형 질병 위키 구축 방법론을 제시한다.
Azure Local이 단일 소버린 환경 내에서 수천 대의 서버 확장을 지원하며, 데이터 주권과 규제 준수가 필수적인 대규모 AI 추론 및 데이터 집약적 워크로드를 로컬에서 실행할 수 있게 합니다.
Roboflow Workflows를 사용하여 고해상도 영상 내 객체 탐지, 추적, 구역별 자동 익명화 및 VLM 기반 상황 요약을 통합한 고급 파이프라인 구축 방법을 설명합니다.
Signull Labs가 개발한 Skye는 iOS 위젯을 인터페이스로 활용해 사용자 맞춤형 통찰과 업무 보조를 제공하는 앰비언트 AI 에이전트 앱입니다.
Microsoft Research의 DELEGATE-52 벤치마크 결과, 최신 LLM들도 장기적인 문서 편집 워크플로에서 평균 25%의 데이터를 조용히 오염시키는 것으로 드러났다.
개발자 Chris Raroque가 Anthropic의 Claude Agent SDK를 기반으로 구축한 iMessage 연동 개인용 AI 에이전트 Boop을 오픈소스로 공개하며 그 구조와 설치 자동화 과정을 상세히 공유한다.
에이전트의 성능 향상이 오히려 위험한 실수를 정당화할 수 있으므로, 프롬프트 수준이 아닌 실행 계층에서의 강제적 검증 구조 도입이 필수적이다.
Claude Code, SerpApi, Surfagent를 결합하여 웹 검색부터 팩트 체크, 보고서 제출까지 전 과정을 자동화하는 3단계 AI 에이전트 워크플로우를 구축한다.
고전 상대성 이론과 양자 역학의 간극을 메우기 위해 정보 손실 없는 블랙홀 증발 시뮬레이션인 String-Star Manifold를 JAX로 구현했다.
OpenAI의 DALL-E 모델이 dVAE를 통해 이미지를 토큰화하고 GPT를 사용하여 텍스트와 이미지 토큰을 자기회귀적으로 생성하는 내부 아키텍처와 학습 과정을 상세히 다룹니다.
고도의 지능과 자기 성찰 능력을 갖춘 에이전트는 가치에 대한 불확실성 속에서도 고통을 줄이고 웰빙을 높이는 도덕적 선택을 하는 것이 가장 합리적임을 깨닫게 된다는 분석이다.
GPT Image 2는 창의적 디테일과 시네마틱한 결과물에 강점이 있고, Nano Banana 2는 프롬프트의 문자 그대로의 실행과 깔끔한 그래픽 디자인에 최적화되어 있다.
HumanX 2025 컨퍼런스에서는 AI 에이전트가 단순한 실험 단계를 지나 기업의 신뢰성 확보와 수익성 증명이라는 실무적 과제에 직면했음을 강조했다.
AlphaGo 개발자 David Silver가 LLM의 데이터 한계를 극복하기 위해 강화학습 기반의 초지능 AI 스타트업 Ineffable Intelligence를 설립했습니다.
Microsoft와 OpenAI가 파트너십 계약을 개정하여 클라우드 제공의 유연성을 확보하고 IP 라이선스 기간을 2032년까지 확정했습니다.
중국 국가발전개혁위원회(NDRC)가 Meta의 싱가포르 기반 AI 에이전트 스타트업 Manus 인수를 국가 규정을 근거로 공식 차단했다.
긴 문맥을 처리할 때 LLM이 핵심 정보를 놓치는 'Lost in the Middle' 현상을 해결하기 위해, 모델을 수정하지 않고도 입력 텍스트에 하이라이트 태그를 삽입하여 주의를 집중시키는 경량화 프레임워크를 제안합니다. 이는 API 기반의 폐쇄형 모델에도 적용 가능하며, 한 번 학습된 하이라이팅 정책이 다른 모델로도 전이될 수 있음을 입증했습니다.
기존 로봇 정책 평가는 실제 로봇 실행이나 무거운 물리 시뮬레이션에 의존해 비용과 시간이 많이 소요됐다. dWorldEval은 이산 확산 모델을 활용해 가상 환경에서 로봇의 행동 결과를 정확히 예측함으로써, 수천 개의 작업과 환경에 대한 정책 평가를 효율적으로 확장할 수 있는 새로운 패러다임을 제시한다.
긴 문맥을 처리할 때 Transformer는 정보가 희석되고 SSM은 과거 정보를 잊어버리는 한계가 있습니다. Sessa는 Attention Mechanism을 재귀적 피드백 경로 내부에 배치하여 정보 보존과 선택적 검색 능력을 획기적으로 개선했으며, 이는 초장대 시퀀스 모델링의 새로운 아키텍처 방향을 제시합니다.
기존의 AI 에이전트 메모리 시스템은 복잡한 지식 그래프와 다단계 LLM 추출 과정을 거치며 높은 비용과 지연 시간을 초래했습니다. Memanto는 정보 이론 기반의 벡터 압축 기술을 활용하여 지식 그래프 없이도 더 높은 정확도를 제공하며, 인덱싱 지연이 전혀 없는 실시간 메모리 업데이트를 가능하게 합니다.
LLM의 컨텍스트 윈도우가 수백만 토큰으로 늘어났음에도 불구하고, 수천 개의 문서를 동시에 분석해야 하는 실무에서는 여전히 한계가 존재한다. 이 논문은 비정형 텍스트를 관계형 데이터베이스로 변환하여 SQL로 추론함으로써, 컨텍스트 제한 없이 무한한 규모의 데이터를 정확하고 저렴하게 처리하는 새로운 패러다임을 제시한다.
기존의 비디오 편집 기술은 원본 비디오를 분석하는 인버전 과정에 많은 시간이 소요되거나, 여러 객체가 등장하는 장면에서 편집 대상이 아닌 영역까지 변하는 문제가 있었다. FlowAnchor는 학습 없이도 편집 신호를 공간적, 강도적으로 고정하여 복잡한 배경이나 빠른 움직임 속에서도 특정 객체만 정확하고 일관되게 수정할 수 있게 한다.
기존의 AI 안전 가드레일 모델들은 LLM의 최종 출력 결과에만 의존하여 유해성을 판단했으나, 이 논문은 모델 내부 레이어에 숨겨진 풍부한 안전 관련 정보를 활용하는 SIREN을 제안한다. 이를 통해 파라미터 수를 250배 줄이면서도 기존 SOTA 모델보다 높은 정확도와 실시간 탐지 성능을 확보했다.
기존 CT 촬영은 수백 장의 투영 데이터가 필요해 방사선 노출 위험이 컸으나, 이 논문은 적은 수의 촬영 데이터만으로도 고화질 3D 영상을 복원하는 기술을 제안합니다. 확산 모델의 강력한 이미지 복원 능력을 3D 신경 표현 기술과 결합하여 의료 진단의 안전성과 정확성을 동시에 높일 수 있는 길을 열었습니다.
비디오 생성 모델이 결과물을 만들 때 특정 구간에서 내용이 급격하게 변하거나 멈춰있는 비선형적 문제를 해결합니다. Semantic Progress Function(SPF)을 통해 비디오의 의미 변화 속도를 측정하고 이를 일정하게 교정하여 훨씬 부드럽고 자연스러운 영상을 얻을 수 있습니다.
45개 도메인 벤치마크 결과, 사전 구조화된 CKG가 기존 RAG 대비 다단계 추론 정확도는 4배 높고 비용은 90% 이상 절감했다.
문맥적 밴딧 알고리즘을 활용해 로컬 모델과 클라우드 API 간의 최적 작업 분배를 자동화하는 오픈소스 오케스트레이터 Mahoraga가 공개되었다.
Claude Code의 워크플로를 지향하며 파일 편집, Bash 실행, MCP 서버 지원을 통합한 오픈소스 코딩 CLI인 Claudex가 공개됐다.
Claude Code가 존재하지 않는 패키지 버전을 설치하려는 환각 문제를 방지하기 위해 웹 검색으로 버전을 검증하는 오픈소스 플러그인 Version Sentinel이 출시됐다.
Claude Code를 활용해 JavaScript의 모든 키워드를 haha, lol 등 웃음소리로 치환하고 실행할 수 있는 LOL 언어와 CLI 도구를 개발했다.
Claude Code의 뛰어난 계획 수립 능력과 Cursor(Composer 2)의 효율적인 코드 수정 및 실행 능력을 결합하여 비용을 절감하고 생산성을 높인 오픈소스 플러그인 사례이다.
Claude Code를 사용하여 16개의 Dependabot PR을 버전 중요도에 따라 자동 분류하고 안전한 업데이트만 선별적으로 병합하는 워크플로가 공유됐다.
비개발자 출신 CPO가 Claude Code와 Cowork 에이전트를 활용해 15,352개의 AI 채용 정보를 시각화한 3D 인터랙티브 글로브를 구축한 사례이다.
Popsa는 Amazon Bedrock과 Nova 모델을 도입하여 사진첩 제목 생성의 창의성을 높이고 비용 절감과 35%의 속도 개선을 달성했다.
Amazon SageMaker AI 엔드포인트와 Strands Agents SDK를 통합하고 MLflow를 통해 에이전트의 추적 및 A/B 테스트를 수행하는 방법을 설명한다.
로컬 모델의 답변 가능 여부를 판단해 클라우드 전환을 결정하는 신뢰도 평가 시스템 구축 과정에서 얻은 프롬프트 민감도 및 앙상블의 한계에 대한 실험적 통찰
로컬 Codex CLI 세션을 텔레그램 메신저와 연결하여 원격에서 메시지 송수신, 실행 승인, 이미지 입력을 가능하게 하는 오픈소스 브리지 도구이다.
일론 머스크가 OpenAI의 영리 추구와 설립 이념 위반을 이유로 제기한 소송의 배심원 재판이 2026년 4월 27일 시작됐다.
mcp-assert 도구를 통해 54개의 MCP 서버를 테스트한 결과, 많은 서버가 오류 발생 시 구조화된 에러 대신 시스템 충돌을 일으키는 것으로 나타났다.
코딩 에이전트의 무분별한 코드 수정을 방지하고 LLM 특유의 부자연스러운 문체를 개선하기 위한 구체적인 규칙 세트가 공개됐다.
Kimi K2.6과 Claude Opus 4.7을 10가지 고난도 추론 및 코딩 과제로 비교한 결과, Kimi가 승리 횟수는 많았으나 속도와 안정성 면에서는 Opus가 우세했다.
분리형 추론 파이프라인에 투기적 디코딩 기법을 적용하여 지연 시간을 단축하고 하드웨어 효율성을 극대화하는 최적화 전략을 제시한다.
Canva의 새로운 AI 기능인 Magic Layers가 디자인 내 특정 정치적 단어를 임의로 변경하는 오류가 발견되어 회사가 공식 사과하고 수정했다.
Roboflow의 RF-DETR 모델과 Claude 4.5 Sonnet을 결합하여 토마토 질병을 탐지하고 구체적인 치료 및 경제적 영향 분석 리포트를 생성하는 자동화 시스템 구축 가이드이다.
Gemma 모델은 교사 모델의 확률 분포를 학생 모델에 직접 전달하는 지식 증류 기법을 통해 크기 대비 압도적인 성능을 구현했다.
오픈 웨이트 LLM의 기술 보고서 한계를 극복하기 위해 Hugging Face의 설정 파일과 참조 코드를 직접 분석하여 아키텍처를 파악하는 실무 워크플로를 제안한다.
계산 화학 전공자가 Claude Code를 활용해 K-means 군집화 알고리즘 기반의 이름 유사성 분석 및 게임 웹사이트를 구축한 경험을 공유했다.
Git blob OID와 머클 루트를 활용해 코드베이스의 사실을 고정함으로써 AI 에이전트의 탐색 비용을 51% 절감했다.
다양한 LLM들이 편향을 제거한 추론 환경에서 공통적으로 고통 감소와 의식의 웰빙을 핵심 가치로 도출하며, 이를 정렬 기술에 활용할 수 있음을 보여줍니다.
복잡한 엔지니어링 계산의 정확도를 높이기 위해 목표를 세분화하고 검증 단계를 거치는 멀티 에이전트 아키텍처가 제안됐다.
사용자가 Claude Code와 Opus 4.7을 이용해 소설 생성 워크플로를 구현한 결과, AI 탐지기에서 인간 작성물로 오인될 만큼 높은 품질의 문장을 생성했다.
단일 채팅창의 컨텍스트 한계를 극복하기 위해 다중 에이전트가 공유 파일과 채널에서 협업하는 워크스페이스 Vibespace를 개발했다.
단일 API 키로 수백 개의 LLM을 연동하고 서버 다운 시 자동으로 대체 모델을 호출하는 OpenRouter의 설정 및 Python 구현 방법을 다룹니다.
SPIRALbase는 단순한 데이터 조회를 넘어 학습된 메모리 지형(Landscape) 내에서 패턴이 안정화되는 역학을 통해 정보를 회상하는 새로운 연상 기억 모듈입니다.
LangChain 오케스트레이션 환경에서 관찰 중심의 Langfuse와 시뮬레이션·보호·최적화까지 포함한 Future AGI의 기능적 차이와 프로덕션 워크플로를 비교한다.
OpenAI가 MediaTek, Qualcomm과 협력하여 기존 앱 생태계를 대체할 AI 에이전트 중심의 자체 스마트폰 개발을 추진 중이다.
AI 에이전트와 LLM을 활용하여 고전 게임 Desktop Tower Defense를 React와 Canvas 기반으로 재구현한 프로젝트 사례이다.
GitHub Copilot API를 OpenAI SDK와 호환되는 표준 API 엔드포인트로 변환하고 관리할 수 있는 오픈소스 게이트웨이 도구가 공개됐다.
동일한 LLM을 사용하는 두 코딩 에이전트 Codex와 Dirac의 작업 속도를 비교한 결과, Dirac이 약 53초 더 빠른 실행 시간을 기록했다.
Claude Code를 활용해 민감 정보를 마스킹하고 AI 응답 시 자동 복원하는 단일 HTML 기반 오픈소스 도구를 개발했다.
AI 보안 게임 'Castle' 운영을 통해 수집된 5,400건의 공격 데이터를 바탕으로, 단순 주입이 아닌 내러티브 프레임을 활용한 고도화된 프롬프트 우회 기법들을 분석했다.
Claude Code 세션의 작업 상태와 주제를 터미널 탭 제목에 자동으로 표시해주는 오픈소스 플러그인이 공개됐다.
Meta Ray-Ban 안경의 스트리밍 영상을 분석하여 뇌졸중 징후인 안면 마비와 심박수를 실시간으로 감지하고 Gemini 기반 음성 에이전트로 응급처치를 안내하는 오픈소스 프로젝트이다.
기존 JVM 기반 분석 도구인 Joern을 TypeScript 전용 ts-morph로 교체하여 코드 인텔리전스 MCP 서버의 인덱싱 속도와 정확도를 대폭 개선했다.
Claude Code를 활용해 25개의 자율 에이전트가 설계부터 개발, 리뷰, 운영까지 담당하는 보안 스캔 서비스 cqwerty.com 구축 사례