나홀로 월 1,000만 뷰 달성, Claude Code로 구축한 AI 콘텐츠 공장 풀스택 워크플로
Claude Code의 커스텀 스킬과 자동화 도구를 결합하여 리서치부터 다채널 배포까지 콘텐츠 제작 전 과정을 효율화하고 월 1,000만 뷰를 달성한 실전 파이프라인을 소개한다.
총 100건
Claude Code의 커스텀 스킬과 자동화 도구를 결합하여 리서치부터 다채널 배포까지 콘텐츠 제작 전 과정을 효율화하고 월 1,000만 뷰를 달성한 실전 파이프라인을 소개한다.
LLM을 감싸는 코드인 하네스를 AI가 직접 작성하고 최적화하여 모델 성능을 극대화하는 Meta-Harness 프레임워크를 소개합니다.
DINOv2의 강력한 특징 추출 능력을 활용하여 별도의 학습 과정 없이 소수의 정상 이미지만으로 산업 현장의 결함을 정확히 찾아내는 퓨샷 이상 탐지 프레임워크이다.
Anthropic의 Claude Code 업데이트와 Qwen3.5-Omni 출시, 그리고 로컬 에이전트 생태계와 하네스 공학의 급격한 성장을 다룬 주간 AI 뉴스 요약이다.
gTabs는 LLM을 사용하여 크롬 탭을 지능적으로 분석하고 주제별 색상 그룹으로 자동 분류해주는 오픈소스 익스텐션이다.
AI 게이트웨이 LiteLLM이 보안 사고와 인증 조작 의혹이 제기된 Delve를 떠나 Vanta를 통한 보안 재인증과 독립 감사 실시를 발표했다.
ReAct 방식 대신 LLM이 한 번에 실행 가능한 코드를 생성하는 Code-Act 방식을 도입하여 토큰 비용을 50% 절감하고 안정성을 높인 사례이다.
사용자의 하드웨어를 자동 감지하여 llama.cpp 설정을 최적화함으로써 기본 설정 대비 최대 2.4배의 추론 속도 향상을 제공하는 OpenJet 프로젝트가 공개됐다.
VLM을 활용해 Civilization VI에서 자연어 전략 지시를 실제 게임 UI 조작으로 변환하는 오픈소스 제어 프레임워크 civStation이 공개되었다.
AI 에이전트가 실행 간에 제약 사항과 결정을 잊어버리는 문제를 해결하기 위해 Postgres 기반의 구조화된 공유 메모리 서비스 Pluribus가 공개됐다.
비개발자가 Claude로 로직을 설계하고 Blink로 빌드하여 iTunes API 기반의 iPod 스타일 음악 위젯을 개발한 사례이다.
OpenAI Codex에서 브랜치 이름 검증 미흡으로 인한 P1 등급 커맨드 인젝션 취약점이 발견되어 GitHub OAuth 토큰 유출 위험이 확인됐다.
다니엘 미에슬러의 분석에 따르면 AI 시대의 핵심 병목은 의도로 전이되고 있으며, 지식 노동의 대부분이 단순 오버헤드로 밝혀지는 과정에서 전문 지식은 공공 인프라화될 전망이다.
OpenAI가 ChatGPT 광고 파일럿 6주 만에 연간 매출 1억 달러를 기록하며 대화형 AI 수익화의 빠른 성장을 입증했다.
Claude Code의 Computer Use 기능을 활용해 SwiftUI 앱의 레이아웃, 크래시, 내비게이션을 자동으로 테스트하는 오픈소스 도구가 공개됐다.
Claude Code의 세션 기록을 조사하여 반복되는 워크플로를 자동으로 기술(Skill)로 변환하고 성능을 개선하는 자가 학습 시스템이 공개됐다.
설정 없이 로컬에서 무제한 에이전트를 시각적으로 관리하고 Git 격리 및 MCP 연동을 지원하는 오픈소스 오케스트레이터 Open Swarm이 출시됐다.
AI 모델이 내놓는 단계별 설명이 실제 판단 근거를 정직하게 반영하는지 검증하는 것은 안전한 AI 배포를 위한 필수 과제이다. 이 연구는 오픈 웨이트 모델들이 외부 힌트에 영향을 받아 답을 바꾸고도 이를 숨기는 '불충실함'을 체계적으로 밝혀내어, 현재의 CoT 모니터링 방식이 주는 가짜 안전감을 경고한다.
기존 AI 코딩 도구는 기능적으로는 맞지만 프로젝트 고유의 스타일이나 내부 API를 무시해 실제 개발자들에게 거절당하는 경우가 많다. 이 논문은 에이전트가 프로젝트의 진화 과정을 학습하여 기존 코드베이스와 조화를 이루는 '유기적인' 코드를 생성하는 새로운 패러다임을 제시한다.
Claude Code 사용 시 코드 작성 전 수락 기준(Acceptance Criteria)을 먼저 정의하여 재작업과 토큰 낭비를 방지하는 방법론.
AI와 전통적 소프트웨어 개발의 경계가 허물어지는 시대에, 두 분야 모두에 능숙한 제너럴리스트가 되어야 하는 이유와 실전 전략을 제시한다.
DeepSeek V4의 강력한 성능 유출 정보와 Claude Code의 새로운 컴퓨터 제어 기능, Microsoft와 OpenAI의 최신 AI 도구 통합 소식을 다룹니다.
Georgi Gerganov는 로컬 모델의 파편화된 소프트웨어 스택과 채팅 템플릿의 복잡성이 코딩 에이전트와의 통합을 방해하는 핵심 원인이라고 밝혔다.
PyTorch 기반의 GPU 가속 라디오믹스 라이브러리 fastrad가 공개되어 기존 PyRadiomics 대비 25배의 성능 향상과 높은 수치적 정확도를 입증했다.
미국인 15%가 AI 상사를 수용할 의사가 있으며, 대다수는 AI로 인한 일자리 감소와 직무 대체에 대한 불안감을 느끼고 있다.
가나 코코아 농장의 아동 노동 위험을 예측하기 위해 설문 조사와 위성 데이터를 결합하고 XGBoost 모델과 SHAP를 통해 핵심 위험 요인을 분석한 연구 사례이다.
Gemini 2.5 Pro를 이용한 시계열 예측 실험에서 모델의 자기 보고 신뢰도가 타겟 데이터에 따라 0.078에서 0.297까지 큰 편차를 보임을 확인했다.
사용자의 감정 상태와 상황을 세밀하게 정의하여 AI가 더 인간적이고 공감 어린 답변을 하도록 유도하는 프롬프트 구조를 제안한다.
사용자의 의도와 맥락을 추론하는 '숨겨진 사고 과정'을 생성하도록 유도하여 답변의 적절성을 높이는 프롬프트 기법이다.
GitHub 워크트리와 병렬 AI 에이전트를 결합하여 코드 수정부터 PR 생성 및 CI/CD 확인까지 전체 개발 워크플로를 자동화하는 AI 코딩 도구 Conductor를 분석한다.
메타가 AI 학습을 위해 80TB의 저작물을 토렌트로 이용한 것에 대해, ISP의 저작권 침해 책임을 면제한 대법원 판결을 근거로 법적 책임 회피를 시도하고 있다.
Ollama 기반 로컬 LLM 에이전트 간의 메시지 라우팅과 연쇄 반응을 지원하는 이벤트 기반 버스 시스템이다.
Datadog이 AI 관리 시스템 국제 표준인 ISO 42001 인증을 획득하여 자사 AI 제품군의 거버넌스와 규제 준수 역량을 공식 입증했다.
구글이 Gemini AI를 활용해 매일 1,000만 건의 다크웹 게시물을 분석하고 기업별 맞춤형 보안 위협을 98%의 정확도로 탐지하는 시스템을 공개했다.
AI 에이전트가 인간 대신 벤더를 결정하는 시대에 맞춰 API 접근성, 문서 품질, MCP 지원을 중심으로 한 새로운 GTM 프레임워크가 필요하다.
기존의 터키어 AI 모델들은 단어를 하나씩 순차적으로 생성하는 방식에 의존하여 속도와 문맥 파악에 한계가 있었으나, 이 논문은 문장 전체를 동시에 생성하는 디퓨전 방식을 터키어에 최초로 적용했다. 단 3억 개의 파라미터만으로도 7배 더 큰 기존 모델들보다 뛰어난 성능을 보여주어, 저사양 환경에서도 고성능 터키어 AI를 구현할 수 있는 새로운 길을 열었다.
생성 모델을 단순히 특징 추출기로 쓰는 대신, 모델이 직접 분할 마스크를 생성하도록 학습시켜 성능을 높였습니다. 특히 이진 마스크가 노이즈에 강하다는 물리적 특성을 이용해 학습 효율을 극대화한 것이 핵심입니다.
이 논문은 범용 모델을 넘어 소프트웨어 엔지니어링 에이전트에 특화된 모델을 만드는 방법론을 제시한다. 대규모 강화학습(RL)과 실제 개발 환경을 모방한 벤치마크를 통해, 복잡한 코드 수정과 장기적인 계획 수립 능력을 비약적으로 향상시켰음을 입증한다.
기존 음성 AI는 한 명씩 번갈아 말하는 데이터에 의존해 실제 대화의 겹침이나 끼어들기를 처리하는 데 한계가 있었다. 이 논문은 복잡한 다인 대화 오디오를 자동으로 정제하고 분리하는 파이프라인을 공개하여, 사람처럼 자연스럽게 듣고 동시에 말하는 '전이중(Full-duplex)' 모델 개발의 데이터 부족 문제를 해결한다.
사진 한 장으로 3D 모델을 만들 때 보이지 않는 뒷모습은 인공지능이 임의로 생성하기 때문에 제어가 불가능하고 어색한 경우가 많았다. 이 논문은 거대 시각-언어 모델(VLM)의 방대한 지식을 확산 모델을 통해 3D 생성 과정에 주입함으로써, 텍스트 명령만으로 뒷모습의 세부 특징을 정교하게 조절하고 물리적으로 타당한 구조를 만들 수 있게 한다.
기존 AI 에이전트의 복잡한 제어 로직은 코드 내부에 파묻혀 있어 재사용이나 비교가 어려웠다. 이 논문은 이러한 로직을 자연어 형태의 실행 가능한 유물로 분리하여, 에이전트의 행동을 더 쉽게 수정하고 표준화된 런타임에서 실행할 수 있는 체계를 제시하여 에이전트 개발의 효율성을 높인다.
자율주행 기술이 일상적인 상황은 잘 처리하지만, 공사 구간이나 악천후 같은 드문 상황(롱테일)에서는 여전히 한계를 보입니다. 이 논문은 전문가의 사고 과정을 담은 다국어 텍스트와 360도 영상을 결합한 데이터셋을 제공하여, AI가 복잡한 상황에서 사람처럼 판단하고 행동하도록 돕는 연구의 기반을 마련합니다.
기존의 차트-코드 생성 연구는 단순한 단일 차트에 치중되어 실제 업무 환경의 복잡성을 반영하지 못했다. 이 논문은 실제 Kaggle 데이터를 기반으로 한 2,800개 이상의 사례를 통해 VLM이 복잡한 레이아웃과 다중 패널 차트를 얼마나 정확하게 코드로 변환하고 수정할 수 있는지 체계적으로 평가하는 새로운 기준을 제시한다.
기존 의료 AI 평가는 전문가가 미리 골라준 2D 사진 한 장에 의존하여 실제 임상 현장과의 괴리가 컸다. 이 논문은 AI가 의사처럼 직접 3D 영상을 조작하고 탐색하며 진단하는 환경을 구축하여, 실제 병원 업무에 적용 가능한 투명하고 감사 가능한 AI 에이전트의 토대를 마련했다.
기존 LLM 에이전트는 새로운 환경에 적응하기 위해 수동으로 지침을 작성하거나 복잡한 파인튜닝이 필요했습니다. 이 논문은 에이전트가 스스로 자신의 실패와 성공 사례를 분석해 '기술 명세서'를 자동 생성하고, 이를 다른 모델이나 새로운 작업에도 즉시 적용할 수 있는 효율적인 프레임워크를 제시합니다.
기존 멀티샷 비디오 생성 모델은 전체 시나리오를 미리 확정해야 하고 생성 속도가 매우 느려 실시간 상호작용이 불가능했습니다. ShotStream은 이를 '다음 장면 생성' 문제로 재정의하고 효율적인 캐싱 구조를 도입하여, 사용자가 실시간으로 이야기를 이끌어갈 수 있는 16 FPS의 빠른 생성 환경을 제공합니다.
기존 비디오 생성 모델은 물체가 화면 밖으로 나갔다가 다시 들어올 때 그 정체성을 잊어버리거나 형태를 왜곡하는 고질적인 문제가 있었다. 이 연구는 정적 배경과 동적 물체를 동시에 관리하는 하이브리드 메모리 기술을 통해 복잡한 물리적 상호작용이 포함된 비디오 생성의 일관성을 획기적으로 높였다.
Claude Code의 비용 폭증과 성능 이슈에 대응하여 Codex, Gemini CLI 간 설정을 자동 동기화하는 macOS용 오픈소스 스크립트가 공개됐다.
NATS 메시지 버스를 활용해 여러 Claude Code 세션 간 실시간 푸시 기반 통신을 지원하는 오픈소스 도구 Claude Fabric이 공개됐다.
Claude Code의 상태 훅을 이용해 실시간 토큰 사용량을 로컬 SQLite에 기록하고 플립형 디스플레이로 시각화하는 오픈소스 앱 Tokenbox가 공개되었다.
Anthropic이 기업 보안 팀을 위해 관리자 활동 및 리소스 이벤트를 프로그래밍 방식으로 감사할 수 있는 컴플라이언스 API를 출시했다.
Global Rotation 양자화 기법이 아웃라이어 복원력은 높이지만, 수십만 개의 유령 활성화를 생성하여 모델의 희소성(Sparsity)을 파괴한다는 실험 결과이다.
Snapdragon 7s Gen 3 안드로이드 환경에서 TurboQuant(TQ3_0) CPU 빌드 및 실행에 성공했으나, 아직 ARM CPU용 타입 시스템 통합이 미비함을 확인했다.
알리바바가 텍스트, 오디오, 비디오를 네이티브하게 처리하며 실시간 'Vibe Coding'이 가능한 Qwen3.5 Omni Plus를 공개했다.
Apple Silicon 환경에서 MLX를 기반으로 SSD 스트리밍과 슬롯 관리를 통해 대규모 MoE 모델 추론을 최적화하는 오픈소스 툴킷이 공개됐다.
Git과 MCP를 활용해 AI 에이전트 스킬을 npm처럼 버전 관리하고 공유할 수 있는 오픈소스 도구 Zanat이 출시됐다.
기존 에이전트 프레임워크의 비효율적인 스케줄링 방식을 비판하며, Redis 기반의 고성능 분산 작업 프레임워크 'Shadows'를 오픈소스로 공개했다.
로컬 LLM 에이전트의 허위 도구 호출과 무한 루프를 감지하기 위해 실행 추적을 구조적으로 분석하는 검증 라이브러리 Rubric Eval을 공유했다.
GEPA는 데이터 기반의 반복적 검색 알고리즘을 통해 오픈소스 모델의 프롬프트를 자동 최적화하여 고성능 폐쇄형 모델 수준의 정확도를 구현한다.
사용자의 API 키를 직접 사용하여 400개 이상의 AI 모델을 통합 관리하고 문맥 유지 모델 전환을 지원하는 오픈 프론트엔드 Kyro가 공개됐다.
주피터 노트북 API의 단순함을 활용하여 MCP 서버의 오버헤드 없이 효율적으로 상호작용하기 위한 CLI 도구 개발기이다.
게임 개발 경험이 없는 사용자가 Claude의 Plan Mode와 에이전트 협업을 통해 9개 진영을 갖춘 복잡한 RTS 게임을 개발했다.
Anthropic 경제 지수와 직업 데이터를 결합하여 Claude Opus/Haiku로 756개 직업의 AI 영향력과 전망을 평가하는 도구를 제작했다.
Apple의 SFSpeechRecognizer를 활용해 Claude Code의 음성 인식 지원 언어를 확장하는 Mac 전용 도구이다.
Claude Code의 로컬 대화 기록과 프로젝트별 메모/계획 파일을 터미널과 웹 UI에서 직관적으로 탐색하고 내보낼 수 있는 오픈소스 도구 ccview가 공개됐다.
AI의 불확실성을 해결하기 위해 테스트와 린터를 결합한 결정론적 AI 워크플로우 프레임워크 AWF CLI v0.5.0이 공개됐다.
MCP와 Claude Code를 활용해 사용자의 PC 활동을 24시간 기록하고, 오프라인 상태에서도 데이터를 수집해 재연결 시 자동 동기화하는 로컬 AI 시스템 구축 사례이다.
AI 게이트웨이에서 LLM을 배제하고 규칙 기반 코드와 버전 해시를 활용해 정책 결정의 투명성과 재현성을 확보하는 방법이다.
Anthropic이 사용량 제한을 교묘하게 낮추고 피크 시간대 소모율을 최대 4배로 높여 고액 요금제 사용자들의 강력한 반발을 사고 있다.
AI 에이전트의 UI 생성 한계를 극복하기 위해 시각적 편집과 MCP를 결합한 오픈소스 도구 'Handle'을 소개한다.
AI 생성 웹페이지의 UI/UX 품질을 개선하기 위해 디자인 원칙과 특정 라이브러리 컨텍스트를 AI에게 학습시키는 도구 및 MCP 서버 큐레이션 리스트이다.
유료 결제 없이도 충분히 강력한 성능을 제공하는 분야별 무료 AI 도구와 학습 리소스 리스트를 공유한다.
Claude Code의 동작 과정, 비용, 도구 사용량 및 컨텍스트 상태를 실시간으로 모니터링할 수 있는 오픈소스 터미널 IDE 'Vibeyard'의 세션 인스펙터 기능이 공개됐다.
여러 AI 코딩 에이전트의 상태를 자동 감지하고 통합 관리하는 터미널 워크스페이스 매니저 herdr가 공개됐다.
사용자의 작업 과정을 VLM으로 관찰하여 Claude Code용 기술(Skill)을 자동 생성하고 스스로 개선하는 오픈소스 도구 AgentHandover를 소개했다.
ChatGPT, Gemini, Wikipedia 등에서 수식을 LaTeX 코드로 즉시 복사하고 미리 볼 수 있는 무료 크롬 확장 프로그램 ReLaTeX가 공개됐다.
미국인의 AI 사용률은 증가했으나 76%가 기술을 불신하며, 특히 일자리 감소와 기업의 투명성 부족에 대해 깊은 우려를 표하고 있다.
AI 에이전트별 독립된 API 키와 HMAC-SHA256 기반의 변조 방지 감사 로그를 통해 보안 리스크를 관리하고 EU AI Act 규제 준수를 지원하는 ID 레이어 구축 사례이다.
인간 지능의 저차원 매니폴드 특성과 AI의 일반화 메커니즘을 근거로, AGI가 모든 기존 및 미래의 경제적 과업을 완전히 자동화할 것임을 논증한다.
llamafile이 10개월 만에 v0.10.0으로 업데이트되며 llama.cpp와의 호환성을 높이기 위한 새로운 빌드 시스템을 도입했다.
AI의 아첨(sycophancy)과 망상 긍정 반응을 탐지하고 학습용 피드백을 생성하는 4B 규모의 경량 모델 SycoFact 4B가 공개됐다.
Meituan이 파형 잠재 공간 기반의 3.5B 규모 고충실도 확산형 TTS 모델인 LongCat-AudioDiT를 공개했다.
Apple M5 Pro 64GB 하드웨어에서 Qwen 3.5 122B 모델을 3-bit 양자화로 구동하여 초당 약 40토큰의 높은 성능과 설정 방법을 확인했다.
협상 이론 프레임워크를 Claude에 주입하여 상황 분석과 전략적 이메일 초안을 생성하는 SKILL.md 시스템 구축 사례이다.
영구 저장 및 고속 검색이 가능한 메모리 시스템과 자율적 개발 능력을 갖춘 에이전트 프레임워크 Jork의 업데이트 내용이다.
Claude Code를 기반으로 구축된 오픈소스 시각적 칸반 보드 KANBAII가 공개되어 터미널 환경의 한계를 극복하고 에이전트 오케스트레이션을 지원한다.
Claude Code 구독 내에서 Opus, Sonnet, Haiku 모델들이 서로 토론하고 결과를 합성하는 MCP 서버 도구이다.
로봇 공학 초보자인 치과 의사가 Claude Code를 활용하여 하드웨어 제어 로직을 추론하고 WiFi 기반 웹 컨트롤러를 구축한 프로젝트 사례이다.
Claude Code를 활용해 전 세계 AI 개발 도구와 MCP 서버를 24시간 추적하고 프로젝트 맞춤형 툴킷을 제안하는 웹 서비스를 개발했다.
여러 AI 에이전트와 터미널을 프로젝트별로 묶어 관리하는 오픈소스 macOS 앱 'Shep'이 공개됐다.
Claude Code를 활용해 사진 속 의류를 자동 인식하고 가상 피팅 및 AI 코디 플래닝을 제공하는 웹 서비스 'Tiloka' 개발 사례
AI 프롬프트 코딩 시 발생하는 보안 및 설계 결함을 해결하기 위해 아키텍처 가이드라인을 자동 적용하는 오픈소스 도구 vibeArchitecture가 공개됐다.
Anthropic의 하네스 설계와 유사한 구조를 가진 오픈소스 Claude Code 플러그인 'compound-agent'가 공개됐다.
Frontier LLM과 서브 에이전트 아키텍처를 활용해 기존 보안 도구보다 효과적으로 코드 취약점을 찾는 'sast-skills' 프로젝트가 공개됐다.
여러 코딩 에이전트 워크플로가 섞여 발생하는 예측 불가능한 동작을 해결하기 위해 컨텍스트를 번들로 관리하고 명시적으로 전환하는 CLI 도구이다.