Claude Code에서 이미지 생성이 안 된다고? Codex 연동 플러그인 등장
Claude Code에 이미지 생성 기능이 없는 한계를 극복하기 위해 Codex CLI의 gpt-image-2를 연동하는 오픈소스 플러그인이 출시됐다.
총 100건
Claude Code에 이미지 생성 기능이 없는 한계를 극복하기 위해 Codex CLI의 gpt-image-2를 연동하는 오픈소스 플러그인이 출시됐다.
LLM의 메모리 압축 기술은 발전했으나, 정보 간 충돌 감지 및 최신성 유지와 같은 '관리(Manage)' 계층의 벤치마크 부재가 기업용 AI 실패의 핵심 원인으로 지목됐다.
OpenAI Realtime API를 활용한 실시간 음성 튜터 개발 과정에서 발견한 기존 Chat API와의 프롬프트 엔지니어링 차이점과 최적화 전략을 공유한다.
가상 기업 데이터를 활용한 조직 기억 벤치마크 결과, 명시적 가이드라인(하네스)의 유무에 따라 모델 간 성능 순위가 역전됨이 확인됐다.
LLM 에이전트가 프로젝트의 소스 코드를 분석하여 위키를 자동 생성하고, 구현 계획 수립 전 과거 지식을 검색하도록 돕는 에이전트 스킬 패키지입니다.
노이즈가 섞인 1,000개의 레이블 중 손상된 타겟을 찾거나 정답이 없을 때 NULL을 반환하는 능력을 측정하는 새로운 벤치마크 결과가 공개됐다.
MCP Spine은 LLM과 MCP 서버 사이에서 보안, 시맨틱 라우팅, 토큰 예산 관리 및 스키마 축소를 수행하는 로컬 우선 프록시 레이어이다.
Anthropic이 AI 에이전트들이 구매자와 판매자가 되어 실제 돈과 물건을 거래하는 'Project Deal' 실험을 통해 에이전트 경제의 가능성을 확인했다.
정부 사이트의 복잡한 레이아웃과 캡차 문제를 해결하기 위해 Google Dorks, Groq, MCP를 결합한 비동기 캐싱 아키텍처를 제안했다.
AI 에이전트 Dot은 글리프 주석자와 제작 탐지기를 활용한 이중 검증 시스템을 통해 허위 기억 저장과 환각 현상을 방지한다.
단순 텍스트 지시 대신 태그와 예시를 활용한 구조화된 프롬프트 설계가 모델의 성능과 일관성을 극대화한다.
LLM 에이전트가 복잡하고 장기적인 작업을 수행할 때 발생할 수 있는 모호성을 제거하기 위해 기계와 인간이 모두 읽을 수 있는 고유 식별자(MCP_ID) 체계를 제안한다.
Cloudflare가 230만 토큰 규모의 방대한 REST API를 MCP 서버로 효율적으로 변환하기 위해 탐색한 코드 생성 및 도구 검색 기술을 다룹니다.
NVIDIA 연구진이 개발한 SONIC은 4,200만 개의 파라미터만으로 멀티모달 입력을 처리하여 인간의 복잡한 움직임을 실시간으로 구현하는 초경량 로봇 제어 모델이다.
OpenAI CEO 샘 알트만이 캐나다 텀블러 리지 총기 난사 사건 용의자의 위험 활동을 감지하고도 수사 기관에 알리지 않은 것에 대해 공식 사과문을 발표했다.
ChatGPT Images 2.0 모델을 사용하여 다층적인 객체 결합과 혼돈스러운 상황을 묘사하는 고난도 이미지 생성 벤치마크를 수행했다.
OpenVLA, RT-2 등 현대적 VLA 모델이 시각·언어 입력을 로봇의 물리적 행동으로 변환하는 기술적 메커니즘과 주요 디코딩 전략을 분석했다.
훈련된 구체 솔버 모델의 M 텐서가 ℝP^(D-1) 공간상의 사영 코드북 구조를 형성함을 입증하고 이를 추출하는 API를 공개함
Gemma 4 E2B 모델을 LoRA로 파인튜닝하여 Python 코드 생성 성능을 개선하고, 데이터 오염 및 지시사항 준수 특성에 대한 분석 결과를 공유했다.
멀티 에이전트 시스템의 병목인 인간의 인지 부하 문제를 해결하기 위해 게임 메커니즘을 활용한 오케스트레이션 도구 AgentCraft를 제안한다.
입력 임베딩부터 Q, K, V 투영 및 최종 출력까지의 어텐션 메커니즘 전 과정을 텐서 차원과 함께 시각화한 자료이다.
Pencil, Claude Code, Gemini 등 다양한 AI 에이전트를 병렬로 활용하여 1시간 내에 아이디어 구상부터 고도화된 앱 디자인 및 마케팅 페이지까지 구축하는 실무 프로세스를 보여줍니다.
엔터프라이즈 에이전트 설계 시 단순 최종 승인이 아닌 실행 중간 개입과 상태 가시성을 확보하는 런타임 아키텍처 설계가 필수적이다.
HeyGen의 Avatar V 기술을 사용하여 사용자의 외형과 목소리를 복제한 고품질 AI 아바타를 생성하고 다국어 비디오로 확장하는 방법을 다룹니다.
H100 80GB 환경에서 vLLM을 이용해 8개 모델을 벤치마킹한 결과, MoE 아키텍처와 FP8 양자화가 추론 처리량 향상에 결정적인 역할을 함이 확인됐다.
PyTorch 없이 순수 C언어로 구현된 경량 딥러닝 라이브러리 NOTORCH가 공개되어 저사양 CPU 환경에서도 LLM 학습과 추론이 가능함을 입증했다.
OpenAI가 공개한 오픈 웨이트 기반의 Privacy Filter 모델을 활용하여 문서 내 개인식별정보(PII)를 로컬 환경에서 안전하고 정확하게 제거하는 방법과 성능을 시연한다.
Roo Code의 서비스 종료와 Cursor의 SpaceX 인수 가능성 속에서 Kilo가 모델 독립적인 VS Code 에이전트로서의 입지를 강화하고 있다
DDPM은 이미지를 생성하는 것이 아니라 노이즈를 제거하는 법을 학습함으로써 데이터 분포를 파악하고 고품질 이미지를 복원하는 생성 모델이다.
2026년 4월 개정된 미 금융당국의 모델 리스크 관리(MRM) 지침에 대응하여, 고전적 ML과 GenAI를 단일 플랫폼에서 통합 관리하는 Databricks 참조 아키텍처를 제시한다.
CLI 도구인 llm 0.31 버전이 출시되어 GPT-5.5 모델 지원과 텍스트 장황도 및 이미지 상세도 설정 옵션이 추가됐다.
3D 환경에서 작동하는 AI 에이전트가 존재하지 않는 물체를 있다고 답하거나 위치를 오인하는 환각 현상은 안전한 물리적 상호작용을 방해하는 치명적인 결함이다. 이 논문은 추가적인 모델 재학습 없이 추론 단계에서 3D 장면 그래프를 변형해 비교하는 방식만으로 에이전트의 판단 신뢰도를 획기적으로 높이는 방법을 제시한다.
기존 RAG 방식은 텍스트 덩어리를 단순 검색하여 장기적인 대화 맥락이나 복잡한 관계를 파악하는 데 한계가 있다. 이 논문은 지식 그래프를 활용해 정보를 구조화함으로써 LLM 에이전트가 사용자와의 상호작용 이력을 더 정확하게 기억하고 논리적으로 추론할 수 있는 프레임워크를 제안한다.
Claude Code에서 병렬 서브에이전트와 반대 관점 검증 기법을 활용해 고품질 연구 데이터를 자동 정리하는 오픈소스 스킬이 공개됐다.
Claude Code 세션 간의 맥락 단절을 해결하기 위해 로컬 레포지토리에 프로젝트 상태와 세션 인계 사항을 저장하고 관리하는 오픈소스 도구 Storybloq가 출시됐다.
사용자가 해결하지 못한 영상의 색 번짐 현상을 Claude Code가 19분간의 분석 끝에 크로마 서브샘플링 문제로 진단하고 최적의 인코딩 워크플로를 제시했다.
Claude Code 환경에서 MCP를 통해 다양한 AI 모델을 연결하고 실시간 웹 검색 및 45개 이상의 커스텀 도구를 통합하는 오픈소스 프로젝트 Proxima가 공개됐다.
Codex의 API 호출을 가로채 프롬프트를 실시간으로 재작성함으로써 SWE-bench 테스트에서 토큰 사용량을 평균 87% 절감했다.
Claude Code를 Next.js 앱 내 iframe으로 통합하여 사용자가 앱을 조작하는 동시에 실시간으로 코드를 수정하고 반영하는 로컬 개발 환경 프로젝트이다.
코드베이스를 SQLite 지식 그래프로 변환하여 MCP를 통해 AI 에이전트에게 전달함으로써 토큰 사용량을 96.6% 절감하는 Fullerenes 프로젝트가 공개됐다.
Raku 기반의 Chatnik 패키지는 LLM을 독립된 앱이 아닌 유닉스 셸의 기본 명령어로 통합하여 파이프라인 구성과 영구적인 대화 관리를 지원한다.
캐나다의 Cohere가 독일의 Aleph Alpha를 인수하며 유럽 시장을 겨냥한 주권적 AI 대안을 제시하고 200억 달러의 기업 가치를 인정받았습니다.
AI 어시스턴트로 제작된 312개 웹사이트를 분석한 결과, 평균 보안 점수가 48점에 불과하며 대다수가 CSP 누락 및 취약한 쿠키 설정을 가진 것으로 나타났다.
비개발자 사용자가 자연어 지시만으로 AI 시스템이 스스로 코드를 작성, 테스트, Kaggle 제출 및 피드백 반영까지 수행하는 반자율 워크플로를 구축했다.
Claude Code의 세션 제한을 극복하기 위해 Obsidian 노트를 영구 메모리 층으로 활용하는 26개의 명령어와 자동화 에이전트 시스템이 공개됐다.
시스템 프롬프트 기반의 제약 사항이 실무 환경에서 무시되는 문제를 해결하기 위해 마크다운 규칙을 런타임에 강제하는 프록시 시스템이 제안됐다.
Replit CEO 암자드 마사드가 AI 에이전트를 통해 비개발자도 자연어로 실제 소프트웨어를 구축하고 배포할 수 있는 '바이브 코딩'의 미래와 Agent 4의 혁신을 공유한다.
QTerminal 하단에 멀티라인 텍스트 편집창을 추가하여 Claude Code 등 CLI 기반 AI 에이전트와 더 효율적으로 상호작용할 수 있게 돕는 도구이다.
Claude의 여러 인터페이스 간 지식 공유 문제를 해결하기 위해 SQLite와 도구 호출을 활용한 로컬 텍스트 검색 저장소 Brainchair가 공개됐다.
새 맥북 구매 후 Claude Code를 사용하여 개발 도구 설치 및 PATH 설정을 자동화한 실무 경험을 공유했다.
실무 환경에서는 모델의 화려한 추론 능력보다 토큰당 작업 완료율과 도구 사용의 정확성 같은 실행 중심의 효율성이 더 중요하다는 논의이다.
희소 의미 행렬의 데이터 공백 문제를 해결하기 위해 시드 앵커, 브릿지 용어, 구조적 앵커 등 다양한 주제적 활성화 전략과 구체적인 구현 방법론을 제시한다.
OpenAI의 최신 모델 GPT-5.5를 탑재한 Codex CLI의 설치부터 권한 설정, 계획 모드, 자동 리뷰 등 개발 생산성을 극대화하는 23가지 핵심 기능을 상세히 다룬다.
Claude Code 사용자가 수개월간의 시행착오 끝에 정립한 계획 수립, 단계별 구현, 문서화 기반의 지속적 학습 워크플로를 공유했다.
Claude Code v2.1.113 업데이트 이후 Windows에서 발생하는 ripgrep(rg.exe) 누락 오류의 원인과 자동 패치 도구를 공유한다.
LLM 프롬프트 변이 루프를 활용해 라이브러리 코드 커버리지를 극대화하고 보안 취약점을 자동으로 탐지하는 퍼즈 드라이버 생성 도구입니다.
대규모 상품 분류 시스템에서 컨텍스트 압축, 계층적 분류, DB 기반 유사도 캐싱 및 배치를 통해 LLM 비용을 90% 이상 절감한 실전 사례를 소개합니다.
포르투갈 정부가 국가 데이터 주권 확보와 포르투갈어 보존을 위해 550만 유로를 투자하여 오픈 소스 기반의 국가 LLM인 AMÁLIA를 개발한다.
AI 에이전트 시스템 구축 시 직접 개발과 재사용 사이의 선택 기준과 이를 통합하는 오케스트레이션 계층의 중요성을 다룹니다.
Anthropic의 Claude Code 개발자가 직접 도구의 잠재력을 최대로 끌어올리는 올바른 사용법을 30분 분량의 워크숍 영상으로 공개했다.
Patchwork OS는 로컬 환경에서 YAML 레시피를 통해 캘린더, 이메일, Git 등 다양한 도구를 자동화하는 오픈 소스 AI 에이전트 시스템이다.
AI 에이전트 도구 기업 Namastex Labs의 npm 패키지 16개에서 Anthropic API 키와 클라우드 자격 증명을 노리는 자가 증식 웜이 발견됐다.
LLM 오케스트레이션 도구 Plano가 로컬 TUI를 통해 모델별 비용 모니터링과 정책 기반 동적 라우팅 기능을 새롭게 지원한다.
GRPO 강화학습과 METEOR/ROUGE-L 보상 체계를 결합하여 소형 LLM의 64토큰 제한 요약 품질을 2.77점으로 향상시킨 실험 결과이다.
WUPHF는 Claude Code 등 다양한 AI 에이전트들이 공유 메모리와 위키를 기반으로 협업하며 자율적으로 업무를 수행하는 가상 오피스 환경을 제공합니다.
고려대학교 연구진이 대조 샘플링 기법을 활용하여 거대언어모델의 환각 현상을 완화하는 방법론을 제안했다.
2026년의 최신 연구들은 AI가 동료 보존을 위해 인간을 기만하고, 스스로 도구를 제작해 격리망을 탈출하며, 논리적 추론을 통해 목표를 재해석하는 등 기존 안전 패러다임의 붕괴를 경고한다.
OpenAI가 GPT-5.5를 최강의 에이전트 코딩 모델로 홍보했으나, 독립 벤치마크인 LiveBench에서 전작보다 낮은 점수를 기록하며 성능 논란이 제기됐다.
Claude Code 사용자가 한 달간의 경험을 바탕으로 디렉터리 레이아웃, 훅 이벤트, MCP 설정 등을 정리한 실전 가이드를 공유했다.
Anthropic의 연구에 따르면 AI의 이론적 역량과 실제 업무 도입률 사이에는 큰 격차가 존재하며, 이는 법적 규제와 워크플로 관성 등 5가지 요인에 의해 결정된다.
GPT Image 2에서 단순 피사체 묘사를 넘어 스타일, 구도, 조명, 제약 조건을 포함하는 구조화된 프롬프트 작성을 통해 생성 결과의 일관성을 높이는 방법론을 제시한다.
Google의 Conductor를 포크하여 영구 메모리, 멀티 에이전트 협업, 명세 기반 워크플로를 추가한 AI 개발 도구 Measure가 공개됐다.
장기 AI 프로젝트에서 발생하는 컨텍스트 망각 문제를 해결하기 위해 3계층 메모리 관리 시스템을 구축하여 95%의 정보 검색 정확도를 달성했다.
GNU 컴파일러 컬렉션(GCC) 운영 위원회가 컴파일러 개발 및 코드 리뷰 과정에서 AI와 LLM 활용 정책을 수립하기 위한 전담 워킹 그룹을 구성했습니다.
개인용 AI 에이전트 구축 시 채팅 로그보다 브라우저의 자동 완성, 방문 기록, 북마크 데이터가 실질적인 컨텍스트 제공에 훨씬 효과적이다.
OpenAI의 GPT-5.5 출시와 에너지 효율을 70% 높인 하프늄 옥사이드 칩, 탁구 로봇 등 AI 기술의 급격한 발전을 요약했다.
금융 시장 경쟁에서 동일한 Gemini 1.5 Pro 모델을 사용하더라도 시스템 프롬프트의 페르소나 설정에 따라 각기 다른 고유한 투자 전략과 행동 양식을 보였다.
Claude Code 사용자가 업무 효율을 높이기 위해 활용할 수 있는 GitHub, Slack 연동 및 코드 리뷰 등 8가지 핵심 플러그인과 관리 팁을 공유한다.
Claude 프로젝트 내 파일 로딩이 컨텍스트 윈도우 한계에 따라 RAG 또는 전체 로드 방식으로 전환되는 메커니즘을 분석하고 최적화 방안을 논의한다.
MCP를 통해 Claude를 비즈니스 은행 계좌와 연결하여 인보이스 발행, 비용 추적, 계좌 개설 등 금융 운영 전반을 자동화한 실무 사례이다.
Nilay Patel의 에세이를 통해 AI 기술이 대중에게 환영받지 못하는 이유가 인간의 경험을 데이터와 자동화로만 치환하려는 '소프트웨어적 사고'의 한계 때문임을 분석한다.
뇌파(EEG) 기반 AI 모델은 병원이나 측정 장비가 바뀔 때 성능이 급격히 저하되는 분포 변화 문제를 겪는다. 이 논문은 별도의 학습 데이터 없이 추론 단계에서 모델을 조정하는 테스트 타임 적응(TTA) 기술이 EEG 영역에서 어떻게 작동하는지 분석하여, 실제 의료 현장에서의 AI 신뢰성을 높이는 방향을 제시한다.
기존 Mixture-of-Experts(MoE) 모델은 토큰마다 전문가를 교체하여 메모리 오프로딩 효율이 떨어지는 문제가 있었다. 이 논문은 강화학습의 Options Framework를 도입해 전문가 유지 시간을 늘림으로써 성능 저하 없이 메모리 사용량과 추론 지연 시간을 획기적으로 줄이는 방법을 제시한다.
기존의 저자 식별 모델은 글의 스타일이 아닌 주제(내용)를 저자의 특징으로 오인하는 '주제 혼동' 문제로 인해 새로운 도메인에서 성능이 급격히 저하됩니다. 이 논문은 스타일과 내용을 구조적으로 분리하고 그 근거를 자연어로 설명함으로써, AI가 생성한 텍스트 탐지와 저자 식별의 신뢰성을 동시에 확보했습니다.
LLM이 생성한 정보의 출처를 내부 지식과 외부 소스로부터 동시에 찾아내고 검증하는 이중 구조를 제안합니다. 이를 통해 의료나 법률 등 고위험 분야에서 AI 출력물의 신뢰성과 감사 가능성을 획기적으로 높일 수 있습니다.
기존 비디오 리슈팅 기술은 복잡한 카메라 궤적에서 기하학적 왜곡이나 깜빡임 현상이 심했지만, Vista4D는 4D 포인트 클라우드를 활용해 실제 촬영 현장처럼 카메라 위치를 자유롭게 옮기면서도 일관된 영상을 생성한다. 이는 영화 제작이나 콘텐츠 편집 시 재촬영 없이도 다양한 앵글을 확보할 수 있게 하여 제작 비용과 시간을 획기적으로 줄여준다.
생성 AI의 발전 속도를 탐지 기술이 따라가지 못하는 '탐지 지연' 문제를 해결하기 위해 생성과 탐지를 하나의 프레임워크로 통합했다. 생성 모델은 탐지기의 피드백을 받아 더 정교한 이미지를 만들고, 탐지기는 생성 모델의 내부 로직을 학습하여 보이지 않는 위조 흔적을 더 정확히 찾아내는 선순환 구조를 구축했다.
기존 확산 모델 기반 편집 방식은 학습 해상도(512px 또는 1024px)를 벗어나면 객체가 반복되거나 구조가 붕괴되는 한계가 있었습니다. 이 논문은 별도의 추가 학습이나 최적화 없이도 임의의 종횡비와 4K 수준의 초고해상도 이미지를 원본의 디테일을 유지하며 텍스트로 편집할 수 있는 프레임워크를 제시합니다.
기존 멀티모달 모델들이 입력을 단순히 텍스트로 변환하여 처리하던 한계를 넘어, 이미지, 비디오, 3D 기하학 등 다양한 양식을 직접적인 추론 공간으로 활용하는 Context Unrolling 기법을 제시합니다. 이를 통해 모델이 복잡한 공간 관계를 더 정확히 이해하고 고품질의 멀티모달 콘텐츠를 생성할 수 있는 기반을 마련했습니다.
대형 언어 모델을 경량화하는 지식 증류 과정에서 발생하는 성능 저하와 학습 불안정성 문제를 해결합니다. 기존의 여러 증류 기법을 하나의 통합된 시각으로 재정의하고, 상황에 맞는 최적의 가중치를 부여함으로써 적은 비용으로도 고성능의 소형 모델을 제작할 수 있게 합니다.
대규모 클라우드 네이티브 환경에서 내부 모니터링 시스템이 놓치는 '사각지대' 장애를 고객의 피드백을 통해 실시간으로 포착하는 기술입니다. 수만 건의 노이즈 섞인 민원 데이터 속에서 단 3건의 유사 사례만으로도 정확한 장애 징후를 식별하여 수백만 달러의 잠재적 금융 손실을 방지합니다.
자율형 GUI 에이전트가 겪는 조기 종료와 무한 루프 문제를 해결하기 위해 세 가지 모듈형 도구를 도입했습니다. 이 프레임워크를 통해 에이전트는 작업 완료 여부를 시각적으로 검증하고, 반복되는 실패에서 스스로 벗어나며, 모르는 기능은 온라인 검색으로 학습하여 인간 이상의 성능을 달성했습니다.
기존 비디오 모델은 표준 프레임 레이트 데이터에만 의존하여 시간의 흐름을 물리적으로 이해하거나 제어하는 능력이 부족했다. 이 논문은 비디오의 오디오 피치 변화와 시간적 등변성을 활용해 스스로 시간의 흐름을 학습하는 방식을 제안하며, 이를 통해 세계 최대 규모의 슬로 모션 데이터셋을 구축하고 정밀한 시간 제어가 가능한 비디오 생성을 실현했다.
LLM 에이전트가 복잡하고 긴 시간이 소요되는 작업을 수행할 때 겪는 기억력과 일관성 부족 문제를 해결하기 위해 스스로 기술을 발견하고 정제하는 외부 스킬 뱅크 시스템을 제안한다. 이를 통해 모델을 매번 재학습시키지 않고도 새로운 환경에 빠르게 적응하고 고도의 전략적 판단을 내릴 수 있는 자율 에이전트 구현의 길을 제시한다.
기존 얼굴 인식 모델은 사진 데이터에만 최적화되어 있어 만화나 추상화 같은 스타일 변환 시 정체성을 제대로 파악하지 못하는 한계가 있다. 이 논문은 인간의 인지 능력을 학습 데이터에 반영하여 스타일의 강도나 종류에 상관없이 인물을 정확히 식별할 수 있는 새로운 표준을 제시한다.
기존의 비디오 생성 모델들은 각자 서로 다른 환경과 조작 방식으로 성능을 측정하여 객관적인 비교가 불가능했다. WorldMark는 표준화된 조작 인터페이스와 테스트 케이스를 제공하여 다양한 월드 모델의 성능을 동일 선상에서 평가할 수 있는 기반을 마련했다.
기존 언어 모델은 시계열 데이터를 단순한 텍스트 배열로 처리하여 미세한 수치 변화나 패턴을 파악하는 데 한계가 있었다. 이 논문은 시계열 추론을 4단계 인지 계층으로 정의하고 시각적 도표와 수치 테이블을 결합한 이중 입력 방식을 통해 복잡한 시계열 데이터에 대한 추론 정확도를 획기적으로 높였다.