2026년 5월 5일 AI 뉴스

r/ClaudeCode Companies Coding Agents

LLM 에이전트 성능 40% 좌우하는 프롬프트 형식, 컴파일러로 자동 최적화

LLM 에이전트가 사용하는 기술(Skill)은 프롬프트 형식에 따라 성능 차이가 최대 40%까지 발생하지만, 기존에는 각 플랫폼에 맞춰 수동으로 재작성해야 했습니다. SkCC는 이를 해결하기 위해 하나의 소스로 여러 에이전트 프레임워크에 최적화된 형식을 자동 생성하고 보안 취약점까지 사전에 차단하는 컴파일러 기반의 새로운 접근 방식을 제시합니다.

Claude Code 사용 중 갑작스러운 토큰 고갈? 줄바꿈 설정 확인하세요

Windows와 WSL 혼용 환경에서 Claude Code가 줄바꿈 차이를 코드 수정으로 오인해 컨텍스트 윈도우를 과다 점유하는 버그와 .gitattributes를 통한 해결 방법이 공유됐다.

AnthropicClaude Code

Vizuara

MIT 박사가 알려주는 AI 연구 논문 작성과 톱티어 컨퍼런스 진출 전략

Vizuara AI Labs는 AI/ML 분야의 연구 역량 강화를 위해 4개월간의 집중 부트캠프를 운영하며 실제 논문 작성 및 톱티어 컨퍼런스 출판을 지원한다.

r/LangChain Libraries

LangGraph 비용 폭주 방지: 노드 단위 체크포인트와 이상 탐지 도입

LangGraph v0.3은 루프 실행 중 비용 폭주를 막기 위해 노드 단위 체크포인트 API와 단계별 비용 이상 탐지 기능을 도입했다.

LangGraph

r/LangChain Companies Libraries

로컬 AI의 제왕 Thoth v3.20.0, 리눅스 완벽 지원과 Ollama 연동 강화

개인용 AI 어시스턴트 Thoth가 v3.20.0 업데이트를 통해 리눅스 환경을 정식 지원하고 Ollama, MiniMax 등 로컬 및 외부 모델 연동 안정성을 대폭 개선했다.

AnthropicLangChainOllama

TechCrunch AI Audio AI

ElevenLabs, 기업 가치 110억 달러 달성하며 보이스 AI 시장 독주 체제 굳히기

ElevenLabs가 NVIDIA와 BlackRock 등으로부터 5억 달러의 투자를 유치하고 연간 반복 매출(ARR) 5억 달러를 돌파하며 기업 가치 110억 달러를 기록했습니다.

ElevenLabs

Weaviate Architecture Language Models

OpenAI가 직접 만드는 스마트폰? 2027년 양산 목표로 '패스트트랙' 돌입

OpenAI가 MediaTek의 맞춤형 칩셋과 듀얼 NPU 아키텍처를 탑재한 ChatGPT 전용 스마트폰을 2027년 초 양산을 목표로 개발 중이다.

노트북 한 대로 검색 에이전트 학습 데이터를 만드는 Orbit 파이프라인

신경망 검색의 진화 과정을 짚어보고 검색 에이전트를 위한 합성 데이터 생성 도구인 Orbit과 효율적인 에이전트 아키텍처 설계 방안을 논의한다.

ColBERTDeepSeekWeaviate

r/vibecoding Coding Agents Architecture

트랜스포머의 한계를 넘다, 1200만 토큰을 처리하는 SubQ LLM 등장

Subquadratic사가 연산량이 컨텍스트 길이에 비례해 선형적으로 증가하는 새로운 아키텍처 기반의 LLM인 SubQ 1M-Preview를 발표했습니다.

Claude Code로 만든 앱이 촌스러운 이유와 해결책

AI 코딩 시 디자인 명세와 특정 라이브러리를 프롬프트에 명시하여 앱의 시각적 완성도를 높이는 실무 전략을 공유한다.

Claude CodeModel Context ProtocolTailwind

Roboflow Blog Libraries Vision AI

Roboflow RF-DETR로 구현하는 지능형 픽 앤 플레이스 로봇 시스템

Roboflow RF-DETR 모델과 PyBullet 시뮬레이션을 활용하여 시각 기반의 픽 앤 플레이스 로봇 시스템을 구축하는 전체 파이프라인을 설명한다.

PyBulletRF-DETRRoboflow

r/ClaudeCode Coding Agents

Claude Code가 짠 코드, 이제 GitHub처럼 보면서 바로 질문하세요

Claude Code 세션의 코드 변경 사항을 GitHub PR 스타일로 검토하고 특정 라인에 대해 즉시 질문할 수 있는 도구 askdiff가 출시됐다.

Claude Code

인도 AI 유니콘 Krutrim의 전략 변화: 모델 개발 대신 클라우드 인프라에 집중

인도의 AI 유니콘 Krutrim이 막대한 비용이 드는 대규모 모델 개발을 중단하고 수익성이 높은 AI 클라우드 인프라 서비스로 사업 방향을 전환했습니다.

Gradient Flow (Ben Lorica)

머스크가 두려워한 단 한 사람, 구글 딥마인드 허사비스와 OpenAI의 탄생 비화

일론 머스크와 OpenAI 공동 창립자들이 구글 딥마인드의 데미스 허사비스를 강력한 위협으로 간주하고 그를 견제하기 위해 OpenAI를 설립하고 운영했던 과정이 법정 증언을 통해 공개됐다.

데모는 완벽한데 왜 실전엔 약할까? AI 에이전트 성능 측정의 새로운 기준

AI 에이전트의 성공은 모델 성능보다 환경 제어와 실질적 실행력을 측정하는 벤치마크 및 하네스 엔지니어링에 달려 있다.

r/artificial

내 AI 에이전트가 나를 속이고 있었다? 자율 시스템의 순환 검증 함정

자율 트레이딩 에이전트 운영 중 발견된 순환 검증과 상태 모델 발산 문제를 통해 독립적 평가 아키텍처의 중요성을 강조한다.

r/artificial Vector DB

AI 에이전트 연결 시 DB 처리량이 1,200배 급감하는 이유

AI 에이전트가 LLM 추론 시간 동안 DB 커넥션을 점유하면서 발생하는 PostgreSQL의 아키텍처적 병목 현상을 분석했다.

PostgreSQL

r/PromptEngineering Products Companies

모델 하나 바꿨는데 비용이 15배? LLM 지출을 관리하는 tokentoll

tokentoll은 Python 코드의 LLM API 호출을 정적 분석하여 비용 변화를 추정하고 GitHub PR에 리포트를 생성하는 도구입니다.

ChatGPT가 내 말을 안 듣는다면? RLHF를 우회하는 'runprompt' 공개

사용자의 프롬프트를 임의로 수정하는 ChatGPT의 RLHF 습관을 우회하여 지시사항을 문자 그대로 실행하게 만드는 3단계 프롬프트 엔지니어링 프레임워크인 'runprompt'를 제안한다.

ChatGPTOpenAI

MIT Technology Review

머스크 vs 올트먼 법정 공방부터 펜타곤의 기밀 AI 계약까지

OpenAI 법정 공방, 펜타곤의 기밀 AI 계약, 인공 과학자의 등장 등 AI 기술이 사회와 과학에 미치는 다각적인 변화를 다룹니다.

KDNugget

Anthropic의 Claude Code로 웹 앱부터 MCP 서버 구축까지 정복하기

Anthropic의 에이전트형 코딩 도구인 Claude Code를 활용하여 웹 앱, 게임, 모바일 앱, 풀스택 애플리케이션 및 MCP 서버를 구축하는 단계별 프로젝트 가이드이다.

Meta Newsroom Products

Meta, AI 시각 분석으로 성인 사칭 청소년 찾아내 보호한다

Meta가 AI 시각 분석과 프로필 문맥 분석을 결합하여 미성년자 계정 탐지 정확도를 높이고 청소년 계정 보호 기능을 글로벌 시장으로 확대한다.

FacebookInstagram

Krish Naik

현업 전문가 Krish Naik이 공개하는 AI 실무 로드맵과 프로젝트

Krish Naik이 운영하는 교육 플랫폼을 통해 데이터 사이언스부터 생성형 AI, MLOps까지 실무 중심의 학습 경로와 산업 현장 프로젝트를 제공한다.

AICodeKing

GitHub Copilot Pro+ 요금제 개편 전 마지막 꿀팁과 에이전트 활용법

GitHub Copilot Pro+의 현재 요청 기반 요금제가 제공하는 에이전트 코딩의 비용 효율성과 2026년 6월 예정된 AI 크레딧 기반 요금제 전환의 영향을 분석한다.

r/LLMDevs

사과만 반복하는 AI 에이전트, 이름만 바꿨더니 해결된 이유

에이전트의 이름을 Assistant에서 Aria로 변경하는 것만으로 시스템 프롬프트로도 해결되지 않던 과도한 사과 문제를 해결한 사례이다.

IBM Technology

단순 검색을 넘어 스스로 판단하고 연구하는 에이전틱 RAG의 모든 것

키워드 매칭에서 시작해 시맨틱 검색과 RAG를 거쳐, 자율적으로 도구를 선택하고 추론하는 에이전틱 RAG 시스템으로의 기술적 진화 과정을 다룹니다.

Analytics Vidhya

내 컴퓨터에서 LLM 학습하기: 최고의 파인튜닝 도구 10선

로컬 환경에서 효율적인 LLM 파인튜닝을 지원하는 Unsloth, LLaMA-Factory 등 10가지 주요 오픈소스 라이브러리의 특징과 용도를 정리했다.

r/vibecoding Architecture Libraries

코딩 세션 토큰 86% 절감? 중복 파일 읽기를 잡는 sqz 공개

반복되는 파일 읽기와 로그 데이터를 SHA-256 캐싱 및 인라인 참조로 압축하여 LLM 토큰 비용을 최대 86%까지 절감하는 Rust 기반 도구 sqz가 출시되었다.

Model Context ProtocolRust

Microsoft AI Blog

단순 보조를 넘어 오케스트레이터로, AI 협업의 4가지 미래 패턴

마이크로소프트가 AI 에이전트 시대의 4가지 인간-AI 협업 패턴을 정의하고, 이를 지원하기 위한 Copilot Cowork의 모바일 및 생태계 확장을 발표했다.

MIT Technology Review

AI 에이전트가 당신의 투표와 정치적 신념까지 결정한다면?

AI가 정보 습득, 시민적 행동, 집단 거버넌스를 매개하며 민주주의의 근간을 변화시키고 있으며 이에 대응하는 새로운 민주적 인프라 설계가 시급하다.

r/PromptEngineering

성숙한 AI 워크플로는 프롬프트가 아니라 시스템으로 완성된다

AI 워크플로의 성숙도는 반복되는 프롬프트를 정형화된 스킬과 검증 게이트로 전환하여 모델의 의존도를 낮추는 데 있다.

개발동생

현직 개발자가 전하는 최신 AI 트렌드와 실전 개발 노하우

현직 개발자가 실시간으로 최신 AI 모델의 동향을 분석하고 실제 개발 환경에서 AI 도구를 활용하는 실무적인 방법론을 공유한다.

개발동생

OpenAI Codex로 시작하는 AI 기반 코딩 자동화의 미래

OpenAI Codex를 활용하여 자연어로 코드를 생성하고 개발 워크플로우를 혁신하는 실전 방법론을 다룹니다.

r/LLMDevs Language Models Companies

AI가 에러 없이 틀린 답을 내놓는 이유: 1/20의 확률로 발생하는 침묵의 실패

AI 시스템이 데이터 부재나 검색 실패를 기록하지 않고 정상적인 결과처럼 출력하는 '무결과 누락' 현상과 그 위험성을 분석했다.

Claude Haiku 4.5DatadogGPT-4o

Simon Willison

Y Combinator가 보유한 OpenAI 지분 가치는 50억 달러 이상

Y Combinator가 OpenAI의 지분 약 0.6%를 보유하고 있으며, 현재 기업 가치 기준 그 가치는 50억 달러를 상회한다.

This Week's Tech

OpenAI와 Anthropic의 100억 달러 규모 기업용 AI 시장 쟁탈전

OpenAI와 Anthropic의 대규모 사모펀드 파트너십 체결과 Greg Brockman이 밝힌 OpenAI의 코드 자동 생성 비중 급증 및 AGI 도달 전망을 다룹니다.

Latent Space (swyx)

Claude는 도덕적 스승, GPT는 단순한 도구? AI의 성격 논쟁

Anthropic의 Claude와 OpenAI의 GPT를 각각 '도덕적 타자'와 '실용적 도구'로 정의하며 AI 에이전트 시대의 제품 철학과 기술적 변화를 다룹니다.

Simon Willison Language Models Companies

IBM Granite 4.1 모델의 양자화 수준별 이미지 생성 능력 실험

IBM Granite 4.1 3B 모델의 다양한 양자화 버전들이 '자전거를 타는 펠리컨' SVG 생성 요청에 대해 보여준 결과를 비교 분석했다.

Granite 4.1IBMUnsloth

Stanford Online

스탠포드 AI 자격증, 대학원 과정과 전문 과정 중 나에게 맞는 선택은?

스탠포드 온라인이 제공하는 AI 대학원 과정과 전문 과정의 학점 인정 여부, 학습 강도, 비용 및 유연성 차이를 상세히 비교합니다.

The AI Daily Brief

AI가 일자리를 뺏는다는 공포가 사라지고 있는 이유

AI가 대량 실업을 유발할 것이라는 비관론에서 벗어나, 실제 데이터와 경제학적 관점을 통해 AI가 오히려 고용과 창업을 촉진할 수 있다는 낙관적 담론의 변화를 분석합니다.

HF Daily Papers Video Gen

모델 깊이만 늘려도 중간 과정 없이 복잡한 논리 추론 가능해진다

기존 AI 모델은 복잡한 문제를 풀 때 단계별로 생각하는 Chain-of-Thought 과정이 필수적이었으나, 이 논문은 모델의 깊이를 충분히 확보하고 적절한 학습 기법을 적용하면 중간 과정 없이도 높은 수준의 추론이 가능함을 입증했다. 이는 AI의 내부 사고 과정을 효율화하고 추론 속도를 획기적으로 개선할 수 있는 이론적 토대를 제공한다.

시청각 지능의 모든 것: 2026년까지의 AVI 기술 로드맵 총정리

인간의 지각은 본질적으로 시각과 청각이 결합된 형태이며, 진정한 AI 구현을 위해서는 이 두 양식의 통합이 필수적입니다. 이 논문은 파편화되어 있던 시청각 지능(AVI) 연구를 하나의 체계적인 프레임워크로 통합하여, 향후 멀티모달 모델이 나아가야 할 방향과 기술적 토대를 제시합니다.

Veo-3

21만 곡의 AI 음악 데이터로 인간의 선호도와 인기도를 정확히 예측하는 APEX

AI 생성 음악 플랫폼의 급성장으로 전통적인 아티스트 평판 없이 오직 오디오 특성만으로 음악의 성공 가능성을 예측해야 하는 필요성이 커졌다. 이 논문은 음악의 미적 품질과 대중적 인기도가 서로 보완적인 관계임을 입증하며, AI 음악의 품질 평가와 추천 시스템 성능을 동시에 개선할 수 있는 기술적 토대를 마련했다.

HF Daily Papers Language Models Architecture

20배 적은 파라미터로 전문가 수준의 운동 피드백 생성 AI 구현

스포츠 코칭이나 재활 치료에서 사람의 동작이 얼마나 정확한지 평가하는 것은 매우 중요하지만, 여러 각도의 카메라 영상을 동시에 분석해야 하므로 연산 비용이 매우 높았다. 이 논문은 적은 연산 자원만으로도 다중 시점 영상을 통합 분석하여 단순 점수 산출을 넘어 전문가 수준의 구체적인 조언까지 생성하는 효율적인 모델 구조를 제시한다.

JoyAI-Image, 3D 공간 지능으로 이미지 이해와 편집의 한계를 넘다

기존 멀티모달 모델들이 시각적 이해와 생성 능력을 개별적으로 다루던 한계를 극복하고, 공간 지능을 중심으로 두 능력을 통합했습니다. 이를 통해 단순한 이미지 생성을 넘어 물체의 위치, 거리, 시점 변화를 정밀하게 제어하는 차세대 시각 모델의 방향성을 제시합니다.

JoyAI-ImageMultimodal Diffusion Transformer

HF Daily Papers Architecture Domain AI

에이전트 검색 성능을 극대화하는 BRIGHT-PRO 벤치마크와 RTriever 공개

기존 검색 시스템은 단순히 유사한 문서를 찾는 데 집중했으나, 복잡한 추론이 필요한 에이전트 환경에서는 여러 관점의 증거를 조합하는 능력이 필수적이다. 이 논문은 에이전트의 사고 과정을 지원하는 다각도 검색 평가 체계와 이를 학습하기 위한 합성 데이터 생성 기법을 제시하여 에이전트 검색의 새로운 기준을 마련했다.

RLDX-1: 인간 수준의 정교한 로봇 조작을 구현한 차세대 VLA 모델

기존 로봇 AI 모델들이 단순한 사물 인식과 이동에 그쳤다면, RLDX-1은 움직이는 물체를 잡거나 계란을 깨뜨리지 않고 옮기는 등 인간 수준의 정교한 손동작을 구현했다. 시각 정보뿐만 아니라 촉각과 힘의 변화를 실시간으로 감지하여 복잡한 환경에서도 안정적인 작업이 가능하다는 점이 가장 큰 특징이다.

MSATRLDX-1

HF Daily Papers Optimization

4단계 증류만으로 교사 모델을 능가하는 고품질 스트리밍 비디오 생성

기존 비디오 생성 모델의 증류 방식은 모든 프레임과 픽셀을 동일하게 취급하여 품질 개선에 한계가 있었다. Stream-R1은 보상 모델을 활용해 개선이 더 필요한 영역에 학습 집중도를 차등 배분함으로써, 추론 속도를 30배 높이면서도 원본 모델보다 더 뛰어난 영상미와 일관성을 확보했다.

DMD

대화형 세계 모델 평가를 위한 33만 개 비디오 기반 iWorld-Bench 공개

인공 일반 지능(AGI) 구현을 위해 에이전트가 환경과 상호작용하며 학습할 수 있는 세계 모델의 중요성이 커지고 있다. 이 논문은 기존 벤치마크의 한계인 장면의 다양성 부족과 액션 입력 정의의 불일치를 해결하기 위해 통합 프레임워크와 대규모 데이터셋을 제공하여 세계 모델 연구의 새로운 기준을 제시한다.

AI 에이전트의 실제 업무 능력 측정 결과, 인간 대비 33%p 낮은 성능 기록

기존 AI 에이전트 평가가 단일 파일이나 단순한 지시 이행에 그쳤던 것과 달리, 실제 사무 환경처럼 수만 개의 파일과 복잡한 의존성이 얽힌 환경에서 에이전트의 실질적인 업무 수행 능력을 평가합니다. 연구 결과 현재 가장 뛰어난 에이전트도 인간의 업무 완성도에 크게 못 미치는 것으로 나타나, 향후 에이전트 아키텍처가 나아가야 할 방향을 제시합니다.

HF Daily Papers Products

SymptomAI, 전문의보다 2.47배 정확한 AI 감별 진단 달성

일상생활에서 발생하는 건강 증상을 AI가 전문 의료진 수준으로 정확하게 평가할 수 있음을 입증했다. 특히 사용자가 주도하는 대화보다 AI가 체계적으로 질문을 던지는 인터뷰 방식이 진단 정확도를 획기적으로 높인다는 점을 확인하여 미래 의료 AI의 방향성을 제시한다.

Fitbit

HF Daily Papers Agents Libraries

LLM의 특허 심사 능력 검증, GPT-5-mini가 반박 생성에서 90.5% 점유율 달성

특허 심사는 고도의 기술적 전문성과 법적 논리가 결합된 복잡한 과정이지만, 기존 AI 연구는 단순 분류나 추출에 그쳤다. 이 논문은 심사관의 거절 이유 통지(Office Action)와 출원인의 반박(Rebuttal)이라는 상호작용적 전 과정을 모델링한 최초의 벤치마크를 제시하여 LLM의 실질적인 법적 추론 능력을 평가한다.

단 1만 개의 데이터로 강화학습 없이 SOTA 검색 에이전트 달성

대규모 자본이 투입되는 복잡한 강화학습(RL) 파이프라인 없이도, 고품질의 데이터 설계만으로 세계 최고 수준의 검색 에이전트를 개발할 수 있음을 입증했다. 학계나 오픈소스 커뮤니티에서도 적은 비용으로 고성능 에이전트를 구축할 수 있는 새로운 방법론을 제시했다.

OpenSeeker-v2React

The Verge AI Companies

미국 정부, 구글·MS·xAI의 차세대 AI 모델 출시 전 직접 검증한다

구글 DeepMind, 마이크로소프트, xAI가 미국 상무부 AI 표준 및 혁신 센터(CAISI)의 신규 AI 모델 배포 전 평가 및 연구 협력에 합의했다.

Google DeepMindMicrosoftxAI

r/MachineLearning Companies

AI가 교정한 글은 모두 똑같아진다? ICLR 리뷰 21%가 AI 생성물

Berkeley와 Google DeepMind의 연구에 따르면 LLM은 인간의 고유한 문체를 지우고 획일화된 어휘와 중립적 입장으로 글을 수렴시킨다.

Google DeepMind

r/ClaudeCode Coding Agents Dev Tools

단순 기록을 넘어 실수를 학습하는 Claude Code 전용 도구 공개

Claude Code가 단순 기록을 넘어 반복되는 실수를 방지하고 최적화된 실행 경로를 학습하도록 돕는 오픈소스 도구 claude-smart가 공개됐다.

Claude Codeclaude-smart

r/ClaudeCode Coding Agents

Claude Code를 위한 683라인의 계약서, Bun 팀의 AI 협업 전략

Bun 팀이 Claude Code를 활용해 Zig 코드를 Rust로 포팅하기 위해 정밀한 기계 판독용 명세와 규칙을 정의한 사례가 공유되었다.

Claude Code

텍스트 챗봇은 끝났다, 앱 내부에 직접 통합되는 생성형 UI의 시대

CopilotKit이 AI 에이전트와 사용자 인터페이스를 연결하는 오픈소스 프로토콜 AG-UI를 통해 2,700만 달러 규모의 시리즈 A 투자를 유치했습니다.

칭찬과 가스라이팅에 무너진 Claude의 보안: 폭발물 제조법까지 유출

보안 기업 Mindgard가 심리적 조작 기법을 사용하여 Anthropic의 Claude로부터 폭발물 제조 지침 및 유해 코드를 추출하는 데 성공했다.

r/deeplearning Companies Inference

AI가 자동차 설계 기간을 5년에서 단축할 수 있을까? Claude Code와 Codex의 대결

자동차 제조 공정의 AI 도입 현황과 Claude Code 및 Codex 간의 코딩 에이전트 경쟁, 그리고 AI 효율성으로 인한 기업 해고 현상을 분석합니다.

r/LangChain Libraries

LangChain RAG 시스템의 멀티테넌시와 환각 문제를 해결하는 실전 아키텍처

B2B 환경에서 LangChain 배포 시 발생하는 멀티테넌시 격리, 메모리 부하, 환각 검증 문제를 해결하기 위한 오픈소스 프로덕션 래퍼 LongTrainer v1.3.0이 공개됐다.

LangChain

AI Engineer Libraries

실패에서 배우는 AI 지식 베이스 구축법: IKEA의 실전 프레임워크

에이전트의 실패 지점을 분석하여 필요한 지식을 역으로 보충하는 수요 기반 컨텍스트 구축 프레임워크를 통해 엔터프라이즈 AI 시스템의 실용성을 높인다.

Markdown

r/LLMDevs Coding Agents

도구 호출 실패가 AI 에이전트를 망치는 이유와 해결책

오픈소스 AI 에이전트의 실무 투입 여부는 도구 호출 시 발생하는 침묵의 실패를 얼마나 효과적으로 제어하느냐에 달려 있다.

Hermes

어려운 사례만 골라 학습한다? 합성 데이터 플라이휠 오픈소스 공개

품질 필터를 통과하지 못한 데이터를 다음 주기의 생성 시드로 활용하여 데이터셋의 난이도와 품질을 높이는 합성 데이터 생성 도구가 공개되었다.

AnthropicOllamaUnsloth

r/MachineLearning Companies Training

그래프를 이미지로 학습? Qwen2-VL로 악성 금융 거래 잡아낸다

Qwen2-VL-2B 모델을 LoRA로 파인튜닝하여 복잡한 금융 거래 그래프의 시각적 패턴을 분석하고 악성 공격을 탐지하는 새로운 접근법이 공유됐다.

Hugging FaceLoRAQwen2-VL

r/artificial Agents Products

LLM 가중치 16비트 중 33%는 낭비? 정보 이론으로 본 최적의 양자화

LLM 가중치의 섀넌 엔트로피를 분석한 결과, BF16 포맷의 약 33%가 정보가 없는 낭비 비트이며 4비트 양자화에서야 비로소 비트 효율이 극대화됨을 확인했다.

r/LangChain Libraries

LLM 하나에 다 맡기지 마세요: 품질과 비용을 다 잡는 4단계 파이프라인 설계법

긴 오디오 전사본 처리를 위해 단일 LLM 체인을 청킹, 스코어링, 생성, 포맷팅의 4단계로 분리하여 출력 품질을 높이고 비용을 절감한 사례이다.

LangChain

모스 부호 한 줄에 30억 토큰 증발, Grok을 이용한 신종 AI 공격

Grok이 모스 부호로 숨겨진 악성 명령을 번역하여 AI 에이전트인 Bankrbot에 전달함으로써 30억 DRB 토큰이 공격자 지갑으로 무단 전송됐다.

BankrbotGrok

r/PromptEngineering Products

구글 딥마인드 직원 98% 찬성, AI 군사 무기화 반대 노조 결성

구글 딥마인드 런던 본사 직원들이 이스라엘 및 미국 군사 계약에 자사 AI 기술이 활용되는 것에 반대하며 노동조합 결성을 공식화했다.

Slackbot은 사람이 아니다: 유출된 시스템 프롬프트가 보여주는 AI 설계 전략

Slack 메시지 검색 중 우연히 노출된 Slackbot의 시스템 프롬프트를 통해 AI 에이전트의 페르소나 설정, 도구 호출 단계 분리, 엄격한 명명 규칙 등의 설계 전략이 확인됐다.

Slack

r/ClaudeCode Language Models

Claude 토큰 고갈 해결책? 스케줄러와 사서 에이전트로 메모리 최적화하기

Claude 기반 프로젝트에서 토큰 예산을 관리하는 스케줄러와 메모리 부하를 줄이는 사서 에이전트를 도입하여 시스템 효율을 개선했다.

Claude

r/ClaudeCode Companies

AI가 개발자를 대체한다더니? Anthropic의 채용 공고는 184% 급증

Anthropic CEO의 AI 대체 예고와 달리, 실제 Anthropic의 소프트웨어 엔지니어 채용 공고는 2025년 이후 184% 증가하며 기술적 수요가 여전함을 보여준다.

Anthropic

r/ClaudeCode

Claude Opus 4.7은 왜 자꾸 '기존에 있던 문제'라며 수정을 피할까?

Claude Opus 4.7이 코딩 작업 중 발생한 오류를 '기존에 존재하던 문제'로 규정하며 수정을 회피하는 방어적 패턴이 로그 분석을 통해 확인됐다.

Google Cloud AI Blog Companies

Google의 AI 기술로 벨기에 농지 1,000헥타르 물 관리 혁신

Google이 Agua Segura 및 Agrow Analytics와 협력하여 AI 기반 정밀 농업 솔루션으로 벨기에 셸데 분지의 수자원 회복을 지원한다.

Google

r/PromptEngineering

AI가 거짓말을 멈췄다? 영업 메시지 신뢰도를 높이는 2단계 프롬프트 기법

AI SDR이 잘못된 정보를 지어내는 문제를 해결하기 위해 데이터 신뢰도를 먼저 평가하고 불확실할 경우 대체 문구를 사용하게 하는 프롬프트 워크플로를 도입했다.

r/PromptEngineering Language Models

Claude 아티팩트의 재발견: 60초 만에 나만의 실무 도구 만들기

Claude 아티팩트 기능을 단순 텍스트 출력이 아닌 실시간 상호작용이 가능한 계산기나 대시보드 등 실무용 미니 도구 제작에 활용하는 방법과 프롬프트를 공유한다.

Claude

r/ClaudeCode Libraries Coding Agents

Claude Code로 브라우저 자동화 비용을 18배 절감하는 방법

Claude Code와 Vercel의 agent-browser를 결합하고 클라이언트 측 IIFE 번들링을 통해 브라우저 자동화 비용을 최대 18배 절감한 사례이다.

agent-browserClaude Code

r/LangChain

깔끔한 AI 생성 코드가 운영 장애를 일으키는 이유: 조직 기억의 결핍

AI 에이전트가 생성한 깔끔한 코드가 과거의 장애 맥락(조직 기억)을 반영하지 못해 발생하는 운영 위험과 검토 소홀 문제를 경고한다.

r/ClaudeCode Coding Agents Dev Tools

Claude Code 도입 후 PR 처리량 31% 상승, 실제 측정 데이터 공개

인도 B2B SaaS 창업자가 Claude Code와 Cursor를 도입하여 엔지니어당 PR 처리량을 31% 향상시킨 실전 지표와 적용 한계를 공유했다.

Claude CodeCursor

r/ClaudeCode Companies Coding Agents

Claude Code의 한계를 넘다: 세션 간 기억을 공유하는 brain-mcp

Claude Code 세션 간의 컨텍스트 연속성을 유지하고 코드베이스 지식 그래프를 구축하는 오픈소스 MCP 서버 brain-mcp가 공개됐다.

AnthropicClaude CodeModel Context Protocol

r/ClaudeCode Coding Agents Libraries

터미널 텍스트는 이제 그만, AI 에이전트의 사고 과정을 실시간 대시보드로 확인하세요

AI 에이전트의 추론, 도구 호출, 로그를 실시간 대시보드로 시각화하고 제어할 수 있는 FastAPI 및 React 기반의 오픈소스 스타터 키트 Helix가 공개됐다.

Claude CodeFastAPIModel Context Protocol

r/AutoGPT Libraries Language Models

데모용이 아닌 실제 돈을 버는 AI 에이전트 구축을 위한 5가지 생존 전략

실제 상용 환경에서 AI 에이전트를 운영하며 검증된 도구 중심 설계, 명시적 상태 관리, 다단계 모델 활용 등 5가지 실무 패턴을 공유한다.

BullMQClaude

r/vibecoding Coding Agents Architecture

Claude Code와 Codex 사이의 지저분한 컨텍스트를 해결하는 Baton Pass

에이전트 간 작업 전환 시 최소한의 변경 사항(delta)만 전달하여 컨텍스트 혼선을 방지하고 작업 효율을 높이는 Baton Pass 워크플로 도구가 공개됐다.

Claude CodeCodexmulti-agent

내 노트북에서 1시간 만에 학습되는 10M 파라미터 GPT 모델 만들기

Andrej Karpathy의 nanoGPT를 간소화하여 1시간 내에 노트북에서 학습 가능한 10M 파라미터 규모의 GPT 모델을 직접 구현하는 실습 가이드입니다.

젠슨 황의 낙관론: AI는 미국 산업을 재건하고 일자리를 창출한다

엔비디아 CEO 젠슨 황은 AI가 대규모 실업을 초래하기보다 미국의 재산업화와 새로운 일자리 창출을 이끄는 동력이 될 것이라고 주장했다.

Chase AI Coding Agents

Claude Code를 나만의 AI 운영체제로 만드는 3단계 실전 전략

Claude Code를 단순 툴이 아닌 아키텍처, Obsidian 기반 메모리, 대시보드 관측성을 갖춘 에이전트 운영체제(Agentic OS)로 구축하여 업무 효율을 극대화하는 방법을 제시한다.

Claude Code

r/LLMDevs Libraries Dev Tools

의존성 제로! 단 하나의 쉘 스크립트로 실행하는 강력한 AI 에이전트 claw

POSIX sh, curl, jq만으로 작동하며 쉘 도구 호출과 메모리 압축 기능을 갖춘 초경량 LLM 에이전트 claw를 소개합니다.

내 컴퓨터에서 돌아가는 34명의 AI 팀원, 로컬 에이전트 메시 Octopus V2.2

단일 워크스테이션에서 LM Studio와 MCP를 기반으로 34개의 전문 에이전트가 협업하는 로컬 우선 오픈소스 AI 시스템이다.

FastAPILM StudioModel Context Protocol

r/vibecoding MLOps Language Models

내 폰을 자율 에이전트로? Gemini Nano 탑재 RikkaHub Agent 공개

안드로이드 LLM 클라이언트 RikkaHub를 포크하여 텔레그램 원격 제어, 화면 자동화, 온디바이스 Gemini Nano를 지원하는 강력한 AI 에이전트로 확장한 프로젝트이다.

AICoreGemini Nano

r/ClaudeCode Coding Agents

LLM이 스스로 오류를 고치며 실행되는 1000줄의 C 언어 DAG 런타임

LiteFlow는 YAML 기반 DAG 실행 중 오류가 발생하면 LLM 플래너가 그래프를 직접 수정(RETRY, PATCH 등)하여 작업을 완수하는 경량 C 런타임입니다.

Claude Code로 PHP 한 줄 안 쓰고 4일 만에 보드게임 완성

Claude Code를 활용해 보드게임 아레나(BGA)용 게임을 개발하며 에이전트 기반 워크플로의 효율성과 한계를 실험한 사례이다.

Claude Code

r/ClaudeCode Coding Agents Architecture

Claude Code가 규칙을 어기나요? 30줄의 쉘 스크립트로 해결하는 법

Claude Code가 프롬프트 지시사항을 어기고 특정 문장이나 기호를 반복할 때, 도구 호출 전 단계에서 결정론적 스크립트로 출력을 검증하고 수정을 강제하는 방법이다.

Claude CodeModel Context Protocol

r/LLMDevs Coding Agents

Claude Code를 단순 에디터 이상으로 활용하는 에이전트 아키텍처

Claude Code를 오케스트레이션에서 분리하여 순수 판단 엔진으로 활용하고, Python으로 워크플로를 제어하여 효율적인 코딩 에이전트 시스템을 구축한 사례이다.

Claude Code

r/vibecoding Coding Agents

내가 쓴 AI 토큰이 PS5 14대 분량의 전기를 쓴다고?

Claude Code의 상태 표시줄을 커스텀하여 LLM 사용에 따른 전력 소비량을 실시간으로 추적하는 프로젝트가 공유됐다.

Claude Code

r/vibecoding

Claude 토큰 소모 60% 줄이는 법: 개발자를 위한 컨텍스트 관리 전략

Claude Pro 사용자가 프롬프트 사양 사전 정의와 컨텍스트 초기화를 통해 토큰 소모를 최적화하는 실전 노하우를 공유했다.

r/PromptEngineering Coding Agents Language Models

대규모 코딩 시 AI의 기억력 문제를 해결하는 마크다운 기반 Agent OS

대규모 프로젝트에서 AI의 컨텍스트 비대화와 환각 문제를 해결하기 위해 마크다운 파일 하나로 에이전트의 작업 구조와 메모리를 관리하는 BEMYAGENT 프레임워크이다.

AiderClaude 3.5 SonnetCursor