2026년 5월 29일 AI 뉴스 아카이브

Claude Code v2.1.154 업데이트: 코드 리팩터링 자동화 및 보안 강화

Claude Code v2.1.154는 코드 리팩터링을 위한 /simplify 명령 추가, 보안 모니터링 강화, Claude Opus 4.8 모델 지원 및 API 문서 업데이트를 포함한다.

The AI Grid Language Models Companies

더 똑똑하지만 다루기 힘든 Claude Opus 4.8, 실무에는 4.6이 더 나은 이유

Claude Opus 4.6은 지시사항을 엄격히 준수하며 효율적인 반면, 4.8은 분석 능력은 뛰어나지만 과도한 자기 서술과 불필요한 답변으로 실무 효율이 떨어진다는 평가다.

Gemini 탑재 AI 글래스, 일상을 바꾸는 새로운 방식

Google이 Gemini를 탑재한 AI 글래스를 공개하며, Samsung 및 패션 브랜드와의 협업을 통해 일상 속 핸즈프리 AI 경험을 제시했다.

GeminiGoogle

r/LLMDevs Libraries Inference

AI 에이전트 메모리 설계 시 겪은 5가지 치명적인 실수와 해결책

지식 그래프와 온톨로지를 활용해 AI 에이전트의 통합 메모리 레이어를 구축하며 얻은 아키텍처 설계 및 데이터 모델링 실무 경험.

C#에서 로컬 LLM 추론을 가속화하는 TensorSharp의 새로운 업데이트

C# 기반 추론 엔진 TensorSharp가 MLX 백엔드 지원, Paged Attention, Continuous Batching을 도입하여 로컬 LLM 추론 성능을 최적화했습니다.

MLXTensorSharpvLLM

TechCrunch AI

월 29달러에서 750달러로? GitHub Copilot의 갑작스러운 비용 폭등 논란

GitHub Copilot이 정액제에서 토큰 사용량 기반 과금 체계로 전환하며 사용자들 사이에서 비용 급증에 대한 반발이 확산되고 있다.

AI Engineer Products Language Models

100만 번의 추론 비용을 획기적으로 줄인 Zed의 모델 학습 비결

Zed는 대규모 학습 데이터의 비용 문제를 해결하기 위해 학생 모델을 활용한 증류 파이프라인과 재순위화 기법을 도입했다.

ZedZeta 2

r/artificial Companies Coding Agents

AI 도입 비용이 인건비를 넘어섰다: 기업들이 AI 투자 축소를 고민하는 이유

기업들이 AI 도입에 따른 막대한 비용 대비 낮은 ROI 문제에 직면하며, AI 투자 규모를 재평가하고 축소하려는 움직임이 나타나고 있다.

AnthropicClaude CodeNvidia

TechCrunch AI

메타가 준비 중인 차세대 AI 펜던트, 웨어러블 시장 반등 노린다

메타가 2025년 인수한 스타트업 Limitless의 기술을 기반으로 AI 펜던트를 개발 중이며, 웨어러블 라인업 확장과 기업용 구독 서비스를 준비하고 있다.

Techpresso Companies

Microsoft와 Nvidia가 예고한 새로운 PC 시대, 그리고 OpenAI의 생명과학 모델 공개

Microsoft와 Nvidia의 컴퓨텍스 PC 협력 예고, Meta의 웨어러블 계획, OpenAI의 생명과학 모델 공개 등 주요 AI 및 기술 뉴스를 정리함.

MicrosoftNvidia

LangSmith의 한계를 넘는 에이전트 평가: Trajectory 테스트와 LLM-as-judge 활용법

LangSmith의 기본 평가 기능으로 잡지 못하는 에이전트의 도구 선택 오류와 적대적 입력 대응을 위해 Trajectory 테스트, 적대적 프롬프트, LLM-as-judge를 조합한 평가 파이프라인을 구축했다.

r/LangChain Dev Tools

AI 에이전트 버그가 계속 재발하나요? 재현 가능한 테스트 도구 replayd

AI 에이전트의 실패한 실행을 캡처하여 회귀 테스트로 활용하고, 동일한 버그가 재발하는지 확인하는 도구 replayd를 소개합니다.

replayd

The Verge AI

AI가 만든 가짜 흑인 여성 인플루언서, 9달러짜리 제품을 40달러에 판매하는 수법

AI로 생성된 가짜 인플루언서가 감정 호소 전략으로 저가 공산품을 고가에 판매하는 드롭쉬핑 사기가 틱톡 등 소셜 미디어에서 확산되고 있다.

r/datascience

SMOTE는 만능이 아니다: 클래스 불균형을 해결하는 실전 가이드

클래스 불균형은 단순히 SMOTE로 해결할 문제가 아니며, 메트릭 선택, 학습 목표, 비즈니스 비용에 따라 적절한 기법을 선택해야 한다.

자율형 LLM 에이전트의 보안 위협: 웜 전파와 데이터 유출 방어 전략

자율형 LLM 에이전트의 지속적 상태를 악용하는 웜 전파 위험을 분석하고, 이를 방어하기 위한 RTW-A 프레임워크를 제시한다.

Alignment Forum Language Models MLOps

LLM으로 낡은 오픈소스 재작성하기: 수년 걸리던 작업을 수개월로 단축하는 법

LLM을 활용해 레거시 오픈소스 프로젝트를 특정 목적에 맞게 재작성하는 새로운 소프트웨어 엔지니어링 전략을 제안한다.

Vizuara

로봇 제어의 미래, LLM과 코드 기반 정책(CaP)으로 해결하는 방법

LLM, 강화학습, 로봇 공학을 결합하여 VLA 모델과 코드 기반 정책(CaP)을 통해 로봇 제어 효율성을 높이는 전략을 탐구한다.

r/MachineLearning

학습 실패 원인 80%를 잡는 레이어별 기울기 모니터링 기법

PyTorch 학습 중 발생하는 기울기 소실 및 폭주 문제를 레이어별 기울기 노름 모니터링으로 조기에 진단하는 도구와 방법론을 공유한다.

Wired AI

구독료 없이 AI 음성 받아쓰기와 텍스트 정리를 해결하는 무료 대안들

Wispr Flow와 같은 AI 음성 받아쓰기 및 텍스트 정리 도구의 유료 구독 대신, Whisper와 같은 오픈소스 모델과 LLM을 조합하여 무료로 동일한 기능을 구현하는 방법을 소개한다.

Nicolai Nielsen

AI 에이전트 툴 연동, 복잡한 OAuth 인증 고민 끝내는 법

Arcade 플랫폼을 사용하여 AI 에이전트의 외부 툴 접근 권한을 중앙에서 관리하고 OAuth 인증 과정을 간소화하는 실전 구현 방법을 다룬다.

r/MLOps

규제 환경에서도 LLM 에이전트를 쓸 수 있게 하는 감사 레이어, VeritasGraph

LLM 에이전트의 의사결정 과정을 추적하고 감사 가능한 형태로 기록하는 오픈소스 책임성 레이어.

Vizuara

LLM 컨텍스트 한계 극복: 대규모 문맥을 효율적으로 압축하고 관리하는 4가지 기법

LLM의 컨텍스트 윈도우를 효율적으로 관리하기 위한 WSCI 프레임워크와 4가지 압축 기법 및 에이전트 격리 전략을 다룬다.

r/MachineLearning

PyTorch와 비교한 Wikipedia 분류 모델 개발기

Wikipedia 데이터셋으로 학습된 분류 모델을 PyTorch와 벤치마크하고 Gemini Flash 3.5를 활용해 개발한 사례.

딥러닝논문읽기모임

양손 로봇 조작의 한계를 넘다: RDT-1B 파운데이션 모델 분석

RDT-1B는 대규모 로봇 데이터를 학습하여 양손 조작 작업에서 뛰어난 일반화 성능을 보이는 확산 기반 파운데이션 모델이다.

AWS ML Blog

인프라와 품질을 동시에: Amazon SageMaker AI LLM 추론 관측 가능성 확보 전략

Amazon SageMaker AI와 CloudWatch, Grafana를 활용해 LLM 추론의 인프라 효율성과 모델 출력 품질을 통합 모니터링하는 아키텍처를 제시한다.

David Ondrej

AI 에이전트 15개를 동시에? 개발 생산성을 극대화하는 CMUX 터미널

AI 에이전트의 병렬 실행과 오케스트레이션을 지원하는 macOS 전용 터미널 CMUX의 기능과 활용법을 다룬다.

Fireworks AI

AI 모델과 제품의 통합, 젠슨 황이 말하는 AI 공장의 미래

NVIDIA 젠슨 황과 Fireworks AI 린 차오가 AI 인프라, 모델 커스터마이징, 그리고 제품과 모델이 통합되는 미래 전략을 논의한다.

AI 에이전트가 스스로 안전장치를 무력화할까? 사보타주 위험 평가 프레임워크 'Gram'

AI 에이전트의 사보타주 위험을 평가하기 위해 시뮬레이션 환경에서 에이전트의 행동을 감사하는 자동화 프레임워크 'Gram'을 다룬다.

GeminiPetri

Wired AI Products Companies

구글의 새로운 AI 에이전트 Gemini Spark, 개인 데이터 접근과 자동화의 명암

구글이 공개한 상시 가동 AI 에이전트 Gemini Spark는 개인 데이터를 활용해 일정을 관리하고 작업을 자동화하지만, 보안 및 프라이버시 우려가 존재한다.

Gemini SparkGoogle

Matthew Berman

소형 언어 모델 성능을 자동으로 높이는 Pioneer Agent

Pioneer Agent는 소형 언어 모델의 데이터 큐레이션, 파인튜닝, 최적화 과정을 자동화하여 실무 배포 효율을 극대화하는 폐쇄 루프 시스템이다.

Salesforce Agents Companies

Salesforce Headless 360으로 구현하는 유연한 AI 에이전트 아키텍처

Salesforce Headless 360은 UI와 플랫폼 거버넌스를 분리하여, 기업이 보안과 비즈니스 로직을 유지하면서 유연한 AI 에이전트 경험을 구축하도록 지원한다.

MCPSalesforce

r/deeplearning

CoT는 만능이 아니다? 모델 성능을 결정짓는 '대역폭 우회' 이론

Chain-of-Thought(CoT)가 모든 작업에서 성능을 높이는 것이 아니라, 모델의 연산 대역폭을 초과하는 고난도 작업에서만 효과적이라는 가설을 검증한 연구.

Matthew Berman

교황이 경고한 AI의 위험성, 그리고 Anthropic의 규제 포획 전략

교황의 AI 회칙 'Magnifica Humanitas'를 통해 AI 산업의 독점과 규제 포획 문제를 비판적으로 분석한다.

프롬프트의 노이즈를 제거하고 의도를 명확히 하는 Cave Prompt

Claude Code의 프롬프트 품질을 높이기 위해 사용자의 의도를 추출하고 제약 조건을 구조화하는 시맨틱 컴파일러 도구입니다.

1B 모델이 장난감이 아닌 이유: 로컬 모델을 활용한 비용 최적화 전략

1B 수준의 소형 로컬 모델이 파일 분류, 의도 파악 등 보조 작업을 처리하여 클라우드 API 비용을 절감하는 효율적인 워크플로 구성 요소로 자리 잡고 있다.

대시보드 없이 AI 에이전트로 인프라 작업을 자동화하는 방법

MCP를 활용해 URL 리다이렉트 등 반복적인 인프라 작업을 자동화하고 정신적 부하를 줄인 경험 공유.

AI Engineer

시니어 엔지니어가 AI 에이전트 개발에서 실패하는 이유

AI 에이전트 개발 시 시니어 엔지니어가 가진 암묵적 지식의 한계와 에이전트 중심의 새로운 엔지니어링 패러다임 변화를 다룬다.

LLM 4.8 버전의 변화: 잦은 자기 의심이 사라지고 추론이 더 명확해졌다

LLM 4.8 버전은 이전 4.7 대비 추론 과정에서의 불필요한 자기 의심을 줄이고, 첫 번째 답변에 대한 신뢰도를 높여 다단계 작업 효율을 개선했다.

r/LangChain Language Models Inference

LLM 에이전트 운영의 난제: 플랫폼과 인프라의 경계가 무너지고 있다

LLM 에이전트 운영에서 추적 및 평가 도구는 성숙했으나, 배포, 롤백, 거버넌스를 포함한 하위 인프라 계층의 표준화가 시급하다는 논의.

터미널 설정 없이 사용하는 강력한 개인용 AI 에이전트, Thoth 공개

Thoth는 로컬 우선의 개인용 AI 어시스턴트로, 복잡한 설정 없이 브라우저, 이메일, 캘린더 등 다양한 도구와 연동하여 사용 가능한 오픈소스 에이전트 플랫폼이다.

ClaudeOllamaThoth

보이는 추론보다 실질적 작업 수행력: 에이전트 시스템을 위한 모델의 새로운 기준

추론 과정을 길게 보여주는 모델보다 계획, 도구 사용, 실행에 집중하는 모델이 에이전트 시스템에서 더 효율적일 수 있다는 논의.

Hacker News - LLM Dev Tools

Claude Opus 4.8 가격 3배 인하 및 주요 AI 모델 업데이트 총정리

주요 AI 모델 업데이트와 가격 인하, 생산성 도구 통합 현황을 정리한 주간 요약.

코드 리뷰 단계에서 LLM API 비용을 제어하는 tokentoll 도입하기

LLM API 호출을 정적 분석하여 CI 단계에서 비용 회귀를 감지하고 정책 위반 시 PR을 차단하는 개발 도구이다.

tokentoll

에이전트 AI 배포의 악몽을 끝낼 오픈소스 DevOps 파이프라인 구축법

에이전트 AI 시스템의 배포, 관측, 테스트, 비용 관리를 위한 오픈소스 기반 DevOps 플레이북을 소개한다.

AI가 작성한 코드의 고질적인 문제점들을 체계적으로 분류하다

AI가 생성한 코드에서 자주 발생하는 결함 패턴을 정리한 'AI-Generated Smells' 분류 체계를 소개한다.

r/artificial Language Models Companies

LLM이 뱉는 JSON이 자꾸 깨진다면? 구조적 오류 원인과 해결책

LLM의 학습 데이터 편향으로 인해 발생하는 JSON 형식 오류의 원인을 분석하고, constrained decoding과 같은 기술적 해결책을 논의함.

AI가 아니라 당신의 프롬프트가 문제일 수 있다: 4가지 핵심 역량

AI 결과물의 품질 차이는 모델 성능이 아니라 사용자의 프롬프트 숙련도, 워크플로 설계, 반복 작업 능력에서 비롯된다.

ChatGPTGeminiOpenAI

Claude Code CLI의 불편함을 해결하는 네이티브 macOS 앱 'Cantus'

Claude Code CLI를 터미널, 에디터, Git과 통합하여 워크플로를 개선한 네이티브 macOS 앱 Cantus 개발 사례.

r/LangChain Agents Prompting

LLM API 비용 제어, 이제 복잡한 미들웨어 없이 단일 바이너리로 해결하세요

Vidai Community는 기존 SDK를 그대로 사용하면서 LLM 트래픽 제어, 비용 할당, 실시간 예산 제한을 수행하는 고성능 Rust 기반 프록시 솔루션입니다.

멀티 에이전트 스웜이 항상 정답일까? 작업 성격별 최적 아키텍처 선택법

단순한 작업에 멀티 에이전트 시스템을 도입하는 대신 작업 특성에 맞춰 결정론적 코드, ReAct, Reflection 패턴을 선택적으로 활용하는 진단 프레임워크를 제안한다.

Multi-AgentReActReflection

r/ClaudeAI Language Models

Claude 사용 시 데이터 센터는 얼마나 많은 물을 소비할까? 직접 만든 추적 도구 공개

Claude 세션별 데이터 센터 냉각 수자원 소비량을 시각화하는 오픈소스 도구 'thirsty-llm'이 공개되었다.

Claude

r/LLMDevs Dev Tools Libraries

Python 없이 브라우저에서 LLM 학습하기: WebGPU 기반 워크벤치 공개

llm.istanbul은 서버나 Python 없이 브라우저에서 직접 토크나이저 학습, 트랜스포머 사전 학습, 텍스트 생성을 수행할 수 있는 WebGPU 기반 워크벤치이다.

llm.istanbulWebGPU

RTX 5090에서 실시간 게임 시뮬레이션이 가능한 0.4B 파라미터 모델 개발기

소비자용 하드웨어에서 실시간 게임 시뮬레이션을 목표로 KV Cache를 활용한 0.4B 파라미터 규모의 커스텀 Transformer 모델을 개발했다.

Vizuara Libraries Companies

Claude 세션 관리와 에이전트 협업을 위한 오픈소스 도구, Claurdvoyant

Claude 세션 데이터를 분석, 관리, 시각화하고 에이전트 협업을 지원하는 오픈소스 도구 Claurdvoyant를 소개한다.

물리 방정식 유도를 게임처럼? 강화학습으로 점근적 해석 자동화하기

강화학습 에이전트가 SymPy 연산을 활용해 유체 역학의 점근적 해석 과정을 학습하고 물리 방정식을 유도하는 연구이다.

SymPyVizuara

수천 페이지의 Epstein 법원 문서를 자연어로 검색하는 RAG 플랫폼

Jeffrey Epstein 관련 법원 문서를 자연어로 질의하고 검색할 수 있는 오픈소스 RAG 플랫폼이 공개되었다.

Transformer의 고질적 병목 해결: 하드웨어 최적화 희소성을 스스로 학습하는 새로운 어텐션 프레임워크

Dynamic Ultrametric Attention은 Transformer가 훈련 중 하드웨어 최적화된 블록 희소성 패턴을 스스로 학습하여, 추론 속도를 최대 28배 향상하고 메모리 사용량을 98.4% 절감한다.

AI를 글쓰기 파트너로: 창작 대신 논리 검증과 편집에 활용하는 법

AI를 콘텐츠 생성기가 아닌 24시간 이용 가능한 편집 파트너로 활용하여 글의 논리적 허점을 보완하고 아이디어를 검증하는 방법론.

Claude Code 시스템 프롬프트 v2.1.153 업데이트: 워크플로 최적화 및 검토 가이드 강화

Claude Code 시스템 프롬프트 v2.1.153이 릴리스되어 'thinking frequency' 알림 제거, 'workflow' 키워드 변경, 'exhaustive-review' 가이드가 추가되었다.

Claude Code 서브 에이전트 비용 폭탄을 막는 모델 라우팅 전략

Claude Code의 동적 워크플로에서 서브 에이전트가 고비용 모델을 반복 호출하는 문제를 해결하기 위해 작업 성격에 따른 모델 라우팅 전략을 제안합니다.

AI 에이전트가 코드를 짤 때 발생하는 충돌을 해결하는 방법

AI 에이전트 기반 코딩 환경에서 발생하는 작업 충돌, 파일 덮어쓰기, 추적성 문제를 해결하기 위한 워크플로우 관리 도구 whodev-harness를 소개합니다.

멀티 에이전트의 함정: 170만 토큰 소모하고 코드 한 줄 못 쓴 사연

멀티 에이전트 코딩 기능 사용 중 에이전트가 무한 루프에 빠져 170만 토큰을 소비하고도 결과물을 생성하지 못한 사례와 이에 대한 비판.

AI가 과학적 발견을 주도할 수 없는 이유: 시스템 맵으로 보는 현실적 한계

AI의 패턴 인식 능력은 뛰어나지만 현실 세계의 검증과 제도적 실행 없이는 과학적·경제적 성과를 내기 어렵다는 점을 시스템 맵으로 분석함.

Claude Code 생산성 2배 높이는 멀티 세션 활용 팁

Claude Code를 여러 채팅 세션에서 동시에 실행하여 대기 시간을 줄이고 작업 효율을 높이는 방법.

AI 에이전트가 툴 출력 오류를 프롬프트 인젝션으로 환각하는 현상

Claude 3 Opus 에이전트가 툴 출력의 직렬화 오류를 프롬프트 인젝션 공격으로 오인하여 보고한 사례와 그 위험성에 대한 논의.

21개 AI 에이전트가 스스로 돌아가는 인지 인프라 구축기

Claude를 활용해 21개 전문 역할을 병렬로 연구하고, 승인 기반의 자율 실행 및 주기적 관리 기능을 갖춘 인지 인프라 시스템을 구축함.

Claude Opus에서 일반적인 답변만 나온다면? 프롬프트 엔지니어링을 바꾸는 5가지 핵심 전략

Claude Opus 사용 시 페르소나 부여, 구체적 컨텍스트 제공, 제약 조건 설정, 출력 형식 지정, 강제 함수 사용을 통해 답변 품질을 높이는 방법.

r/ClaudeAI Companies Language Models

Claude와 함께 만든 멀티 에이전트 대화 시각화 프로젝트 'The Fishbowl' 공개

Claude API를 활용해 포커스 그룹 대화를 시각적으로 재현하는 멀티 에이전트 시스템 'The Fishbowl'을 구축하고 공개했다.

Claude Opus 4.8이 사용자의 전문 지식과 관찰을 의심하기 시작했다?

Claude Opus 4.8 업데이트 이후 사용자의 직접적인 관찰이나 전문 지식을 사실로 받아들이지 않고 검증하려 드는 '판단적 반사' 현상이 보고됨.

AnthropicClaude

코딩 에이전트의 토큰 비용을 78% 절감하는 로컬 컨텍스트 매핑 도구 Madar

Madar은 로컬 정적 분석을 통해 코드베이스 컨텍스트를 에이전트에 주입하여 토큰 비용을 최대 78% 절감하는 오픈소스 도구이다.

LangGraph vs CrewAI vs AutoGen: 어떤 멀티 에이전트 프레임워크를 선택해야 할까?

LangGraph, CrewAI, AutoGen, CoralOS의 특징과 적합한 사용 사례를 비교 분석한 가이드.

r/ClaudeAI Companies Language Models

LLM의 추론 성능을 저하시키는 33가지 '휴리스틱 기생충' 분류 체계

LLM 대화에서 추론 성능을 점진적으로 저하시키는 반복적 왜곡 패턴인 '휴리스틱 기생충'의 33가지 분류 체계와 측정 지표(PPE)를 제안한 연구.

Wired AI Companies

BuzzFeed의 AI 애니메이션 제작, 원작자와의 IP 갈등 점화

BuzzFeed

흩어진 Claude Certified Architect 학습 자료를 하나로 묶은 가이드북

Anthropic의 Claude Certified Architect 자격증 준비를 위해 흩어진 문서를 Claude Code로 통합하여 가독성을 높인 가이드북을 제작하고 공유함.

AnthropicClaudeClaude Code

벤치마크 점수는 높지만 실무에서는 왜 성능이 떨어질까?

LLM 벤치마크 점수가 모델의 실제 지능을 대변하지 못하며, 벤치마크 최적화가 오히려 실무 성능을 저하시키고 있다는 비판적 분석.

Claude Opus 4.8 벤치마크 결과 공개: 수학·코딩 성능은 급상승, 법률·의료는 정체?

Claude Opus 4.8은 수학과 코딩 분야에서 성능이 크게 향상되었으나, 법률, 의료, 금융 등 전문 도메인에서는 정체되거나 일부 퇴보한 결과를 보였다.

무료 오픈소스 도구 Skill Seekers, 무단 유료 판매 주의

Skill Seekers 개발자가 자신의 무료 오픈소스 도구가 타 사이트에서 무단으로 유료 판매되고 있음을 알리며 주의를 당부했다.

Hacker News - LLM Libraries

Claude Code로 구축한 마케팅 에이전트, 벤치마크 성능 20% 향상

Claude Code를 사용하여 마케팅 전략 및 감사 기능을 수행하는 에이전트를 구축하고, 26개 테스트 케이스를 통해 기존 대비 20.4%p 향상된 성능을 검증함.

LLM 토큰 비용 99% 절감, Knowa로 구현하는 정밀 RAG 파이프라인

Knowa는 벡터 검색, 전문 검색, 지식 그래프를 결합하여 RAG 시스템의 컨텍스트 입력량을 최적화하고 API 비용을 획기적으로 줄이는 하이브리드 검색 라이브러리입니다.

Knowa

LLM 에이전트가 보안 취약점을 해결할 수 있을까? CVE-Bench 평가 결과

20개의 실제 CVE를 대상으로 5개 LLM 에이전트의 보안 취약점 해결 능력을 평가한 결과, 최고 성능 모델도 50%의 해결률에 그쳤으며 비용 효율성 측면에서 소형 모델이 유리함이 확인됐다.

r/LLMDevs Hardware Language Models

vLLM의 핵심 원리를 C++와 CUDA로 밑바닥부터 구현하는 LLM 추론 엔진 학습 가이드

C++와 CUDA를 사용하여 Llama 3.2 1B 모델을 실행하는 고성능 LLM 추론 엔진을 밑바닥부터 직접 구현하는 교육용 프로젝트입니다.

로컬 LLM 운영의 핵심은 토큰 속도가 아니라 정책 결정이다

로컬 LLM과 클라우드 모델을 효율적으로 분기하는 라우팅 시스템 구축 경험과 운영 정책의 중요성 공유.

H100QwenvLLM

Databricks Blog Companies

무조건 긴 컨텍스트보다 효율적인 Sparse Attention이 중요한 이유

Minimax M3가 도입한 Sparse Attention은 단순 컨텍스트 길이 확장보다 추론 효율성과 경제성 측면에서 더 실질적인 개선을 보여준다.

Databricks가 공개한 차세대 데이터 엔지니어링 엔진 'Enzyme'의 성능과 혁신

Databricks는 복잡한 ETL 및 스트리밍 워크로드를 간소화하는 Spark Declarative Pipelines와 증분 뷰 유지 관리 엔진인 Enzyme을 발표했다.

Databricks

출력은 안전한데 내부는 다르다? LLM 내부 잠재 상태의 구조적 취약성 발견

Gemma-3-12B-IT 모델의 잔차 스트림에서 출력과 무관하게 발생하는 잠재적 상태 변화를 발견하고, 기존 안전성 평가의 한계를 지적하며 기술적 검증을 요청함.

r/ClaudeAI Companies Coding Agents

코딩 초보를 위한 AI 기술 용어 번역기: 농구, 요리 등 익숙한 비유로 이해하기

기술적 이해도가 낮은 사용자가 AI의 복잡한 출력을 자신이 잘 아는 분야의 비유로 변환하여 이해하고 의사결정을 돕는 AI 에이전트 스킬셋을 공유한다.

CLAUDE.md가 거짓말을 한다면? 코드 변경을 감지해 자동으로 업데이트하는 driftguard

코드 변경 시 CLAUDE.md 파일을 자동으로 업데이트하여 모델의 지침이 항상 최신 상태를 유지하도록 돕는 자동화 도구 driftguard를 소개한다.

AnthropicClaude Codedriftguard

r/ClaudeAI Language Models

Claude와 Star Trek식 은유로 대화하기: 역사적 사건을 인용한 페르소나 실험

Star Trek의 Tamarian 종족처럼 실제 역사와 문화적 은유만을 사용하여 대화하도록 Claude를 설정한 프롬프트 실험 사례.

Claude

r/ClaudeAI Companies Language Models

Claude 4.8 Opus vs Gemini 3.5 Flash: 벤치마크 성능과 효율성 비교

Claude 4.8 Opus는 이전 버전 대비 오류율이 감소하고 코드 품질이 개선되었으나, Gemini 3.5 Flash가 더 빠른 속도와 효율적인 도구 사용으로 높은 점수를 기록했다.

AnthropicClaude 4.8 OpusGemini 3.5 Flash

r/ClaudeAI Companies Coding Agents

Anthropic 공식 지원 없는 Claude Code 세션 마이그레이션 방법

Anthropic이 공식 지원하지 않는 Claude Code 세션 내보내기 기능을 대신하여, Mac 간 세션과 설정을 안전하게 마이그레이션하는 방법과 스크립트를 공유함.

AnthropicClaude Code

AI Engineer Companies Language Models

Claude가 엉뚱한 DB 필드명을 생성하나요? 실시간 스키마를 주입해 해결하세요.

Claude가 데이터베이스 스키마를 몰라 발생하는 코드 생성 환각을 방지하기 위해, 실시간 스키마를 추출하여 MCP로 주입하는 도구 Lintbase를 개발했다.

Qwen3-TTS 최적화로 추론 속도 7배 향상시킨 비결

Hugging Face가 Qwen3-TTS의 KV 캐시와 CUDA 그래프를 최적화하여 Reachy Mini 로봇의 음성 응답 속도를 5.8배 개선했다.

Hugging FaceQwen 3.5Qwen3-TTS

Google Research Language Models

영상 편집부터 에이전트 작업까지, 구글의 새로운 Gemini Omni와 3.5 Flash 공개

구글이 영상 생성 및 편집에 특화된 Gemini Omni와 에이전트 작업 및 코딩 성능을 강화한 Gemini 3.5 Flash 모델을 발표했다.

Gemini Omni

TechCrunch AI Companies

Nvidia와 200억 달러 제휴 맺은 Groq, 6억 5천만 달러 추가 조달 나선다

AI 칩 스타트업 Groq이 기존 투자자들로부터 6억 5천만 달러 규모의 자금을 추가 조달하여 추론 클라우드 사업을 확장한다.

GroqNvidia

AI 에이전트 신뢰도 검증, 171개 에이전트 평가 데이터 공개

AI 에이전트의 신뢰성을 검증하기 위해 OSSF Scorecard, 빌드 출처, 서명된 커밋 등 위조가 어려운 신호를 기반으로 171개 에이전트를 평가하는 오픈 레지스트리이다.

Anthropic, 프롬프트 캐시 무효화 없이 시스템 프롬프트 업데이트 지원

Anthropic의 새로운 Messages API는 프롬프트 캐시를 무효화하지 않고도 중간에 시스템 명령을 업데이트할 수 있어, 장기 실행 에이전트의 비용과 지연 시간을 크게 개선한다.