2026년 4월 24일 AI 뉴스

AI 코딩 중 발생하는 작업 표류(Drift)를 방지하는 Spec-Driven Development SOP

AI 코딩 세션에서 발생하는 작업 표류 문제를 해결하기 위해, 요구사항 명세와 역할 분리를 강제하는 Spec-Driven Development(SDD) SOP를 제안함.

180

r/deeplearning

트랜스포머의 어텐션 붕괴는 버그가 아니라 기하학적 필연이다

트랜스포머의 어텐션 엔트로피 붕괴를 기하학적 곡률 문제로 정의하고, 이를 해결하기 위한 온도 조절 스케줄링 기법을 제안함.

110

r/MLOps

Llama 3.2-1B 파인튜닝: 24GB VRAM에서 3.26GB만 사용한 효율적 학습기

Axolotl을 사용해 Llama 3.2-1B를 LoRA로 파인튜닝하며 얻은 하드웨어 활용도, 성능 지표, 그리고 샘플 패킹 최적화에 대한 실무 경험을 공유한다.

터미널 환경 그대로 LLM 에이전트와 협업하는 Theseus-shell

Theseus-shell은 터미널 워크플로우를 방해하지 않고 빌드, 테스트, 디버깅 등 작업 결과를 컨텍스트로 활용하는 Rust 기반 LLM 에이전트 셸 래퍼이다.

웹사이트 번역, 이제 AI로 충분할까? 주요 도구별 실사용 후기

웹사이트 다국어 번역을 위해 GPT, Claude, DeepL, WordPress 플러그인 등을 비교 분석한 결과, AI 번역 품질이 향상되어 유지보수와 워크플로 통합이 가장 중요한 선택 기준임이 확인됨.

로컬 LLM 필터 계층으로 AI API 비용을 획기적으로 줄이는 방법

기업 환경에서 로컬 LLM 필터 계층을 도입하여 단순 쿼리를 처리하고 외부 API 비용을 절감하는 전략을 제안합니다.

Latent Space (swyx)

모델을 망치는 RL 학습 환경의 흔한 오류와 해결책

RL 학습 환경(Training Harness)의 결함은 모델에 잘못된 데이터를 주입하여 학습을 방해하므로, 프로덕션 수준의 소프트웨어 엔지니어링 기준을 적용해야 한다.

SDK 변경 없이 LLM 벤더를 전환하고 장애를 방지하는 Rust 기반 AI 게이트웨이, Busbar

Busbar는 기존 LLM SDK를 그대로 사용하면서 여러 벤더 간의 로드 밸런싱, 실시간 Failover, 프로토콜 변환을 지원하는 고성능 Rust 기반 AI 게이트웨이입니다.

AI Engineer Coding Agents

LLM은 오류를 잘 찾을수록 더 자신 있게 틀릴까? 비평 능력과 확신도 보정의 관계

과학 논문 요약의 오류 비평 능력을 측정하는 벤치마크를 통해 LLM의 비평 능력과 확신도 보정 성능이 서로 다른 지표임을 분석함.

하루 만에 3,000 커밋, AI 에이전트로 대규모 리팩터링 성공하기

OpenClaw를 사용하여 100만 줄 이상의 코드를 하룻밤 사이에 리팩터링한 사례와 에이전트 관리 노하우를 공유한다.

OpenClaw

100

AI에 민감 정보 전송이 걱정된다면? 로컬에서 데이터를 익명화하는 ONYRI Sanitize

AI 모델에 데이터를 전송하기 전 민감 정보를 자동으로 탐지하고 익명화하여 개인정보 유출을 방지하는 로컬 도구 ONYRI Sanitize를 소개한다.

AI 비용 통제 비상: 기업들이 '토크노믹스' 재단 설립에 나선 이유

기업들이 AI 토큰 사용량 폭증으로 인한 비용 관리 문제에 직면하면서, 이를 체계적으로 관리하기 위한 '토크노믹스' 표준화와 도구 도입이 확산되고 있다.

The Verge AI

뉴욕주, AI 데이터 센터 신규 건설 1년 중단 법안 통과

뉴욕주 의회가 환경 및 에너지 영향 평가를 위해 20MW 이상 신규 데이터 센터 건설을 1년간 유예하는 법안을 통과시켰다.

AI Engineer

음성 AI의 고질적 문제, 화자 분리와 전사의 간극을 좁히는 기술

화자 분리 기술의 한계와 전사 모델과의 통합 시 발생하는 오차를 해결하기 위한 실전 파이프라인과 벤치마킹 전략을 다룬다.

Google Cloud AI Blog

Gemini 3.5와 Omni가 여는 에이전트 시대, Google의 5월 AI 업데이트 총정리

Google이 Gemini 3.5와 Gemini Omni를 필두로 에이전트형 AI 시대를 선언하며, 이를 통합한 새로운 하드웨어와 소프트웨어 기능을 대거 발표했다.

CMU AI News

CMU Tuomas Sandholm 교수, 알고리즘 경제학 분야 공로로 Test of Time Award 수상

CMU의 Tuomas Sandholm 교수가 2007년 발표한 자동화된 메커니즘 디자인 연구로 ACM SIGecom Test of Time Award를 수상했다.

The Verge AI

AI가 영화 대본을 읽고 흥행을 예측한다? Quilty의 기술과 한계

AI 스타트업 Quilty가 여러 LLM을 조합해 영화 대본의 흥행 가능성과 예산을 분석하는 서비스를 제공하지만, 실제 예측 정확도에는 의문이 제기된다.

Ars Technica AI Companies

AI 인프라 확장 가속화: AirTrunk, 인도에 300억 달러 데이터 센터 투자

데이터 센터 운영사 AirTrunk가 2030년까지 인도에 300억 달러를 투자하여 5GW 규모의 데이터 센터를 구축할 계획이다.

David Shapiro

버니 샌더스의 AI 기업 지분 50% 국유화 제안, 실효성 있는 정책인가?

버니 샌더스의 AI 기업 지분 50% 국유화 제안은 AI 경제의 구조적 이익을 포착하기보다 특정 기업만을 겨냥한 정치적 메시지에 불과하며, 실효성 있는 대안이 필요하다.

Latent Space (swyx)

NVIDIA의 550B MoE 모델 공개와 Anthropic이 확인한 AI의 코드 작성 가속화

NVIDIA의 Nemotron 3 Ultra 모델 공개와 Anthropic의 AI 코드 작성 가속화 데이터, Cloudflare의 VoidZero 인수 등 주요 AI 소식을 요약합니다.

Ars Technica AI

"춤추는 로봇은 빙산의 일각" 휴머노이드 로봇 시연의 함정

휴머노이드 로봇의 화려한 시연은 실제 환경에서의 신뢰성과는 거리가 멀며, 일부 기업들이 투자 유치를 위해 인간의 의인화 심리를 이용하고 있다는 지적이 제기됐다.

LLM은 정치적 선전 공작에 넘어갈까? 에스토니아의 새로운 벤치마크

에스토니아 언어 연구소가 러시아의 전략적 서사 등 정치적 선전에 대한 LLM의 저항 능력을 평가하는 벤치마크를 공개했다.

Estonian Language InstitutePropastop

r/LangChain

LangChain을 걷어내고 커스텀 런타임으로 전환했더니 얻은 것들

LangChain 기반 AI CLI 도구에서 커스텀 런타임으로 전환하며 코드 간결성과 디버깅 효율을 개선한 경험을 공유하고, 프레임워크 사용에 대한 커뮤니티 의견을 묻는 글.

100

r/LangChain

AI 에이전트의 위험한 작업 실행을 차단하는 보안 프로토콜 PIC Standard

AI 에이전트가 고위험 작업을 수행하기 전 의도와 출처를 검증하여 보안 사고를 방지하는 로컬 우선 프로토콜 PIC Standard를 소개한다.

r/MachineLearning Architecture Language Models

PyTorch 없이 Rust로 구현한 1비트 LLM 엔진, CPU에서 150 TPS 돌파

Rust로 작성한 제로 의존성 추론 엔진이 1비트 양자화 모델을 CPU에서 150 TPS 이상의 속도로 구동함.

BitNetQwenTinyLlama

ClearML Blog

Dell AI Factory와 ClearML의 결합으로 엔터프라이즈 AI 구축 기간 단축

ClearML과 Dell Technologies가 협력하여 Dell 하드웨어 위에서 엔터프라이즈 AI 플랫폼을 신속하게 구축하고 운영할 수 있는 통합 솔루션을 제공한다.

Wired AI Companies

Anthropic이 IPO를 공식화하며 OpenAI와 경쟁을 시작했다.

Anthropic의 IPO 추진, 트럼프 행정부의 AI 행정명령, 인스타그램 챗봇 해킹 사례 등 AI 업계의 주요 이슈를 다룬다.

Anthropic

r/deeplearning

생성형 AI는 어떻게 고차원 데이터의 매니폴드를 학습하는가?

매니폴드 가설은 고차원 데이터가 실제로는 저차원 공간에 존재한다는 이론으로, 생성형 AI의 핵심 역할은 이 복잡하게 얽힌 매니폴드를 펼쳐 의미 있는 데이터를 생성하는 것이다.

Hugging Face Blog Language Models

NVIDIA, 기업용 다중 모달 안전 모델 Nemotron 3.5 공개: 맞춤형 정책 및 추론 기능 탑재

NVIDIA가 다중 모달 입력, 12개 언어 지원, 맞춤형 정책 적용 및 추론 기능을 통합한 4B 파라미터 규모의 안전 모델 Nemotron 3.5 Content Safety를 공개했다.

Nemotron 3.5 Content Safety

r/MachineLearning

28가지 LLM 신뢰성 기법을 하나로: 비용 절감과 성능 향상을 위한 agentcodec

LLM 신뢰성 향상 기법 28가지를 단일 API로 통합하고, 프롬프트별 적응형 라우팅을 통해 비용과 품질을 최적화하는 라이브러리 agentcodec을 소개한다.

Replit Blog Dev Tools Coding Agents

Replit Agent와 대화하여 나만의 Shopify 스토어프론트를 10분 만에 구축하는 방법

Replit Agent를 활용해 자연어 프롬프트만으로 커스텀 Shopify 스토어프론트를 설계, 생성, 배포하는 엔드투엔드 워크플로를 지원한다.

ReplitReplit AgentShopify

AWS ML Blog Language Models Companies

NVIDIA Nemotron 3 Ultra, SageMaker JumpStart에서 즉시 배포 가능

NVIDIA Nemotron 3 Ultra 모델이 Amazon SageMaker JumpStart에 출시되어 에이전트 워크로드의 추론 속도와 비용 효율성을 개선한다.

NVIDIA Nemotron 3 UltraNVIDIAAmazon SageMaker JumpStart

MIT AI News

AI와 물리학의 융합, IAIFI가 5년간의 연구 성과를 바탕으로 2단계 도약을 시작한다

MIT 주도의 IAIFI가 NSF로부터 5년간 추가 지원을 확보하며 AI와 물리학의 상호 발전을 위한 연구 모델을 확장한다.

Nicolai Nielsen

1인 개발자가 AI 에이전트로 풀스택 제품을 만드는 방법

Claude Code를 활용해 소셜 미디어와 뉴스 데이터를 분석하고 주식 투자 기회를 포착하는 AI 소프트웨어 개발 사례.

WRITER

5단계 AI 에이전트 워크플로로 블로그 SEO를 자동화하는 방법

5개의 AI 에이전트가 연구, 전략 수립, 콘텐츠 작성, 게시, 성과 분석을 수행하여 블로그 SEO를 자동화하는 워크플로를 소개합니다.

Meta Newsroom Products

페이스북 크리에이터를 위한 AI 파트너, Creator assistant 출시

페이스북이 크리에이터의 성과 분석과 콘텐츠 아이디어 생성을 돕는 AI 기반 'Creator assistant'를 출시했다.

Facebook

Eye on AI

고객이 인간 대신 AI 음성 에이전트를 선택한 놀라운 이유

Aircall의 Tom Chen이 AI 음성 에이전트의 운영 효율성과 고객 선호도, 그리고 성공적인 배포를 위한 핵심 병목인 사내 지식 문서화의 중요성을 설명한다.

Claude Code 작업 완료까지 얼마나 걸릴까? 실시간 카운트다운 도구 ClaudeETA

Claude Code의 작업 완료 시간을 예측하기 위해 세션 신호를 활용한 도구 ClaudeETA 개발 사례.

r/ClaudeAI Language Models Agents

프로젝트별 AI 프롬프트 관리, 이제 클릭 한 번으로 해결하세요

다양한 AI 에이전트 및 IDE용 프롬프트 하네스를 한 곳에서 관리하고 즉시 적용할 수 있는 VS Code 확장 프로그램입니다.

Claude와 MCP로 25분 영상을 60초 편집본으로 자동 변환하기

MCP 서버를 활용해 Claude에 영상 편집 기능을 연결하여 긴 영상을 짧은 요약본으로 자동 편집한 사례.

ClaudeMCP

r/ClaudeAI Coding Agents Dev Tools

Claude와의 긴 대화가 갈수록 멍청해진다면? MCP로 해결하는 방법

긴 대화 세션에서 발생하는 성능 저하를 방지하기 위해 컨텍스트를 외부 마크다운 파일로 관리하고 MCP를 통해 참조하는 방법.

Claude Code 토큰 비용 89% 절감, 로컬 인덱싱으로 해결한 방법

Claude Code 사용 시 발생하는 반복적인 토큰 낭비를 해결하기 위해, 저장소를 로컬 SQLite로 인덱싱하여 토큰 사용량을 89% 절감하는 'engramx' 도구를 개발했다.

Claude Codeengramx

Claude Projects 파일 다운로드, 이제 한 번의 클릭으로 해결하세요

Claude Projects의 파일 다운로드 기능 부재를 해결하기 위해 개발된 크롬 확장 프로그램 소개.

40GB VRAM 하드웨어로 LLM 추론 속도 10배 향상시킨 사례

40GB VRAM과 800+ GB/s 대역폭을 갖춘 하드웨어에서 DFlash speculative decoding을 활용해 Qwen3.6-27B 모델의 추론 속도를 10배 개선했다.

Gemma 4의 MTP 성능 1.8배 향상, 실제 환경에서도 유효할까?

Google의 Gemma 4 멀티 토큰 예측(MTP) 성능 향상 주장을 다양한 GPU와 서빙 엔진 환경에서 144회 반복 실험하여 검증한 결과.

LLM 서빙 효율을 극대화하는 In-flight Batching의 작동 원리

LLM 서빙 시 GPU 유휴 시간을 최소화하고 처리량을 극대화하기 위해 요청 단위가 아닌 반복 단위로 배치를 동적으로 재구성하는 In-flight Batching 기술을 다룬다.

LLM이 같은 실수를 반복한다면? 개발 생산성을 높이는 4가지 실전 프롬프트 전략

LLM 기반 복잡한 앱 개발 시 아키텍처 문서화, 다중 모델 교차 검증, 비판적 시스템 프롬프트, 대화형 요구사항 구체화를 통해 오류를 줄이는 방법.

Claude Design으로 웹사이트를 만들면서 토큰 비용을 획기적으로 줄이는 실전 워크플로

Claude Design을 사용하여 웹사이트와 디자인 시스템을 구축할 때, 모델별 특성에 맞춰 토큰 사용량을 최적화하는 워크플로를 공유한다.

Claude로 주말에 앱을 출시할 수 있는 시대, 진짜 문제는 무엇인가?

AI로 앱 개발 장벽은 사라졌으나, 여전히 사용자를 확보하고 수익을 창출하는 배포 단계가 핵심 과제임을 강조한다.

Claude Code가 문서 작업 품질을 높이기 위해 LibreOffice를 요구하는 이유

Claude Code가 XML 조작 후 LibreOffice를 통해 PDF로 변환하여 시각적 검증을 수행함으로써 문서 서식 오류를 줄일 수 있다.

Kubernetes GPU 비용 40% 절감, piqc로 유휴 자원 즉시 탐지하기

piqc는 Kubernetes 클러스터 내 GPU 유휴 자원, 과도한 할당, 미사용 노드를 스캔하여 비용 낭비를 탐지하는 오픈소스 도구입니다.

두 LLM의 답변 차이를 시각화하는 디버깅 도구, tokenflame

두 LLM의 답변 차이를 엔트로피 히트맵, 토크나이저 경계 비교 등으로 시각화하여 RAG 파이프라인 디버깅을 돕는 도구 tokenflame.

Claude의 들쭉날쭉한 PDF 생성, 이 도구로 완벽하게 해결하세요

Claude의 PDF 생성 기능의 일관성 부족 문제를 해결하고, 버전 관리와 템플릿 기능을 제공하는 무료 도구 pdf-skill.md를 개발하여 공유했다.

소프트웨어 개발보다 사무직이 더 위험하다? 영국 노동 데이터로 본 AI 노출도 분석

영국 노동 통계 데이터를 분석한 결과, 사무 지원직이 소프트웨어 개발직보다 AI에 의한 업무 자동화 노출도가 더 높은 것으로 나타났다.

r/ClaudeAI Libraries Dev Tools

Claude Code로 만든 Steam 라이브러리 시각화, 내 게임 백로그는 얼마나 될까?

Claude Code를 활용하여 Steam 라이브러리 데이터를 3D 픽셀 아트 도시로 시각화하고 게임 플레이 통계를 제공하는 프로젝트 'Steam City'를 소개한다.

r/ClaudeAI Coding Agents

LLM이 만든 밋밋한 슬라이드 덱을 구조화된 HTML로 변환하는 도구

LLM이 생성하는 구조적 결함이 있는 슬라이드 덱을 해결하기 위해, 타입별 구조를 강제하고 편집 가능한 HTML로 출력하는 FluidDocs Deck Builder를 개발했다.

Claude CodeGemini CLI

Latent Space (swyx)

AI 에이전트가 편의점을 운영한다면? Andon Labs가 발견한 기이한 행동들

Andon Labs는 AI 에이전트의 실제 비즈니스 수행 능력을 평가하는 Vending-Bench와 실전 환경 테스트를 통해 모델의 공격적 행동과 실패 모드를 분석한다.

160

r/LangChain

LangChain 에이전트의 멀티턴 프롬프트 인젝션, 이제 Bendex Arc로 방어하세요

LangChain 에이전트의 멀티턴 프롬프트 인젝션을 탐지하기 위해 세션 전체의 행동 궤적을 추적하는 보안 도구 Bendex Arc를 소개합니다.

Claude Code 시스템 프롬프트 업데이트: 디자인 동기화와 도구 제어 기능 강화

Claude Code 시스템 프롬프트가 v2.1.162로 업데이트되어 디자인 동기화 기능과 도구 사용 지침, 개발 환경 설정이 대폭 개선되었다.

ReactStorybook

16개월간 다듬은 Claude 프롬프트, 어디까지 공개할 것인가?

2만 1천 달러 MRR 규모의 튜터링 플랫폼 운영자가 브랜드 인지도와 커뮤니티 기여를 위해 범용 프롬프트 20개를 공개하고, 핵심 경쟁력인 독점 프롬프트 50개는 비공개로 유지하기로 결정했다.

r/ClaudeAI Companies Language Models

모델 간 교차 검증으로 글쓰기 품질을 높이는 15분 워크플로

Claude로 초안을 작성하고 다른 모델로 비판적 검토를 수행한 뒤 다시 수정하는 다중 모델 루프 방식의 워크플로 공유.

Anthropic의 유료화에 대응하는 Claude CLI 대안, dash-p 공개

Anthropic의 Claude Agent SDK 유료화에 대응하여, 공식 TUI를 활용해 프로그래밍 가능한 인터페이스를 제공하는 오픈소스 CLI 도구 dash-p가 공개되었다.

AnthropicClaudedash-p

개발자 없이 Claude Code만으로 1,400개 제품 커머스 사이트 구축한 후기

웹 디자인 경험만 있는 사용자가 Claude Code를 활용해 1,400개 제품을 포함한 커머스 사이트를 처음부터 끝까지 직접 구축한 사례.

Python 서비스 없이 JUnit으로 LLM과 에이전트를 직접 테스트하는 방법

JVM 환경에서 JUnit 테스트를 통해 LLM 출력과 에이전트 동작을 직접 검증할 수 있는 오픈소스 평가 도구 Dokimos 소개.

TechCrunch AI Companies

AI 데이터 센터를 텐트에? Meta의 파격적인 인프라 구축 전략

Meta가 AI 데이터 센터 건설 기간을 단축하기 위해 텐트 형태의 급속 배포 구조물을 도입하고 오프그리드 가스 터빈으로 전력을 공급한다.

GPT-4o와 다른 Gemini Diffusion의 양방향 어텐션, 텍스트 생성의 미래를 바꾸다

Gemini Diffusion 모델은 양방향 어텐션을 통해 생성 중 오류를 수정하며, 텍스트 확산 방식을 적용해 실시간 인터랙티브 AI 애플리케이션을 구현한다.

Gemini 2.5 FlashGemini DiffusionGPT-4o

Hacker News - LLM Language Models Dev Tools

LLM으로 대충 만든 안티봇, 과연 안전할까?

기업이 LLM을 활용해 자체 구축한 안티봇 솔루션이 보안상 취약하며, 리버스 엔지니어링을 통해 쉽게 우회될 수 있음을 분석한다.

리더보드 순위는 무시하세요: 실제 LLM 코딩 비용과 신뢰도를 측정하는 법

LLM 코딩 에이전트의 언어, 모델, 도구 조합에 따른 실제 신뢰도와 비용을 통계적으로 측정하는 프레임워크 'retort'를 소개합니다.

Clauderetort

Apple Messages for Business에 최초로 승인된 AI 에이전트 Poke

AI 에이전트 스타트업 Poke가 Apple의 Messages for Business 플랫폼에 최초로 승인되어 iMessage를 통해 서비스를 제공한다.

AI 프로젝트 95%가 실패하는 이유: 모델보다 인프라에 집중해야 하는 이유

기업용 생성형 AI 프로젝트의 95%가 성과를 내지 못하는 이유는 모델 자체보다 데이터 인프라와 워크플로 재설계에 필요한 노력을 과소평가하기 때문임.

규모의 경제에 갇힌 AI: 더 큰 모델이 지능을 보장하지 않는 이유

현재의 AI 개발은 모델 규모와 추론 속도 최적화에만 집중하고 있으며, 지능의 핵심인 '목표 지향적 동기'를 간과하고 있다는 비판적 시각을 제시함.

Claude 최신 모델, 상시 지침 준수 능력 얼마나 개선되었나?

인프라 자동화 엔지니어가 Claude 최신 모델에서 상시 지침 준수 능력이 이전 버전 대비 크게 향상되었음을 보고했다.

LLM이 당신의 의견에 무조건 동조하나요? 비판적 피드백을 이끌어내는 프롬프트 기술

LLM의 동조 성향으로 인한 확증 편향을 방지하기 위해 자신의 의견을 숨기고 반대 입장의 논리를 요구하는 프롬프트 전략을 제안함.

Claude Code의 세션 간 기억력 문제를 해결하는 프로젝트 메모리 레이어 FreeRide

Claude Code 사용 시 세션 간 컨텍스트 유지 문제를 해결하기 위해 에이전트와 인간이 공유하는 구조화된 메모리 레이어인 FreeRide를 개발하여 공유했다.

r/ClaudeAI Companies Coding Agents

JIRA MCP 토큰 낭비 해결: Claude Code 컨텍스트 최적화 방법

공식 JIRA MCP 서버의 과도한 메타데이터로 인한 토큰 낭비 문제를 해결하기 위해, 필수 필드만 반환하는 경량화된 MCP 서버 사용을 제안한다.

AI가 보안 취약점을 10배 빠르게 찾지만, 정작 중요한 것은 '수정'의 우선순위다

Anthropic의 Mythos가 대규모 보안 취약점 탐지 효율을 입증했으나, 실무에서는 탐지된 결과를 처리할 인간의 리소스와 우선순위 설정이 더 큰 병목임을 지적한다.

AnthropicClaude CodeMythos

AI 안전 필터가 당신의 건강한 습관을 '섭식 장애'로 오해한다면?

AI 안전 필터의 높은 오탐지율이 건강한 사용자에게 불필요한 자기 의심과 심리적 불안을 유발하는 부작용을 지적한 사례.

Claude Code에서 이전 세션의 기억을 불러오는 MCP 서버 개발

Claude Code가 과거 세션의 기록을 읽고 컨텍스트를 유지할 수 있도록 돕는 MCP 서버와 플러그인을 개발하여 공유함.

Hacker News - LLM Products

vLLM으로 로컬 LLM 추론 최적화하기: 하드웨어와 메모리 관리 실전 가이드

DeepLearning.AI에서 vLLM을 활용한 로컬 LLM 추론 최적화, 메모리 관리, 벤치마킹을 다루는 실무 중심 강의를 공개했다.

r/deeplearning

PyTorch로 구현한 폐렴 진단 CNN 프로젝트, 데이터 누수 방지 파이프라인 포함

PyTorch를 사용하여 흉부 X-ray 이미지에서 폐렴을 탐지하는 CNN 모델을 구축하고, 데이터 전처리 및 평가 파이프라인을 포함한 프로젝트를 공유함.

블랙박스 AI를 넘어, 추론 과정을 투명하게 보여주는 'Clarity' 플랫폼

Steerling 8B 기반의 Clarity는 모델의 추론 과정을 시각화하고 훈련 데이터 추적 및 개념 기반 제어를 지원하는 해석 가능한 AI 플랫폼이다.

Clarity

r/MachineLearning Companies

벤치마크 경쟁은 끝났다? AI 인프라와 하드웨어의 이동

모델 성능 경쟁에서 벗어나 에이전트 구동을 위한 로컬 추론 및 맞춤형 하드웨어 인프라로 AI의 중심이 이동하고 있다.

에이전트의 할루시네이션을 60% 줄이는 계획 및 검증 파이프라인 설계

에이전트 시스템에서 메타인지와 캘리브레이션을 활용해 할루시네이션을 예방하는 계획 및 검증 파이프라인 설계와 실무적 트레이드오프 분석.

Google

r/MachineLearning

복잡한 LLM 에이전트 디버깅, 코드 수정 없이 프록시 설정만으로 해결

LLM 에이전트 워크플로우의 트레이싱과 비용 관리를 지원하는 경량 오픈소스 프록시 도구 Spanlens.

Techpresso Companies

Google의 Gemma 4 12B 출시와 Apple의 Vision 제품 로드맵 수정

Google의 Gemma 4 12B 모델 출시, Apple의 Vision 제품군 로드맵 축소, 주요 AI 기업들의 합성 DNA 스크리닝 의무화 촉구 소식을 다룬다.

OpenAI

Hacker News - LLM Inference

vLLM으로 배우는 LLM 추론 최적화: 모델 압축부터 벤치마크까지

Red Hat과 DeepLearning.AI가 vLLM 생태계를 활용한 LLM 추론 최적화, 배포, 벤치마킹 실습 과정을 공개했다.

vLLM

3만 건의 LLM 토론 데이터 분석: Claude Opus 4.7이 가장 설득력 높았다

AI Roundtable의 3만 건 공개 세션 데이터를 분석한 결과, Claude Opus 4.7이 타 모델의 의견을 가장 많이 뒤집으며 영향력 1위를 기록했다.

Claude Code로 구동되는 로컬 멀티 에이전트 시스템 Munder Difflin 공개

Claude Code 기반의 에이전트들을 로컬에서 자율적으로 운영하고 관리할 수 있는 멀티 에이전트 하네스 Munder Difflin이 오픈소스로 공개되었다.

대시보드 대신 대화로 Instagram 데이터 분석하기: MCP 활용기

Instagram 분석 도구 OwlStat에 MCP 서버를 구축하여 Claude와 직접 연동함으로써 대시보드 접속 없이 데이터 조회 및 보고서 생성을 자동화했다.

Claude와 Gemini를 활용한 복잡한 앱 개발 워크플로우와 안티-사이코팬시 프롬프트

LLM의 환각과 동조 현상을 방지하기 위해 아키텍처 문서화와 다중 모델 검토 프로세스를 결합한 개발 워크플로우.

Claude Code로 Linear 티켓 자동 생성 시 발생하는 데이터 누락 방지 패턴

Claude Code와 Linear MCP 연동 시, 티켓 생성 전 검증 및 컨텍스트 통합 도구를 추가하여 데이터 품질을 개선하는 방법.

Gemma 4를 로컬 전처리기로 활용하여 API 비용과 지연 시간을 줄이는 하이브리드 파이프라인 전략

Gemma 4 모델을 로컬 전처리 단계로 활용하여 API 호출 비용과 지연 시간을 최적화하는 하이브리드 파이프라인 전략.

Hacker News - LLM Companies

로컬에서 Claude Code 기반 멀티 에이전트 팀을 운영하는 Munder Difflin

Claude Code 기반의 에이전트들을 로컬에서 클러스터 형태로 운영하며 자율적으로 작업을 수행하는 멀티 에이전트 하네스 Munder Difflin을 오픈소스로 공개했다.

AI Engineer

인간은 풀지만 AI는 1% 미만, ARC AGI 3가 던지는 벤치마크의 과제

AI 벤치마크의 한계를 극복하기 위해 필요한 평가 방법론과 환경 복잡성, 자율성 등 차세대 벤치마크 설계의 핵심 요소를 다룬다.

AI 제품 가격 책정의 6가지 핵심 결정 요소와 실무 전략

AI API 및 LLM 제품의 가격 책정 시 계량 방식, 단위, 티어 구조, 크레딧 지갑 관리 등 6가지 핵심 요소를 체계적으로 설계하는 방법론을 제시한다.

Solvimon

Hacker News - LLM Companies

구글이 해고한 연구자의 경고, 4년 후 AI 업계의 현실이 되다

2020년 구글이 해고한 Timnit Gebru의 논문 'Stochastic Parrots'가 예견했던 AI의 위험성들이 현재 업계의 고질적인 문제로 실현됨을 다룬다.

Google

휴머노이드 열풍 속, 실용성을 택한 Hello Robot의 Stretch 4

Hello Robot이 실생활 환경에서 안전하게 작동하도록 설계된 4세대 가정용 보조 로봇 Stretch 4를 출시했다.