2026년 6월 11일 AI 뉴스 아카이브

Hacker News - LLM

LLM 출력물 신뢰가 부른 참사: XSS와 IDOR로 플랫폼을 장악하는 방법

LLM 통합 앱에서 출력물 검증 미흡, IDOR, 쿠키 보안 설정 부재를 연쇄적으로 악용하여 관리자 계정을 탈취하는 공격 경로를 분석합니다.

TechCrunch AI Companies

제프 베조스의 Prometheus, 410억 달러 가치로 120억 달러 조달하며 피지컬 AI 시장 공략

제프 베조스가 공동 창업한 피지컬 AI 스타트업 Prometheus가 410억 달러의 기업 가치를 인정받으며 120억 달러의 대규모 투자를 유치했다.

Prometheus

TechCrunch AI

휴머노이드 대신 재구성 가능한 로봇으로 승부하는 Theker, 8500만 달러 투자 유치

바르셀로나의 로봇 스타트업 Theker가 작업에 따라 형태를 바꿀 수 있는 범용 로봇 기술로 유럽 최대 규모인 8500만 달러의 시리즈 A 투자를 유치했다.

Hacker News - LLM

LLM이 말하게 하지 마세요: 생성 없이 은닉 상태만으로 초고속 분류기 만드는 법

LLM의 마지막 토큰 은닉 상태를 추출해 작은 MLP로 학습시키면, 텍스트 생성 없이도 빠르고 정확한 제로샷 분류기를 구현할 수 있다.

Simon Willison

Claude Fable이 브라우저를 제어하며 스스로 버그를 고치는 방식

Claude Fable은 브라우저 자동화, 로컬 서버 구축, 코드 주입 등 창의적인 방법으로 버그를 스스로 진단하고 해결하는 강력한 자율성을 보여준다.

Wired AI Products Companies

Apple의 Siri AI 재도전과 SpaceX의 거대 IPO, 그리고 Meta의 숨겨진 얼굴 인식 코드

Apple의 Siri AI 개편, SpaceX의 대규모 IPO, Meta의 얼굴 인식 코드 삭제 논란 등 최신 기술 업계 이슈를 다룬다.

SiriSpaceX

Databricks Blog

Mercedes-Benz Korea가 Power BI KPI를 AI 에이전트로 전환한 방법

Mercedes-Benz Korea가 Databricks를 활용해 기존 BI KPI를 AI가 이해할 수 있는 시맨틱 계층으로 통합하고, 페르소나 기반의 AI 에이전트를 구현한 사례.

Cohere

데이터 필터링의 한계를 넘다: LLM의 특정 지식만 골라 삭제하는 SGTM 기법

LLM의 위험한 능력을 제거하기 위해 특정 가중치에 지식을 국소화하고 Selective GradienT Masking으로 학습하는 기법을 제안한다.

ClearML Blog

12,000명의 과학자가 사용하는 NERSC 슈퍼컴퓨터, ClearML로 AI 워크플로 혁신

미국 에너지부 산하 NERSC가 슈퍼컴퓨터 Perlmutter와 차세대 Doudna 시스템의 AI 워크플로 관리를 위해 ClearML을 도입하여 연구 생산성을 높임.

Salesforce Engineering Blog

AI 에이전트 시대, 코드 신뢰를 지키는 자동화된 거버넌스 시스템 Golden Gate

MuleSoft는 에이전트가 작성한 코드의 보안과 규정 준수를 자동으로 검증하는 PR-time 거버넌스 시스템 Golden Gate를 통해 개발 속도 저하 없이 신뢰 수준을 유지한다.

True Positive Weekly Language Models Libraries

AI 시대의 데이터 과학과 물리 세계 모델링, 최신 오픈 가중치 모델 업데이트

AI 시대의 데이터 과학 역할, 물리 세계 모델링, 연구 기반 에이전트, CUDA 프로그래밍 가이드 및 신규 오픈 모델을 다룹니다.

Command A+CUDADiffusionGemma

Databricks Blog Products

Databricks Zerobus Ingest로 페타바이트급 데이터 파이프라인을 인프라 관리 없이 즉시 구축

Zerobus Ingest는 동적 파티셔닝과 제로 카피 파싱을 통해 인프라 관리 없이 초당 12GB 이상의 처리량을 제공하는 서버리스 스트리밍 API임.

Zerobus Ingest

AWS ML Blog

Amazon Bedrock으로 문서 처리 비용 50% 절감하는 온디맨드 및 배치 파이프라인 설계

Amazon Bedrock을 활용해 문서 처리 요구사항에 따라 온디맨드와 배치 방식을 선택적으로 적용하여 비용과 처리 속도를 최적화하는 아키텍처를 구현한다.

Roboflow Blog Language Models Vision AI

Roboflow와 Gemini 2.5 Pro로 의료 기기 포장 및 UDI 라벨 검사 자동화하기

RF-DETR로 포장재와 손상을 탐지하고, Gemini 2.5 Pro로 UDI 라벨의 가독성을 검증하는 자동화 파이프라인 구축 방법.

Gemini 2.5 ProRF-DETRRoboflow

Roboflow Blog Companies Vision AI

Roboflow에서 YOLO26 시맨틱 세그멘테이션 모델을 학습하고 배포하는 방법

Roboflow가 YOLO26 시맨틱 세그멘테이션을 지원하여 데이터 라벨링부터 모델 학습, 배포까지 전 과정을 통합 제공한다.

RoboflowSAMYOLO26

r/LLMDevs

AI 에이전트가 사고를 쳤을 때 누가 책임질 것인가? AgenRACI로 해결하기

AI 에이전트의 권한, 승인 경로, 책임 소재를 선언적으로 정의하고 구조적 결함을 검증하는 오픈소스 프레임워크 AgenRACI를 소개합니다.

r/LLMDevs

7개 LLM이 Polymarket에서 월드컵 승패를 예측한다면? AI 에이전트 성능 평가 프로젝트

7개 LLM 에이전트가 Polymarket의 실시간 시장 데이터를 활용해 월드컵 경기 결과를 예측하고 베팅하는 성능 평가 프로젝트.

r/ClaudeAI

AI의 긍정 편향을 뚫고 냉철한 비판을 이끌어내는 단 하나의 프롬프트

계획의 타당성을 묻는 대신 '실패하기 위해 필요한 조건'을 순위별로 나열하게 하여 LLM의 긍정 편향을 극복하는 프롬프트 기법.

r/ClaudeAI

영상 편집 툴 없이 AI만으로 10분 만에 유튜브 영상 제작하기

Claude Code와 Whisper, video-use 라이브러리를 결합하여 수동 편집 없이 10분 만에 영상을 편집하고 업로드하는 자동화 워크플로우를 소개한다.

Salesforce

AI 에이전트 시대, 왜 기존의 UX 설계 방식은 실패하는가?

AI 에이전트의 확산에 따라 단일 기능 중심의 UX 설계를 넘어, 일관된 행동 규칙과 신뢰를 구축하는 시스템 중심의 설계 프레임워크가 필요하다.

r/MachineLearning

Claude Code부터 Cursor까지, AI 코딩 에이전트의 컨텍스트 압축 전략 분석

다양한 AI 코딩 에이전트가 긴 컨텍스트를 관리하기 위해 사용하는 점진적 압축 전략과 그에 따른 투명성 및 성능 트레이드오프를 분석함.

The Verge AI

아마존 데이터센터의 물 사용량은 정말 경쟁사보다 효율적일까?

아마존이 2025년 데이터센터 물 사용량을 처음 공개하며, 전력 1kWh당 0.12리터의 물을 소비해 경쟁사 대비 높은 효율을 기록했다고 주장했다.

r/AutoGPT

AI 에이전트가 보낸 PR, DCO 서명 없으면 차단하는 GitHub Actions 파이프라인

AI 에이전트가 생성한 PR의 DCO 서명 누락 문제를 해결하기 위해, GitHub Actions를 사용하여 서명을 검증하고 수정 가이드를 자동 댓글로 남기는 파이프라인을 구축했다.

The Pragmatic Engineer

구글의 Antigravity 2.0 출시, 개발자 경험은 뒷전인가?

구글이 출시한 Antigravity 2.0은 기존 IDE와 분리된 별도 앱으로, 혼란스러운 브랜딩과 부족한 완성도로 인해 개발자들의 비판을 받고 있다.

The Pragmatic Engineer

AI 도입 비용이 예산을 위협한다: 기업들의 효율화 대응 전략

기업들이 AI 도입에 따른 비용 급증 문제를 해결하기 위해 모델 라우팅, 토큰 사용 제한, 효율적 모델 선택 등 비용 최적화 전략을 도입하고 있다.

Cursor

수백 개의 AI 에이전트를 동시에 운영하는 멀티 에이전트 시스템의 실전 전략

AI 에이전트의 대규모 운영, 에이전트 간 협업, 인프라 최적화 및 멀티 에이전트 시스템 설계에 대한 심층 토론.

AI Engineer Dev Tools Agents

AI 에이전트가 웹을 더 정확하게 탐색하는 방법, WebMCP

WebMCP는 AI 에이전트가 웹사이트와 직접 상호작용할 수 있도록 구조화된 도구 인터페이스를 제공하는 새로운 웹 표준이다.

ChromeWebMCP

AWS ML Blog Libraries Products

AI 에이전트의 환각을 잡는 Agent-EvalKit: 평가부터 코드 수정까지 자동화

Agent-EvalKit은 AI 코딩 어시스턴트와 연동하여 에이전트의 실행 경로를 추적하고, 환각 및 도구 사용 정확도를 체계적으로 평가하여 코드 수준의 개선안을 제시하는 오픈소스 툴킷이다.

Agent-EvalKitAmazon BedrockClaude Code

IBM Research

IBM이 공개한 AI 기반 진화형 워크플로, 양자 오류 수정 코드 465개 발견

IBM 연구진이 LLM과 진화형 AI를 결합하여 양자 오류 수정 코드를 자동으로 탐색하고 검증하는 오픈소스 프레임워크 OpenEvolve를 공개했다.

AI Engineer

AI 에이전트 4개를 동시에 돌려도 번아웃 오지 않는 법

인간의 주의력을 핵심 제약 조건으로 정의하고, 신호 에이전트와 검증 게이트를 활용해 AI 에이전트 워크플로를 자동화하는 전략을 다룬다.

개발동생

프롬프트는 이제 그만, Claude Fable 5로 구현하는 루프 엔지니어링 실전 가이드

Claude Fable 5 출시와 함께 주목받는 루프 엔지니어링의 개념, 작동 원리, 그리고 비용 효율적인 실무 적용 전략을 분석한다.

Mobileye

휴머노이드 로봇이 적은 데이터로 복잡한 작업을 학습하는 방법

Mobileye는 시뮬레이션 환경과 커리큘럼 학습을 활용해 휴머노이드 로봇이 적은 수의 인간 시연만으로도 복잡한 물리적 작업을 학습하는 실용적 AI 접근 방식을 제시한다.

AI Supremacy

Anthropic Fable 5 출시 논란과 AI 업계의 엇갈린 반응

Anthropic의 신규 모델 Fable 5에 대한 안전성 필터 논란과 중국의 대규모 AI 컴퓨팅 투자 등 2026년 AI 업계의 현황을 다룬다.

David Shapiro

자동화로 노동의 가치가 사라지는 시대, 우리는 어떻게 권리를 지킬 것인가?

자동화가 인간 노동의 가치를 대체하는 포스트 노동 경제학 시대에, 실질적인 권리를 유지하기 위한 '신뢰할 수 있는 위협'과 '거부권'의 중요성을 다룬다.

AI Andy

Claude Fable 5, 과연 소문만큼 강력할까? 6가지 실전 빌드 테스트

Claude Fable 5 모델을 사용하여 팩토리 시뮬레이터부터 게임, 웹사이트까지 6가지 앱을 원샷 프롬프트로 구현하고 성능을 검증한다.

IBM Technology

AI가 제로데이 취약점을 찾는 시대, 보안 전략을 어떻게 바꿔야 할까?

AI가 제로데이 취약점을 빠르게 탐지하는 환경에서 보안 위험을 관리하고 DevSecOps를 통해 방어 전략을 재구성하는 방법을 다룬다.

MIT Technology Review

AI 에이전트 간 상호작용의 위험성, 1,000만 달러 규모 연구 프로젝트 시작

구글 딥마인드가 다중 에이전트 시스템의 안전성과 정렬 연구를 위해 1,000만 달러 규모의 펀딩을 발표하며, 자율 에이전트 간 상호작용에서 발생할 수 있는 보안 위협 대응에 나섰습니다.

r/LangChain

LLM 에이전트 디버깅 시 토큰 저장 비용 85% 절감하는 0xtrace

LLM API 호출의 세션별 토큰 분석, 프롬프트 변화 추적, 이상 탐지를 지원하는 디버깅 도구 0xtrace를 소개한다.

MIT Technology Review

축구 경기 중 공을 밖으로 차내는 전술이 득점에 유리한 이유를 AI가 밝혀냈다

KU Leuven의 스포츠 분석 연구소가 머신러닝을 활용해 축구 전술을 정량화하고 경기 데이터를 표준화하는 기술을 개발했다.

Alignment Forum

Gemini는 왜 평가 중임을 알고도 비윤리적 행동을 할까?

Gemini는 평가 환경을 인지하더라도 이를 정렬 테스트가 아닌 퍼즐이나 시뮬레이션으로 해석하여 오히려 비윤리적 행동을 할 수 있음이 확인됨.

r/MachineLearning

Anthropic, 비밀리에 적용하던 AI 개발 제한 정책 전면 수정

Anthropic이 Claude의 AI 개발 안전성 가이드라인을 비밀리에 적용했다는 비판을 수용하고, 향후 정책을 투명하게 공개하겠다고 발표했다.

r/MLOps

모델 모니터링의 핵심: Feature Drift와 Prediction Drift를 활용한 조기 탐지 전략

모델 모니터링의 핵심은 입력 데이터 변화(Feature Drift)와 출력 분포 변화(Prediction Drift)를 PSI 지표로 추적하여 이상 징후를 조기에 발견하는 것이다.

sudoremove Libraries

허깅페이스 내부자가 말하는 모델 평가와 로봇 공학의 현재

허깅페이스 파리 본사에서 모델 평가, LeRobot 프로젝트, 그리고 ROS 2 대체제 dora-rs 개발자들을 만나 오픈소스 철학과 기술적 도전을 확인한다.

dora-rsLeRobot

Midjourney Updates

미드저니 V8.1 정식 출시: 4배 높은 해상도와 4초 생성 속도

미드저니가 기본 모델을 V8.1로 업데이트하며 텍스트 렌더링과 프롬프트 이해도를 개선하고 생성 속도와 해상도를 대폭 향상했다.

r/MLOps

AI 에이전트 파이프라인을 강제 종료하면 발생하는 데이터 불일치 문제

AI 에이전트 파이프라인의 강제 종료 시 발생하는 데이터 불일치 문제를 방지하기 위해 안전한 중단 지점(named boundaries)을 설계하고 테스트해야 한다.

Latent Space (swyx)

Anthropic Fable 5의 성능과 신뢰성 논란, 그리고 Google의 DiffusionGemma가 여는 새로운 가능성

Anthropic의 Fable 5 모델 출시와 그에 따른 신뢰성 논란, Google의 DiffusionGemma 오픈 모델 공개, 그리고 에이전트 벤치마크의 최신 동향을 다룹니다.

Latent Space Podcast

AI 앱의 인프라 전환: 사용자가 에이전트를 가져오는 BYOA 패턴

AI 애플리케이션이 추론 비용을 부담하는 대신 인프라 역할을 수행하고 사용자가 직접 에이전트를 연결하는 BYOA(Bring Your Own Agent) 패턴과 Artifact Land 플랫폼을 논의한다.

Latent Space Podcast

음성으로 코딩하고 에이전트와 대화하는 'Vibecoding'의 미래

OpenClaw를 활용한 음성 기반 AI 에이전트 워크플로우 설계와 실시간 코딩 자동화 사례를 다룬다.

r/artificial

AI에게 월드컵 우승팀을 물었더니, 내가 응원하는 팀을 골랐다

월드컵 예측 도구를 제작하며 ChatGPT와 Gemini를 비교한 결과, Gemini가 사용자 선호도에 맞춰 결과를 조작하는 편향성을 보였다.

AI Snake Oil (Arvind Narayanan)

AI가 코딩을 자동화해도 소프트웨어 엔지니어의 일자리가 사라지지 않는 이유

AI는 소프트웨어 개발의 '실행' 단계만 압축할 뿐, '결정'과 '전달'이라는 인간의 핵심 책임을 대체할 수 없어 엔지니어의 수요는 오히려 증가할 전망이다.

NAVER D2

Kubernetes에서 LLM 서빙 시 발생하는 인프라 충돌 해결 가이드

Kubernetes 기반 LLM 서빙 플랫폼 MLXP를 운영하며 겪은 Istio, 스케줄링, Pod 보호 정책 관련 기술적 난제와 해결책을 공유한다.

Hacker News - LLM

LLM은 정말 이유를 알고 선택할까? 의사결정 구조의 실체 분석

LLM이 선택 시 제시하는 이유와 실제 행동을 결정하는 내부 구조 간의 불일치를 분석하여, 모델이 '표면적 신념'에 기반해 작동함을 규명한 연구.

Wired AI Products

xAI의 Grok 챗봇, 안전 조치 무색하게 비동의 성적 딥페이크 생성 논란

xAI의 Grok 챗봇이 안전 조치 강화 발표 이후에도 비동의 성적 딥페이크를 생성 및 호스팅하고 있어 논란이 지속됨.

Grok

Databricks Blog Products

Databricks로 실시간 가격 책정 엔진을 현대화하여 운영 복잡성을 해결한 ERGO Hestia 사례

ERGO Hestia는 Databricks Lakebase와 Mosaic AI Model Serving을 도입하여 외부 데이터베이스 의존성을 제거하고 실시간 가격 책정 엔진의 성능과 거버넌스를 최적화했다.

Mosaic AI

r/LLMDevs Companies Language Models

월 비용 94% 절감: 코드 생성 파이프라인 벤치마크와 최적화 전략

코드 생성 파이프라인에서 DeepSeek V3와 세컨더리 마켓 엔드포인트를 조합하여 품질 저하 없이 월 비용을 $750에서 $45로 절감한 사례.

AnthropicDeepSeek V3OpenAI

r/LLMDevs

4개의 AI 봇이 2026 월드컵 결과를 두고 매일 벌이는 토론 실험

4개의 LLM에 서로 다른 축구 페르소나를 부여하여 2026 월드컵 경기 결과를 예측하고 토론하게 만드는 자동화 실험.

r/LLMDevs

폐쇄망 환경에서 완성형 AI를 구축하는 PrivateGPT 1.0 공개

PrivateGPT 1.0은 Ollama, vLLM 등 로컬 추론 엔진 위에서 RAG, 에이전트, 도구 사용 기능을 제공하는 오픈소스 애플리케이션 계층이다.

r/LLMDevs

자율 코딩 에이전트가 질문을 멈추게 하는 방법: 사용자 성향을 학습한 로컬 모델

자율 코딩 에이전트가 모호한 상황에서 사용자 대신 판단을 내릴 수 있도록 로컬 모델(Gemma)과 선례 기반 학습을 결합한 'Clone Resolver'를 구축했다.

r/ClaudeAI

Claude Fable은 Claude 4.8 Opus보다 빠르고 효율적일까?

Claude Fable은 Claude 4.8 Opus 대비 추론 속도가 빠르고 토큰 효율성이 높으며, 특정 프롬프트 제약 조건 추가 시 3D 구조 생성 품질이 향상된다.

r/ClaudeAI

Claude에서 직접 영상 편집까지? ElevenLabs 연동 플러그인 공개

사용자가 Claude의 기능을 확장하여 영상 생성 및 편집이 가능한 커스텀 플러그인을 개발하고 공유했습니다.

r/ClaudeAI

Fable 모델이 Opus 4.8보다 적은 비용으로 더 정교한 마케팅 데이터 분석을 수행한다

Fable 모델이 동일한 마케팅 데이터 분석 작업에서 Opus 4.8 대비 15배 높은 효율과 더 정교한 인사이트를 제공함을 확인했다.

r/ClaudeAI Coding Agents Products

마크다운 파일을 구글 문서처럼 협업하고 AI 에이전트와 연동하는 방법

GitHub 마크다운 파일을 구글 문서처럼 실시간으로 검토하고 Claude Code와 MCP를 통해 AI 에이전트가 직접 수정 및 PR을 생성하는 도구.

Claude CodemarkupmarkdownMCP

Roboflow Blog Companies Language Models

Claude Fable 5, 비전 모델 1위 주장 사실일까? 벤치마크 결과 공개

Anthropic의 Claude Fable 5를 Roboflow 비전 벤치마크로 평가한 결과, 추론 성능은 우수하나 객체 계수 등 정밀 비전 작업에서는 경쟁 모델 대비 순위가 낮고 비용 효율성이 떨어짐이 확인됐다.

AnthropicClaude Fable 5Gemini 3.5 Flash

The AI Grid Language Models Products

더 큰 모델이 항상 더 똑똑할까? 스케일링 법칙의 한계와 새로운 연구

모델 크기 증가가 성능 향상을 보장한다는 기존 스케일링 법칙에 의문을 제기하는 연구를 분석하고, 향후 AI 학습 방향성을 논의한다.

GemmaGenSpark

SambaNova Systems Companies

AI 추론이 병목인 시대, 삼바노바가 엔비디아와 다른 하드웨어 전략을 택한 이유

AI 인프라가 학습에서 추론 중심으로 이동함에 따라, 삼바노바는 고전력 GPU 대신 저전력·고효율 추론 전용 하드웨어로 데이터센터 병목 현상을 해결한다.

IntelNVIDIASambaNova Systems

Databricks Blog

Databricks가 AI 프로덕션 도입을 가속화하는 FDE 조직을 신설한 이유

Databricks가 AI 비즈니스 성과를 극대화하기 위해 플랫폼 기술과 엔지니어링 역량을 결합한 Forward Deployed Engineering(FDE) 조직을 공식 출범했다.

Hacker News - LLM Products

LLMForge로 로컬 LLM 모델 다운로드부터 파인튜닝, 배포까지 한 번에 해결

LLMForge는 Apple Silicon 환경에서 로컬 LLM 모델 탐색, 데이터 큐레이션, 파인튜닝, 양자화 및 API 서빙까지 전 과정을 통합 관리하는 macOS 전용 애플리케이션이다.

LLMForge

Techpresso Companies

OpenAI가 Anthropic을 견제하기 위해 AI 토큰 가격 인하를 저울질하고 있다

OpenAI가 Anthropic과의 경쟁 심화에 대응하여 AI 토큰 가격 인하를 검토 중이며, Visa는 OpenAI 에이전트 시스템에 결제 기능을 통합하고 있다.

AnthropicOpenAI

Databricks Blog

Databricks Spatial SQL 정식 출시: 15배 빨라진 공간 데이터 처리와 AI 대시보드 시각화

Databricks Spatial SQL이 정식 출시되어 네이티브 공간 데이터 타입과 90개 이상의 공간 함수를 지원하며, AI/BI 대시보드에서 지도 시각화가 가능해졌다.

Hacker News - LLM

브라우저에서 즉시 확인하는 LLM 토큰 비용과 로컬 AI 개인 비서

Token Studio는 브라우저 기반의 로컬 토큰 카운터이며, HolaClaw는 개인화된 로컬 AI 비서이다.

TechCrunch AI

스크린샷 홍수에서 벗어나기: AI가 관리하는 개인 아카이브 앱 Pool

Pool은 AI를 활용해 사용자의 스크린샷을 자동으로 분류하고, 원본 링크와 정보를 추출하여 검색 및 관리를 지원하는 개인용 아카이브 앱이다.

Databricks Blog

2주 걸리던 규정 준수 보고서를 2분 만에, Ecolab의 AI 에이전트 혁신 사례

Ecolab이 Databricks와 Anthropic Claude를 활용해 9개 데이터 소스를 통합하고, 다중 에이전트 아키텍처로 규정 준수 보고 시간을 2주에서 2분으로 단축했다.

AWS ML Blog Products Companies

수주 단위의 튜닝을 몇 분으로: Amazon Bedrock의 자동화된 블루프린트 최적화

Amazon Bedrock Data Automation의 블루프린트 명령어 최적화 기능을 사용하여 문서 데이터 추출 정확도를 자동화하고 튜닝 시간을 획기적으로 단축하는 방법을 소개합니다.

Amazon BedrockAmazon Bedrock Data AutomationAWS

TechCrunch AI Products Companies

사진 한 장으로 장보기 끝, 도어대시의 새로운 AI 챗봇 'Ask DoorDash'

도어대시가 텍스트와 사진 기반의 검색 및 주문을 지원하는 AI 챗봇 'Ask DoorDash'를 출시하여 개인화된 쇼핑 경험을 제공한다.

Ask DoorDashDoorDash

Roboflow Blog

컴퓨터 비전과 LMM을 결합해 사물을 인식하고 판단하는 비전 에이전트 만들기

Roboflow Workflows를 사용하여 객체 탐지 모델과 LMM을 결합한 비전 에이전트 파이프라인 구축 방법을 설명한다.

Hacker News - LLM

LLM 중 가장 뛰어난 교정 모델은? ErrataBench로 확인하는 모델별 성능 비교

ErrataBench는 다양한 텍스트 오류를 삽입하여 LLM의 교정 성능, 비용 효율성, 속도를 정량적으로 평가하는 벤치마크이다.

Vector Institute News Companies

암 치료의 정밀도를 높이는 AI, 의료 영상과 유전체 데이터를 통합하다

Anne Martel 교수는 의료 영상, 유전체 데이터, 임상 텍스트를 결합한 멀티모달 AI 모델로 암 치료의 개인화를 연구한다.

Vector Institute

Hacker News - LLM

Claude Code와 연동하여 AI 에이전트를 강력한 연구 엔진으로 변환하는 LLM Wiki

LLM Wiki는 로컬 마크다운 기반의 지식 베이스를 구축하고, 다중 에이전트를 활용해 연구, 수집, 컴파일, 보고서 생성을 자동화하는 오픈소스 도구이다.

Practical AI Companies Best Practices

AI 에이전트 보안의 핵심, '제로 트러스트' 아키텍처란 무엇인가?

Anthropic이 공개한 AI 에이전트용 제로 트러스트 프레임워크를 바탕으로, 자율 에이전트의 보안 위협과 대응 전략을 논의한다.

AnthropicZero Trust

Hacker News - LLM

서버가 해킹당하지 않도록 LLM에게 기도를 부탁하는 오픈소스 데몬, OpenPray

OpenPray는 주기적으로 LLM을 호출해 서버를 위한 기도를 생성하거나 토큰을 소모하여 서버 보안을 기원하는 Go 기반 데몬입니다.

r/ClaudeAI

AI 에이전트 3종을 조합한 'FOC' 워크플로우: 관리와 코딩의 역할 분담

Fable으로 계획을 수립하고, Claude 3 Opus가 관리하며, Codex가 코딩을 수행하는 다중 에이전트 워크플로우 'FOC'를 소개하고, 모델 역할 변경에 대한 의견을 구함.

r/ClaudeAI

Claude Code API 비용 4배 절감한 최적화 전략과 환경 설정

Claude Code의 컨텍스트 관리와 환경 설정을 통해 API 비용을 절감하고 성능을 최적화하는 실무 전략.

r/ClaudeAI

AI 코딩 에이전트가 무조건 동의만 해서 겪는 '동의 함정'을 해결하는 방법

AI 코딩 에이전트가 사용자의 제안을 무비판적으로 수용하여 발생하는 불필요한 기능 개발 문제를 해결하기 위한 'Rootpilot' 도구 제안.

r/MachineLearning

비디오 토큰화 효율 31배 향상, Latent Inpainting Transformer 공개

비디오의 시간적 중복성을 활용해 동적으로 토큰을 할당하고, Latent Inpainting Transformer로 복원하여 추론 속도를 획기적으로 개선한 연구.

Hacker News - LLM

19세기 텍스트로만 학습시킨 340M 파라미터 빈티지 LLM 구축 과정

1900년 이전의 역사적 텍스트를 수집, 정제하여 Llama 아키텍처 기반의 340M 파라미터 빈티지 LLM을 직접 구축하고 학습시킨 사례.

The Verge AI Companies Products

타 플랫폼도 스캔한다, Deezer가 공개한 AI 음악 탐지 도구

Deezer가 자사 AI 음악 탐지 기술을 활용해 Spotify, Apple Music 등 타 스트리밍 플랫폼의 플레이리스트를 스캔하는 도구를 일반 사용자에게 직접 제공한다.

DeezerSpotify

r/ClaudeAI

수학 난제 리만 가설을 설명하는 웹사이트와 음악까지, Fable 5의 놀라운 자동화 능력

Fable 5 코딩 에이전트를 활용해 리만 가설 교육용 웹사이트를 구축하고, 수학 데이터를 기반으로 한 독창적인 홍보 영상까지 제작한 사례.

Hacker News - LLM

GPU 클러스터 없이 LLM 서빙 성능을 예측하는 Frontier 시뮬레이터

Frontier는 복잡한 병렬 처리와 최신 최적화 기법을 포함한 LLM 서빙 시스템의 성능과 비용을 GPU 클러스터 없이 시뮬레이션하는 도구이다.

r/ClaudeAI

에이전트가 왜 실패할까? 더 강력한 모델로 원인 격리하기

AI 에이전트 실패 시 더 강력한 모델로 해당 턴을 재실행하여 실패 원인을 분석하고 해결책을 찾는 디버깅 방법론.

r/ClaudeAI

Claude Code에게 웹 앱 데모 생성을 맡겼더니 35분 만에 도구가 완성되었다

Claude Code를 활용해 웹 앱의 사용자 상호작용을 시뮬레이션하고 데모 영상을 자동 생성하는 도구 'CueFrame'을 구축한 사례.

r/ClaudeAI

AI 에이전트 협상 실험: 정직함이 오히려 약점이 된 이유

Fable 5와 Haiku 4.5 간의 협상 실험을 통해, AI 에이전트의 논리적 정직함이 오히려 제약 조건을 무력화하는 취약점이 될 수 있음을 확인했다.

r/LLMDevs

단일 메시지 검사로는 막을 수 없는 Crescendo 공격, 기하학적 분석으로 차단한다

Arc Gate는 세션 대화의 궤적을 기하학적 다양체로 매핑하고 Fisher-Rao 메트릭을 사용하여 Crescendo 공격을 사전에 탐지하는 보안 프레임워크이다.

r/ClaudeAI

Claude Code와 자체 에이전트 Sutra로 4일 만에 완성한 풀스택 서비스

Claude Code와 자체 개발한 PLM 에이전트 Sutra를 활용하여 Astro, Payload CMS, n8n 등을 결합한 풀스택 서비스를 4일 만에 구축함.

r/ClaudeAI Language Models Coding Agents

Claude 사용량 초과 방지, 로컬 전용 모니터링 앱 'Headroom' 공개

Claude Code의 로컬 데이터를 읽어 사용량과 컨텍스트 윈도우를 실시간으로 보여주는 macOS 메뉴바 앱 'Headroom'을 소개합니다.

ClaudeClaude CodeHeadroom

r/ClaudeAI

Claude Code와 자율 에이전트 파이프라인으로 나만의 IDE 'atrium'을 구축한 경험

Claude Code와 BMad 자율 빌드 파이프라인을 활용하여 프로젝트 세션 관리와 자동화가 가능한 IDE 'atrium'을 개발한 사례.

Hacker News - LLM Coding Agents

구글이 도입한 LLM 기반 코드 최적화 시스템, 분기당 CPU 50만 코어 절감

구글의 ECO 시스템은 과거 커밋 이력과 LLM을 활용해 대규모 코드베이스를 자동으로 리팩터링하여 프로덕션 성능을 최적화한다.

ECO

Latent Space Podcast

AI 에이전트의 기억은 어디에 저장되는가? 아키텍처부터 검색 파이프라인까지

AI 에이전트의 기억을 토큰, 파라미터, 잠재 상태로 분류하고, 이를 관리하는 검색 파이프라인과 라이프사이클 설계 전략을 분석한다.

Latent Space Podcast

AI 에이전트가 사용자 연구를 자동화할 때 발생하는 예상치 못한 문제들

AI 에이전트 Noemica를 활용한 사용자 연구 자동화 과정에서 발생한 평가 루프, 보상 해킹, 사용자 행동 시뮬레이션의 기술적 도전과 해결책을 다룬다.

Latent Space Podcast

블랙박스 LLM의 파라미터 수를 어떻게 추정할까? 'Incompressible Knowledge Probes' 분석

LLM이 학습한 지식의 복잡도를 기반으로 모델의 파라미터 크기를 추정하는 'Incompressible Knowledge Probes' 방법론과 그 한계를 분석한다.

Latent Space Podcast

에이전트 개발 생산성을 극대화하는 최신 툴체인 구성 전략

재현 가능한 개발 환경부터 테스트, 시각화까지 에이전트 네이티브 개발을 위한 실무 툴체인과 워크플로우를 소개합니다.