2026년 5월 2일 AI 뉴스 아카이브

NAVER D2

매번 초기화되는 AI의 한계, 경험을 축적하고 스스로 성장하는 에이전트 프레임워크 'GNOSIS'

LLM 가중치를 변경하지 않고 외부 기억과 가치 레이어를 갱신하여 AI 에이전트의 자율적인 성장을 가능하게 하는 프레임워크 GNOSIS를 소개합니다.

メルカリエンジニアリングブログ

Claude Code로 PR 리뷰 자동화하고 수정 PR로 리뷰 스킬을 스스로 진화시키는 법

Claude Code의 커스텀 스킬을 활용해 PR 리뷰를 자동화하고, 수정된 PR을 분석하여 리뷰 기준을 지속적으로 업데이트하는 피드백 루프를 구축했다.

Salesforce Engineering Blog

AI 코딩 에이전트 도입의 9단계: 실험에서 운영 성숙도까지

AI 코딩 에이전트 도입 과정을 9단계 성숙도 모델로 정의하고, 단순 실험을 넘어 신뢰할 수 있는 엔지니어링 시스템으로 발전하는 전략을 제시한다.

Hacker News - LLM

DeepSeek API와 로컬 모델을 지원하는 터미널 코딩 에이전트, cwcode

cwcode는 터미널에서 실행되는 Go 기반의 코딩 에이전트로, 해시 기반 편집과 프롬프트 캐싱을 통해 비용과 지연 시간을 최적화한다.

AWS ML Blog Products

Amazon Bedrock, 에이전트 AI를 위한 실시간 안전성 검사 API 공개

Amazon Bedrock의 새로운 InvokeGuardrailChecks API는 에이전트 AI 워크플로의 각 단계에서 리소스 생성 없이 세밀한 안전성 검사를 수행하고 점수 기반의 맞춤형 대응 로직을 구현하게 한다.

Amazon Bedrock

NVIDIA AI Blog

AI 인프라의 핵심, 광학 부품 제조를 위한 텍사스 공장 확장

NVIDIA와 Coherent가 텍사스 셔먼에 인듐 인화물(InP) 웨이퍼 제조 시설을 확장하여 AI 데이터 센터의 고속 광학 연결성을 강화한다.

Midjourney Updates

미드저니가 준비한 첫 번째 비밀 하드웨어 프로젝트는 무엇일까?

미드저니가 6월 17일 오후 6시(태평양 표준시)에 디스코드와 X를 통해 첫 번째 비밀 하드웨어 프로젝트를 공개하는 라이브스트림을 진행한다.

1littlecoder Language Models Architecture

1M 컨텍스트와 IndexShare로 무장한 오픈소스 모델 GLM-5.2 분석

1M 토큰 컨텍스트와 IndexShare 아키텍처를 도입하여 장기 코딩 작업 성능을 극대화한 오픈소스 모델 GLM-5.2의 특징과 벤치마크 결과를 분석한다.

GLM-5.2IndexShareZ.ai

Anyscale

애저 테넌트 내에서 관리형 Ray로 AI 인프라를 구축하는 방법

Anyscale on Azure를 통해 애저 환경 내에서 데이터 거버넌스를 유지하며 Ray 기반의 분산 AI 워크로드를 효율적으로 배포하고 운영하는 방법을 소개한다.

DeepMind Blog Companies

영국 주택 건축 허가 시간 50% 단축, Google DeepMind의 AI 계획 도구 공개

Google DeepMind와 영국 정부가 협력하여 주택 건축 허가 신청 처리 시간을 50% 단축하는 AI 계획 도구를 개발하고 있다.

Google DeepMind

Cohere

AI는 노동 시장의 위협인가 기회인가? 경제학 모델로 본 AI의 미래

경제학적 모델과 실증 데이터를 통해 AI가 노동 시장의 생산성과 불평등에 미치는 영향을 분석하고 미래를 전망한다.

Intel Newsroom

Intel 18A-P 공정 리스크 생산 시작, 성능 9% 향상 및 전력 효율 개선

Intel Foundry가 차세대 공정 Intel 18A-P의 리스크 생산을 시작하며 기존 18A 대비 성능과 전력 효율을 대폭 개선했다.

AWS ML Blog Products

Amazon SageMaker AI, 컨테이너 캐싱 도입으로 모델 스케일링 지연 시간 50% 단축

Amazon SageMaker AI가 컨테이너 이미지 캐싱 기능을 도입하여 새로운 인스턴스 시작 시 이미지 다운로드 시간을 제거하고 엔드 투 엔드 스케일링 지연을 최대 50% 개선한다.

Amazon SageMaker AI

Anthropic Research

Claude Code 분석: 코딩 실력보다 도메인 지식이 에이전트 활용의 핵심

40만 건의 Claude Code 세션을 분석한 결과, 코딩 기술보다 도메인 전문 지식이 에이전트 활용 효율과 성공률을 결정하는 핵심 요인임이 밝혀짐.

Alignment Forum

모델 출시 전 실제 행동을 미리 본다? 배포 시뮬레이션의 효과

과거 대화 데이터를 재현해 신규 모델의 배포 전 행동을 예측하고 잠재적 위험을 사전에 파악하는 배포 시뮬레이션 방법론을 다룬다.

Databricks Blog

데이터 파이프라인 설계의 정석: 배치부터 스트리밍까지 아키텍처 패턴 완벽 정리

데이터 파이프라인의 핵심 계층과 배치, 스트리밍, 메달리온 등 주요 아키텍처 패턴을 정의하고 실무 설계 원칙을 제시한다.

Ars Technica AI

200시간 걸리던 의회 보고서, 생성형 AI로 5시간 만에 끝낸다

미 국방부가 생성형 AI를 도입하여 매년 의회에 제출해야 하는 수백 건의 보고서 작성 시간을 획기적으로 단축했다.

Databricks Blog Companies

Databricks, 기업용 앱 개발 가속화하는 Genie App Builder와 서버리스 런타임 공개

Databricks가 기업 환경에서 안전하고 효율적인 앱 개발을 지원하는 App Spaces, Genie App Builder, 서버리스 마이크로 앱을 공개했다.

Databricks

TechCrunch AI

Android 17과 Wear OS 7 공개, Gemini Omni와 Lyria 3로 강화된 AI 경험

구글이 Android 17과 Wear OS 7을 출시하며 Gemini Omni, Lyria 3 등 최신 AI 모델을 통합한 새로운 픽셀 드롭 기능을 선보였다.

Roboflow Blog Vision AI Companies

타이어 측면 OCR 자동화: RF-DETR과 LLM으로 구현하는 비전 파이프라인

RF-DETR 모델로 타이어를 탐지하고 LLM으로 측면 정보를 추출하는 자동화된 비전 파이프라인 구축 방법.

RF-DETRRoboflow

Roboflow Blog

객체 탐지 플리커링 방지: Roboflow의 새로운 Track Class Lock 기능

Roboflow의 Track Class Lock은 객체 탐지 시 발생하는 라벨 플리커링을 방지하여 데이터 안정성을 높이는 워크플로 블록이다.

Ars Technica AI

OpenAI의 매출은 130억 달러로 급증했으나, R&D 비용은 이를 압도했다

OpenAI의 2025년 매출은 130억 달러로 성장했으나, 연구개발 비용이 191억 달러에 달하며 수익성 확보에 난항을 겪고 있다.

Hacker News - LLM

LLM 판정 모델의 오류를 잡는 법: 섭동(Perturbation)을 활용한 평가 자동화

의료 보험 사전 승인(PA) 시스템에서 LLM 판정 모델의 신뢰성을 높이기 위해, 정답 데이터를 섭동시켜 오답을 생성하고 이를 모델이 정확히 탐지하는지 검증하는 평가 프레임워크를 구축했다.

Artificial Intelligence

메타의 20억 달러 인수 철회, 그리고 Anthropic 모델이 금지된 진짜 이유

메타의 Manus 인수 철회, Anthropic Fable 5 금지 배경, 애플의 Siri 업데이트 및 제프 베조스의 Project Prometheus 등 최신 AI 업계 소식을 다룹니다.

Weights & Biases

"모든 LLM 출력은 환각이다" - AI가 거짓말하지 않게 만드는 법

LLM의 환각 문제와 신뢰성 확보를 위한 강화학습 및 검증 가능한 시스템 설계 방안을 논의한다.

Simon Willison

로컬 환경에서 코딩 모델 Qwen3.6-27B를 매일 사용하는 개발자의 경험

Georgi Gerganov가 M2 Ultra 및 RTX 5090 환경에서 Qwen3.6-27B 모델을 로컬 코딩 에이전트로 활용하는 경험을 공유함.

NVIDIA - Deep Learning Blog Language Models Benchmarks

NVIDIA Blackwell, MLPerf 6.0 벤치마크 전 부문 1위 달성 및 최대 규모 학습 입증

NVIDIA Blackwell 플랫폼이 MLPerf Training 6.0 벤치마크의 7개 전 부문에서 가장 빠른 학습 속도를 기록하며 압도적인 성능과 확장성을 입증했다.

DeepSeek-V3MLPerfNVIDIA Blackwell

딥러닝논문읽기모임

비전 모델도 60억 파라미터로? 멀티모달의 새로운 기준 InternVL

60억 파라미터 비전 인코더와 LLM을 정렬하여 이미지 인식부터 멀티모달 대화까지 범용적으로 수행하는 InternVL 모델을 분석한다.

Wired AI

AI가 24시간 부모님의 일상을 듣고 있다면? 고령자 돌봄 기술의 딜레마

AI 기반 음성 모니터링 기기 Sensi.ai가 고령자의 안전한 독립 생활을 돕는 동시에 사생활 침해와 돌봄 기관의 수익성 도구로 활용되는 이면을 다룬다.

Interconnects (Nathan Lambert)

LLM 포스트 트레이닝의 최신 트렌드: MOPD와 다중 전문가 모델의 부상

LLM 포스트 트레이닝 레시피가 단순 SFT-RLHF 구조에서 다중 전문가 모델을 활용한 MOPD 방식으로 진화하고 있다.

AI Andy

영상 업로드 전 AI로 성과 예측하고 한 번에 다중 플랫폼 게시하기

AI를 활용해 유튜브 스튜디오를 복제하고, 업로드 전 영상 성과를 예측하며 여러 소셜 미디어에 원클릭으로 게시하는 자동화 시스템 구축 과정.

TechCrunch AI

LLM 환각을 99.99% 잡는다? '데이터 과학 메카 슈트'로 비용까지 줄이는 Probably

Probably는 결정론적 검증 시스템을 통해 LLM의 환각을 방지하고, 더 작은 모델을 사용하여 비용을 절감하는 AI 솔루션을 개발한다.

Dataiku Blog

AI 모델과 에이전트를 통합하는 AI 오케스트레이션 레이어의 핵심 아키텍처

AI 오케스트레이션 레이어는 모델, 에이전트, 데이터 파이프라인을 통합하여 거버넌스와 운영 효율성을 보장하는 핵심 인프라이다.

AI Engineer Hardware Libraries

50단계 디노이징을 1단계로, NVIDIA의 실시간 비디오 생성 최적화 전략

NVIDIA의 FastGen은 양자화, 캐싱, 증류 기법을 결합하여 비디오 확산 모델의 디노이징 단계를 획기적으로 줄여 실시간 생성을 구현한다.

Blackwell B200FastGenFlux 2

서울대학교 DSBA 연구실

산업용 PLC 코드, LLM으로 자동 생성하고 검증까지 완벽하게

LLM을 활용하여 산업용 PLC 코드를 자동으로 생성하고, 형식 검증 및 문법 교정을 통해 신뢰성을 확보하는 방법론을 제시한다.

IBM Technology

AI 에이전트가 권한을 오남용하지 않게 막는 보안 아키텍처

AI 에이전트 시스템에서 발생하는 Confused Deputy 취약점을 방지하기 위해 Kagenti를 활용한 ID 기반 보안 및 위임 체인 검증 방식을 다룬다.

Vizuara

LLM 추론 속도를 높이는 KV Cache, 면접에서 완벽하게 설명하는 법

LLM 추론 과정에서 이전 토큰의 연산을 재사용하여 디코딩 속도를 높이는 KV Cache의 행렬 연산 원리를 상세히 설명한다.

단테랩스 Agents Hardware

터미널 에이전트를 데스크톱 앱으로, Hermes 멀티에이전트 관리법

Hermes Agent의 공식 데스크톱 앱 설치, 원격 게이트웨이 연결, GUI 기반의 멀티에이전트 관리 및 하이브리드 워크플로 구축 방법을 다룬다.

Hermes AgentWSL

Analytics Vidhya

LLM의 핵심 원리, 자기회귀(Autoregressive) 모델이란 무엇인가?

과거의 관측값을 사용하여 미래의 값을 예측하는 자기회귀 모델의 개념과 시계열 및 언어 모델링에서의 활용 방안.

Simon Willison

보안 패치 요청을 탈옥으로 오해? Fable 5 수출 통제 논란의 실체

Anthropic의 Fable 5 모델이 보안 취약점 수정 요청을 탈옥으로 오인받아 수출 통제 대상이 된 상황을 비판하며, 코드 수정 기능이 방어적 보안에 필수적임을 강조한다.

Latent Space (swyx)

Satya Nadella가 제시하는 AI 생태계 전략과 최신 기술 동향

Satya Nadella의 Loopcraft 전략과 Anthropic의 수출 통제 이슈, 그리고 추론 효율화 및 에이전트 시스템의 최신 기술 동향을 정리함.

David Ondrej

AI 에이전트 성능 10배 높이는 Apify MCP 연동 실전 튜토리얼

Hermes Agent와 Apify MCP Connectors를 연동하여 웹 데이터를 수집하고 Supabase에 저장하여 AI 자동화 워크플로를 구축하는 방법.

Techpresso

미국 정부의 수출 통제로 Anthropic의 Claude 모델 일부 서비스 중단

미국 정부의 수출 통제 명령으로 Anthropic의 Claude 모델이 일부 서비스 중단되었으며, Microsoft의 AI 가치 독점 경고와 중국의 블랙리스트 대응 등 주요 기술 뉴스가 발표됐다.

Meta Newsroom

페이스북에서 AI로 질문 답변부터 영상 편집까지 한 번에 해결

페이스북이 Meta AI 기반의 검색 모드와 AI 편집 도구를 도입하여 사용자 경험을 강화합니다.

MIT Technology Review

3,800시간 동안 뇌 임플란트로 소통한 ALS 환자, BCI 기술의 혁신적 성과

ALS 환자가 뇌 임플란트 BCI를 통해 3,800시간 이상 독립적으로 소통하며, 97.5%의 정확도로 음성 변환 및 컴퓨터 제어를 수행함.

All About AI

AI 에이전트로 구현하는 자동화된 트레이딩 포트폴리오 구축 가이드

Claude와 Codex를 활용하여 독립적인 AI 에이전트 기반의 트레이딩 포트폴리오를 구축하고 평균 회귀 전략을 자동화하는 방법.

The Verge AI

Skydio CEO가 밝히는 미국 드론 제조의 현실과 AI 자율 비행의 미래

Skydio CEO Adam Bry가 드론의 자율 비행 기술과 미국 내 제조 공급망 구축, 그리고 국방 및 공공 안전 분야에서의 AI 활용 전략을 논한다.

KDNugget Libraries

시계열 데이터 처리를 위한 sktime 라이브러리 활용 가이드

sktime 라이브러리를 사용하여 시계열 데이터를 전처리하고 예측 파이프라인을 구축하는 실무 가이드.

sktime

AI Engineer

ChatGPT에서 MCP 앱을 안전하게 실행하는 이중 iframe 보안 전략

ChatGPT의 CSP 제한을 우회하지 않고 MCP 앱을 안전하게 렌더링하기 위한 이중 iframe 격리 패턴과 도메인 선언의 중요성.

David Shapiro

AI 기업들의 IPO 러시, 토큰 판매는 더 이상 답이 아니다

주요 AI 기업들의 IPO와 산업의 표준화 속에서, 단순 토큰 판매를 넘어 소프트웨어와 생태계 구축이 기업의 핵심 가치로 부상하고 있다.

AI Andy

Claude Code로 6가지 AI 도구를 한 번에 제작하고 실전 검증하기

Claude Code를 활용해 6가지 AI 비즈니스 자동화 도구를 직접 제작하고, 각 도구의 실용성을 평가하여 'Ship' 또는 'Skip'을 결정하는 과정을 담았다.

r/LangChain

RAG 시스템 구축 시 LangChain과 LlamaIndex 중 무엇을 선택해야 할까?

단순 문서 검색은 LlamaIndex가, 복잡한 에이전트 워크플로는 LangGraph가 유리하며, 고도화된 시스템은 두 프레임워크를 결합하여 사용한다.

r/LangChain

Claude Code와 ChatGPT Plus를 연결해 API 비용을 획기적으로 줄이는 방법

Manifest는 기존 AI 구독 서비스를 에이전트와 연결하고, 모델 라우팅 및 폴백 기능을 통해 API 비용을 제어할 수 있는 오픈소스 LLM 라우터이다.

r/ClaudeAI

Windows에서 AI 에이전트 세션을 재부팅 후에도 유지하는 방법

Windows 환경에서 Claude Code, Codex 등 여러 AI 에이전트를 통합 관리하고 재부팅 시에도 세션을 유지하는 도구 'wmux'를 개발했다.

r/ClaudeAI

도구 설명 문구 변경만으로 LLM의 도구 사용률이 93%에서 20%로 급락

도구 설명에 '직접 지식을 우선하라'는 문구를 추가하자 모델별로 도구 사용률이 극명하게 갈리는 현상이 관찰됨.

AWS ML Blog MLOps Architecture

추론 속도 1.69배 향상: P-EAGLE을 활용한 병렬 speculative decoding

P-EAGLE은 speculative decoding의 순차적 병목을 해결하여 모든 draft 토큰을 단일 forward pass로 생성함으로써 추론 처리량을 최대 1.69배 개선한다.

Amazon SageMakerP-EAGLE

The Verge AI Companies Hardware

퀄컴의 신형 칩 'Snapdragon Reality Elite', AI 스마트 글래스의 성능과 발열 문제 해결하나

퀄컴이 XR 기기용 신형 칩 'Snapdragon Reality Elite'를 공개하며 GPU, CPU, NPU 성능을 대폭 강화하고 발열과 배터리 효율을 개선했다.

QualcommSnapdragon Reality EliteXreal

The Verge AI Companies Products

Siri에 시각적 맥락을 제공할 카메라 탑재 AirPods, 2027년 출시 예정

애플이 Siri의 시각적 맥락 이해를 돕기 위한 카메라 탑재 AirPods와 차세대 폴더블 아이폰 등 2027년 출시 예정인 하드웨어 로드맵을 준비 중이다.

AppleSiri

TechCrunch AI Companies

AI 검색 결과에 브랜드 노출은 늘었지만, 소비자 신뢰는 오히려 하락했다

WordPress VIP 보고서에 따르면, 소비자는 AI 생성 답변에 대한 신뢰도가 낮으며 브랜드가 AI를 마케팅에 활용하는 것을 부정적으로 인식하는 경향이 있다.

WordPress VIP

Roboflow Blog

콘택트렌즈 결함 탐지: AI 모델과 자동화 워크플로로 검수 효율 높이기

Roboflow의 RF-DETR 모델과 워크플로를 사용하여 콘택트렌즈의 균열과 기포를 자동으로 탐지하고, 신뢰도에 따라 pass, review, fail로 분류하는 시스템을 구축한다.

Hacker News - LLM

LLM 에이전트의 세계 모델 추론 능력, 오토마타 학습으로 검증해보니

LLM 에이전트가 상호작용을 통해 숨겨진 환경을 학습하는 능력을 결정적 유한 오토마타(DFA) 기반 테스트베드로 평가한 연구.

Hacker News - LLM Datasets Products

수십 년 치 이메일을 개인 위키로: Memento의 에이전트 기반 검색

Memento는 이메일 아카이브를 SQLite, FTS, 벡터 임베딩으로 인덱싱하여 에이전트 기반의 개인 위키와 검색 기능을 제공하는 오픈소스 도구이다.

EnronMementoMsgvault

Hacker News - LLM

LLM이 작성한 UI 코드의 일관성을 강제하는 디자인 시스템 구축 전략

LLM이 생성하는 UI 코드의 스타일 일관성을 보장하기 위해, 디자인 의도를 토큰화하고 ESLint로 제약을 강제하는 디자인 시스템 'Orbit' 구축 사례.

Databricks Blog

데이터 이동 없이 안전하게, Databricks Marketplace에서 서드파티 앱 즉시 실행

Databricks Marketplace에서 서드파티 데이터 및 AI 애플리케이션을 워크스페이스 내에 직접 설치하고 실행하는 기능을 공개했다.

Databricks Blog

Databricks가 공개한 OpenSharing, 데이터 공유를 넘어 AI 에이전트까지 확장

Databricks가 데이터와 AI 에이전트를 클라우드 및 조직 경계 없이 공유할 수 있는 오픈 프로토콜 OpenSharing을 발표했다.

TechCrunch AI Companies

AI를 핑계로 삼지 않는 로빈후드의 정리해고, 기술 업계의 새로운 흐름인가?

로빈후드가 AI를 직접적인 해고 사유로 언급하지 않고 정리해고를 단행하며, AI 생산성 향상을 명분으로 내세우는 최근 기술 업계의 해고 트렌드와 차별화된 행보를 보였다.

Robinhood

TechCrunch AI Companies

AI 하드웨어의 성공 사례, Plaud가 1억 달러 매출을 달성한 비결

AI 기반 녹음기 제조사 Plaud가 200만 대 이상의 기기 판매와 1억 달러 이상의 연간 반복 매출을 기록하며 AI 하드웨어 시장에서 입지를 굳혔다.

Plaud

Microsoft AI Blog Products

기업용 AI 도입의 핵심: Microsoft가 제시하는 Intelligence + Trust 전략

Microsoft는 기업이 AI를 안전하게 도입하고 비용을 최적화할 수 있도록 Intelligence와 Trust를 결합한 플랫폼 전략과 Agent 365 제어 평면을 제시한다.

Copilot StudioGitHub CopilotMicrosoft 365 Copilot

Hacker News - LLM

VRAM 한계를 넘어서는 LLM 컨텍스트 관리, ICPE의 가상 메모리 페이징 기술

LLM 컨텍스트를 OS 가상 메모리처럼 처리하여 VRAM 제약을 극복하는 Rust 기반 페이징 엔진 ICPE의 기술적 특징과 성능 지표.

Databricks Blog

데이터 레이크하우스에서 직접 실행되는 에이전트형 CDP, CustomerLake 공개

Databricks가 데이터 레이크하우스 내부에 통합된 에이전트 기반의 고객 데이터 플랫폼(CDP)인 CustomerLake를 발표했다.

Databricks Blog Products

에이전트 워크플로를 위한 Postgres 네이티브 하이브리드 검색, Lakebase Search 공개

Lakebase Search는 계층형 스토리지와 Postgres 네이티브 확장을 통해 에이전트 워크플로에 최적화된 대규모 하이브리드 검색 기능을 제공한다.

Lakebase

Databricks Blog

데이터 맥락을 이해하는 AI 에이전트, Databricks Genie One 공개

Databricks가 기업 데이터 맥락을 이해하고 자동화된 업무를 수행하는 AI 에이전트 플랫폼 Genie One을 출시했다.

Databricks Blog

페타바이트 규모 데이터에서 100배 빠른 검색: Databricks 풀텍스트 검색 인덱스 베타 공개

Databricks가 페타바이트 규모 테이블의 부분 문자열 및 키워드 검색을 100배 이상 가속하는 풀텍스트 검색 인덱스를 베타로 공개했다.

Databricks Blog Products

데이터 파이프라인 장애를 스스로 해결하는 자율 운영 에이전트, Genie ZeroOps

Databricks 플랫폼 내에서 데이터 파이프라인과 ML 모델의 장애를 탐지, 분석, 검증하여 자동으로 해결하는 자율 운영 에이전트 Genie ZeroOps를 소개한다.

Genie ZeroOps

Gradient Flow (Ben Lorica)Companies

단일 벤더 AI 스택은 과도기일 뿐, 기업들이 하이브리드 모델 전략으로 전환하는 이유

기업들이 비용 절감, 데이터 보안, 통제권 확보를 위해 단일 벤더 의존에서 벗어나 오픈 웨이트 모델과 상용 모델을 혼합한 하이브리드 AI 스택으로 전환하고 있다.

AnthropicOpenAI

The AI Grid Products

AI 에이전트가 실수를 저지르면? 월드 모델이 필요한 이유

LLM 기반 AI 에이전트가 행동의 결과를 예측하지 못해 발생하는 위험성과 이를 해결하기 위한 월드 모델의 중요성을 분석한다.

ClaudeGemini

Ars Technica AI Products Companies

M365 Copilot의 치명적 취약점, 이메일 데이터 유출 가능성 확인

Microsoft가 M365 Copilot에서 사용자 이메일 등 민감 정보를 탈취할 수 있는 치명적 보안 취약점을 패치했다.

M365 CopilotMicrosoft

TechCrunch AI

SpaceX, AI 코딩 스타트업 Cursor 600억 달러에 인수 합의

SpaceX가 AI 역량 강화를 위해 AI 코딩 스타트업 Cursor를 600억 달러 규모의 주식 거래로 인수하기로 합의했다.

aifeed.dev Products Coding Agents

1,000개 이상의 MCP 서버를 한곳에서, MCPize 플랫폼 공개

MCPize는 1,000개 이상의 검증된 Model Context Protocol 서버를 제공하고 통합 관리 기능을 지원하는 개발자 플랫폼이다.

ClaudeCursorMCP

Hacker News - LLM

LLM을 활용한 C 코드 최적화: 충돌 감지 알고리즘 100배 가속화 방법

LLM을 활용해 볼록 다면체 충돌 감지 알고리즘을 최적화하여 기존 대비 100배의 성능 향상을 달성한 사례 연구.

Hacker News - LLM Benchmarks

LLM의 도구 사용 능력, 속도까지 고려해야 진짜 실력이다

Kitchen Rush는 LLM의 도구 호출 정확도와 추론 지연 시간을 동시에 측정하여 실시간 환경에서의 성능을 평가하는 벤치마크이다.

Kitchen Rush

TechCrunch AI Companies

말레이시아 SaaS Respond.io, AI 에이전트 기반 고객 대화 관리로 6,250만 달러 투자 유치

말레이시아의 고객 대화 관리 플랫폼 Respond.io가 시리즈 B 라운드에서 6,250만 달러를 조달하며 연간 반복 매출 3,500만 달러를 기록했다.

Respond.io

Hacker News - LLM Libraries

LLM 에이전트의 루프 오류를 방지하는 MoSCoW 기반 검증 프레임워크, SAMF

SAMF는 MoSCoW 우선순위 기법을 활용하여 LLM 출력의 결정론적 검증과 에이전트 워크플로의 안정성을 보장하는 Python 프레임워크이다.

SAMF

NAVER D2 Products

외부 SaaS의 한계를 극복하는 AI 기반 에러 모니터링 시스템 구축 전략

광고 SDK 환경의 특수성을 고려해 AI Agent를 활용하여 Sentry를 대체하는 전용 에러 모니터링 시스템 glog를 구축한 사례.

Sentry

Simon Willison Companies Language Models

Anthropic의 Fable 모델, 보안 취약점인가 의도된 기능인가?

보안 전문가 Katie Moussouris는 백악관 보고서에서 제기된 Anthropic Fable 모델의 '탈옥' 사례가 실제로는 사이버 방어를 위한 의도된 기능이라고 평가했다.

AnthropicFable

Wired AI Companies

xAI 데이터 센터 가동 중단 위기, 미 법무부가 '국가 안보' 이유로 개입한 배경은?

미 법무부가 xAI의 미허가 가스 터빈 가동 중단 소송에 개입하여, 해당 전력이 군사 작전에 필수적인 Grok 모델 운영에 직결된다며 xAI를 옹호했다.

xAI

Dataiku Blog Companies

정부가 AI 모델을 차단한다면? 기업이 AI 주권을 확보해야 하는 이유

기업은 외부 요인에 의한 AI 중단 리스크를 방지하기 위해, 핵심 프로덕션 워크로드에는 통제 가능한 오픈 소스 모델을 도입해야 한다.

Dataiku

Salesforce Companies Products

Absa가 Agentforce로 온보딩 시간을 95% 단축한 비결

Absa는 Salesforce Agentforce를 도입하여 수동 온보딩 프로세스를 자동화하고 운영 효율성을 85% 향상시켰다.

AbsaAgentforceSalesforce

Hacker News - LLM

파인튜닝 데이터의 미묘한 태도 차이가 모델의 의견을 바꾼다: 잠재적 편향 전이 연구

파인튜닝 데이터의 일관된 프레이밍(신중함 vs 열망)이 학습하지 않은 주제에 대해서도 모델의 의견을 변화시키는 잠재적 편향 전이 현상을 분석했다.

AWS ML Blog Products Language Models

Google DeepMind의 Gemma 4 모델, Amazon Bedrock에서 즉시 사용 가능

Google DeepMind의 Gemma 4 모델군이 Amazon Bedrock에 출시되어, 추론 최적화와 멀티모달 기능을 프로덕션 환경에서 활용할 수 있다.

Amazon BedrockGemma 4Google DeepMind

AWS ML Blog

AI 에이전트 장애 원인 파악, 수동 분석에서 자동 진단으로 전환하기

Strands Evals SDK의 Detectors 기능을 사용하여 AI 에이전트 실행 트레이스에서 장애를 자동으로 식별하고 근거를 분석하여 해결책을 제시하는 방법.

Hacker News - LLM

LLM의 반복적 'Slop'을 90% 제거하는 FTPO 학습 기법

LLM의 반복적이고 기계적인 텍스트 패턴인 'Slop'을 추론 단계의 샘플러와 학습 단계의 FTPO 기법으로 90%까지 억제한다.

Augment Code Blog Products

코드 리뷰 시간 7시간에서 45분으로, 에이전트 플랫폼 Cosmos의 실체

Augment Code의 통합 에이전트 플랫폼 Cosmos는 코드 리뷰와 사고 대응 등 SDLC 전반의 기계적 작업을 자동화하여 엔지니어링 생산성을 획기적으로 높인다.

Cosmos

TechCrunch AI Companies

인도 AI 유니콘 Sarvam, 2.34억 달러 투자 유치로 소버린 AI 시장 공략 가속화

인도 AI 스타트업 Sarvam이 2.34억 달러 규모의 투자를 유치하며 기업 가치 15억 달러의 유니콘 기업으로 성장했다.

HCLTechSarvam

TechCrunch AI Products Companies

Salesforce가 36억 달러에 인수한 AI 고객 서비스 플랫폼 Fin의 정체

Salesforce가 고객 서비스 자동화 AI 에이전트 플랫폼 Fin을 36억 달러에 인수하여 Agentforce 역량을 강화한다.

AgentforceFinSalesforce

DeepL Blog Companies

DeepL이 초저지연 오디오 기술 Mixhalo를 인수하여 음성 번역 속도를 혁신합니다.

DeepL이 초저지연 오디오 스트리밍 기술 기업 Mixhalo를 인수하여 DeepL Voice의 실시간 음성 번역 성능과 처리 속도를 강화합니다.

DeepLMixhalo

AWS ML Blog Products Libraries

복잡한 연구 작업을 자동화하는 멀티 에이전트 아키텍처 구축 가이드

Amazon Bedrock AgentCore와 LangChain Deep Agents를 활용해 격리된 MicroVM 환경에서 병렬 연구 작업을 수행하는 멀티 에이전트 시스템 구축 방법을 다룬다.

AgentCoreAmazon BedrockLangChain

r/ClaudeAI

Claude Code의 시스템 프롬프트가 제대로 작동하는지 확인하는 테스트 하네스 구축기

Claude Code 스킬 팩의 시스템 프롬프트가 의도대로 작동하는지 검증하기 위해, adversarial 테스트와 LLM 기반 평가를 포함한 2계층 테스트 하네스를 구축하고 운영한 사례.

r/ClaudeAI Coding Agents Dev Tools

LLM의 논리 오류를 방지하는 Claude Code용 정형 검증 도구, Touchstone

Claude Code에 Z3, SymPy 등 정형 검증 엔진을 통합하여 복잡한 로직의 오류를 사전에 방지하는 도구 Touchstone을 소개함.

Claude CodeTouchstoneZ3

r/ClaudeAI

2만 개의 이슈를 처리한 AI 에이전트 오케스트레이션 도구, ForgeDock 공개

GitHub 데이터를 AI 에이전트용 지식 베이스로 변환하고, 작업 충돌을 방지하는 오케스트레이션 계층을 통해 개발 워크플로를 자동화하는 오픈소스 도구 ForgeDock.