2026년 6월 2일 AI 뉴스 아카이브

メルカリエンジニアリングブログ

AI 에이전트와 함께 LP를 제작하는 사내 에디터 'EGP Code' 개발기

Mercari가 AI 에이전트의 편집 효율을 높이기 위해 기존 노코드 에디터를 HTML 기반의 'EGP Code'로 재설계한 사례.

Salesforce

Salesforce 데이터와 연동되어 업무를 자동화하는 자율형 AI 팀원, Agentforce Coworker

Salesforce 데이터와 연동되어 비즈니스 맥락을 이해하고, Slack, Teams 등 다양한 플랫폼에서 실질적인 업무를 수행하는 자율형 AI 에이전트 서비스.

Eye on AI

거대 모델의 한계, 진화하는 AI가 창의적 해답을 제시한다

경사 하강법을 넘어 생물학적 진화 원리를 AI 학습에 적용하는 신경 진화(Neuroevolution)는 기존 모델의 한계를 극복하고 창의적 해답을 제시하는 핵심 기술이다.

r/ClaudeAI

Claude 대화 데이터를 오프라인에서 안전하게 열람하는 파이썬 도구

Claude에서 내보낸 conversations.json 파일을 오프라인 환경에서 안전하게 열람할 수 있는 파이썬 기반 추출 및 브라우저 도구.

r/ClaudeAI

AI로 코딩한 앱, 보안은 괜찮을까? 초보자를 위한 필수 보안 개념 5가지

AI 에이전트로 개발한 웹 애플리케이션에서 반드시 고려해야 할 인증, 인가, 접근 제어, 비밀 정보 관리, 속도 제한의 핵심 개념을 호텔 비유로 설명한다.

r/LLMDevs

록 밴드도 AI 최적화 시대? HADEMANASTIA의 llms.txt 구현 사례

브라질 록 밴드 HADEMANASTIA가 llms.txt와 JSON-LD 스키마를 도입하여 록 밴드 최초로 AI 크롤러 최적화를 구현했다.

Simon Willison

Microsoft의 새로운 LLM 2종 공개: 35B 추론 모델과 5B 코드 모델

Microsoft가 추론 특화 35B 모델 'MAI-Thinking-1'과 코드 최적화 5B 모델 'MAI-Code-1-Flash'를 공개했다.

r/artificial Agents Benchmarks

멀티 에이전트 세션 토큰 사용량 96% 절감하는 최적화 전략

멀티 에이전트 세션에서 발생하는 토큰 비대화 문제를 해결하기 위해 외부 문서 관리와 동적 도구 탐색 기법을 적용하여 비용과 토큰 사용량을 획기적으로 줄이는 방법.

Multi-AgentSWE-bench

NVIDIA - Deep Learning Blog Libraries Companies

NVIDIA NemoClaw로 산업 공학의 시뮬레이션 워크플로를 자동화하는 방법

NVIDIA가 산업용 자율 AI 에이전트 구축을 위한 오픈 블루프린트 'NemoClaw'를 공개하여 CAE 및 EDA 워크플로 자동화를 지원한다.

NemoClawNVIDIAOpenShell

r/LLMDevs Language Models Dev Tools

AI 코딩 에이전트가 코드 맵을 무시한다면? GrapeRoot로 비용 51% 절감하기

AI 에이전트가 기존 코드 맵 도구를 무시하고 익숙한 터미널 명령을 사용하는 문제를 해결하기 위해, GrapeRoot는 강제적인 맵 사용을 통해 비용을 51% 절감하고 코드 품질을 향상시켰다.

ClaudeGrapeRootGraphify

r/artificial Companies

중앙 집중식 AI를 넘어, 글로벌 연합으로 프론티어 모델을 만들 수 있을까?

AI Alliance가 중앙 집중식 연구소 없이 글로벌 연합을 통해 프론티어급 AI 모델을 구축하려는 Project Tapestry의 가능성과 과제를 논의한다.

IBMMetaThe AI Alliance

TechCrunch AI Companies

Microsoft가 공개한 ASSERT: AI 앱의 정책 준수와 동작을 자동 평가하는 오픈소스 프레임워크

Microsoft가 자연어 정책 설명을 기반으로 AI 시스템의 동작을 자동 평가하고 회귀 테스트를 수행하는 오픈소스 프레임워크 ASSERT를 공개했다.

Microsoft

TechCrunch AI

연간 AI 예산을 4개월 만에 소진한 우버, 직원별 사용 한도 설정

우버가 AI 비용 절감을 위해 직원 및 에이전트 도구당 월 1,500달러의 사용 한도를 설정했다.

AI Engineer

API 비용이 고객 매출을 넘는다면? 모델 파인튜닝의 적기 판단법

범용 API 모델의 한계를 넘어 비즈니스 로직에 최적화된 모델을 구축하기 위한 파인튜닝 시점과 실전 전략을 다룬다.

Hacker News - LLM

안드레 카파시가 정리한 LLM 학습 로드맵: 기초부터 GPT-2 구현까지

안드레 카파시의 오픈소스 저장소와 강의 시리즈를 통해 LLM의 기술적 계보와 구현 원리를 체계적으로 학습하는 가이드입니다.

Microsoft AI Blog

Microsoft Build에서 공개된 에이전트 플랫폼과 차세대 MAI 모델군

Microsoft가 에이전트 개발을 위한 통합 플랫폼과 인프라, 그리고 추론 성능을 강화한 MAI-Thinking-1 모델군을 발표하며 개발자 생태계를 확장했다.

Microsoft AI Blog MLOps Dev Tools

마이크로소프트가 제시하는 엔터프라이즈 AI 에이전트 운영 체제

마이크로소프트가 기업용 AI 에이전트의 구축, 운영, 거버넌스를 통합 관리하는 포괄적 플랫폼을 공개했다.

Agent 365GitHub

r/LangChain

LLM 에이전트 평가, 1-5점 척도보다 이진 분류 4개가 더 정확한 이유

LangChain 에이전트 CI 평가 시 1-5점 척도 대신 4가지 이진 기준을 도입하여 평가 신뢰도(Cohen's kappa)를 0.47에서 0.78로 개선한 사례.

r/AutoGPT

Claude Code가 파일을 삭제하지 못하도록 막는 로컬 AI 에이전트 방화벽, Nixis

Claude Code의 도구 호출을 실시간으로 가로채어 위험한 작업을 차단하는 오픈소스 로컬 AI 에이전트 방화벽 Nixis를 소개한다.

AWS ML Blog

Amazon Nova Forge로 LLM 성능을 극대화하는 파인튜닝과 하이퍼파라미터 튜닝 전략

Amazon Nova Forge의 CPT, SFT, RFT 파이프라인을 활용해 도메인 특화 모델을 구축하고, 하이퍼파라미터 튜닝으로 성능을 최적화하는 전략을 제시한다.

AI Engineer

AI 에이전트가 스스로 버그를 찾고 PR까지 생성하는 비결

Lovable은 AI 에이전트가 플랫폼 한계를 실시간으로 보고하는 'vent tool'과 자가 개선 루프를 통해 프로덕션 버그를 자동 해결한다.

AWS ML Blog Products Language Models

학습 없이 자연어 프롬프트만으로 객체 탐지 구현하기: Amazon Nova 2 Lite 활용법

Amazon Nova 2 Lite와 Amazon Bedrock을 사용하여 별도의 모델 학습 없이 자연어 프롬프트만으로 객체 탐지 애플리케이션을 구현하는 방법을 다룬다.

Amazon BedrockAmazon Nova 2 Lite

Hacker News - LLM

데이터 분석 프로젝트의 컨텍스트 창을 최적화하는 data2prompt

data2prompt는 데이터 과학 프로젝트의 코드와 데이터를 LLM 컨텍스트에 맞게 지능적으로 샘플링하고 최적화하여 변환하는 CLI 도구이다.

Latent Space (swyx)

AI 에이전트 시대, GitHub는 어떻게 14배의 트래픽 폭증을 견디고 있는가

GitHub COO Kyle Daigle이 AI 에이전트 도입으로 인한 인프라 부하 해결책과 향후 에이전트 중심의 개발 플랫폼 진화 방향을 공유한다.

Alignment Forum

AI 안전 연구를 위한 'ARC White-Box Estimation Challenge' 개최, 상금 10만 달러

ARC와 AIcrowd가 랜덤 MLP의 출력값을 추정하는 알고리즘 성능을 겨루는 'ARC White-Box Estimation Challenge'를 개최한다.

r/LangChain

오픈소스 LLM 배포 시 GPU 사양 고민 끝, 인터랙티브 하드웨어 계산기로 해결하기

모델 크기와 양자화 방식에 따른 GPU VRAM 요구사항을 실시간으로 계산하고 시각화하는 인터랙티브 가이드.

r/neuralnetworks Architecture Training

DOS 게임을 강화학습으로 정복하기: PPO와 Transformer를 이용한 레이싱 에이전트

DOS 게임 'Indianapolis 500'을 대상으로 PPO, Transformer, LSTM을 결합한 강화학습 에이전트를 개발하고 학습 전략을 공유함.

LSTMPPOTransformer

DataRobot Blog

Slack 메시지 자동 분류부터 PII 보안까지, 디지털 트윈 에이전트 구축 가이드

DataRobot 플랫폼을 활용하여 Slack 메시지를 분류하고 개인 지식을 학습한 디지털 트윈 에이전트를 구축하는 실무 가이드.

Pinecone Blog

Pinecone이 공개한 AskData: 데이터 에이전트의 토큰 비용을 90% 절감한 비결

Pinecone은 내부 데이터 에이전트 AskData를 Pinecone Nexus 기반으로 재설계하여 토큰 소비를 92%, 비용을 80% 절감하고 추론 효율성을 극대화했습니다.

Hugging Face Blog Language Models

로컬 환경에서 더 빠르고 강력해진 컴퓨터 사용 에이전트, Holo3.1 출시

HCompany가 다양한 환경과 에이전트 프레임워크를 지원하는 컴퓨터 사용 모델 Holo3.1을 공개하며, 로컬 추론을 위한 양자화 체크포인트를 도입했다.

Holo3.1

r/MachineLearning

Backprop은 왜 뇌의 초기 시각 피질(V1) 정렬을 빠르게 파괴하는가?

학습 규칙에 따른 인공 신경망과 인간 뇌의 시각 피질 정렬 차이를 분석한 연구로, Backprop이 초기 정렬을 빠르게 파괴하며 전역 오차 신호와 초기 피질 정렬 간의 트레이드오프가 존재함을 확인했다.

Interconnects (Nathan Lambert)

오픈 AI 연구의 최전선에서: Ai2 퇴사 후 Nathan Lambert가 그리는 미래

Allen Institute for AI(Ai2)를 떠나는 Nathan Lambert가 오픈 모델 생태계의 중요성과 연구자의 역할을 회고하며 향후 오픈 사이언스 활동을 다짐한다.

David Shapiro Products

단순한 챗봇 사용을 넘어, AI로 업무 역량을 확장하는 실무적 방법

AI 유창성은 단순한 도구 사용을 넘어 인지적 부하를 줄이고 새로운 역량을 개발하는 전문적인 활용 능력을 의미한다.

ChatGPT

KDNugget

블랙박스 LLM을 투명하게: XAI와 관측성으로 신뢰성 확보하기

LLM의 블랙박스 문제를 해결하기 위한 동적 평가 프레임워크와 비용 효율적인 프록시 모델, 관측성 도구 활용법을 다룬다.

Gradient Flow (Ben Lorica)

LLM이 전부가 아니다: 엔터프라이즈 AI를 완성할 전문 모델 스택의 등장

엔터프라이즈 AI는 범용 LLM을 넘어 정형 데이터, 관측 가능성, 실시간 상호작용 등 특정 도메인에 특화된 파운데이션 모델들로 구성된 포트폴리오 형태로 진화한다.

KDNugget

데이터 엔지니어링과 AI 에이전트 개발을 위한 필수 오픈소스 도구 10선

데이터 분석, 모니터링, AI 에이전트 메모리 관리를 지원하는 현대적인 오픈소스 데이터베이스 및 관리 도구 10가지를 소개한다.

Dust

컨설팅 기업이 AI 에이전트를 대규모로 도입하고 성공하는 비결

컨설팅 리더들이 AI 에이전트를 기업 전반에 도입하며 겪은 보안, 거버넌스, 조직 문화 변화 및 실무적 성공 전략을 공유한다.

Siraj Raval

AI로 8분 만에 작곡부터 음원 등록까지: Fish Audio S2 Pro 실전 가이드

Fish Audio S2 Pro의 Dual-AR 아키텍처와 GRPO 학습 기법을 활용해 감정 제어가 가능한 AI 음성을 생성하고 음원을 제작하는 과정을 다룬다.

Wired AI

트럼프 행정부의 AI 행정명령, 내부 갈등으로 재추진 불투명

트럼프 행정부가 지난달 무산된 AI 규제 행정명령을 재추진하기 위해 내부 조율 중이나, 규제 완화론자와 강화론자 간의 갈등으로 난항을 겪고 있다.

r/ClaudeAI

AI 에이전트의 코드 품질을 높이는 Skillhound: GitHub SKILL.md 기반 MCP 서버

AI 에이전트가 최신 모범 사례를 참고하도록 GitHub의 SKILL.md 파일을 인덱싱하여 MCP 서버로 제공하는 도구, Skillhound 소개.

r/ClaudeAI

Claude Cowork 워크스페이스, 여러 노트북에서 끊김 없이 동기화하는 팁

Google Drive for desktop의 Mirror 모드를 활용해 Claude Cowork 워크스페이스를 여러 기기에서 동기화하는 설정 방법.

r/ClaudeAI

Claude 프로젝트 관리를 위한 폴더 기반 워크플로 'AI_OS' 설계

Claude 프로젝트를 체계적으로 관리하기 위한 폴더 기반 워크플로 'AI_OS' 설계 및 활용법.

r/LLMDevs

폐쇄형 AI 브라우저 대신 직접 만든 오픈소스 AI 브라우저 Sessionat

기존 AI 브라우저의 폐쇄성을 해결하기 위해 MCP 서버가 내장된 오픈소스 Chromium 기반 브라우저 Sessionat을 개발하여 공유했다.

r/ClaudeAI

Claude Code와 MCP 도입 후, 기업별 AI 에이전트의 차별화는 어떻게 가능한가?

모델과 도구가 상향 평준화되는 환경에서 기업 고유의 운영 로직을 담은 지침(CLAUDE.md 등)이 AI 에이전트 차별화의 핵심이 될 것이라는 논의.

r/ClaudeAI

AI가 스스로 작성한 테스트 코드가 '의도'를 검증하지 못하는 이유

Claude를 활용한 자율 코딩 파이프라인에서 AI가 작성한 명세와 테스트 코드가 실제 비즈니스 의도를 완벽히 보장하지 못하며, 이를 보완하기 위해 린터와 같은 도구 병행이 필수적임을 실험으로 확인했다.

r/ClaudeAI Dev Tools Coding Agents

Claude Code 터미널 관리의 불편함을 해결하는 ccanvas 도구

Claude Code 사용 시 수많은 터미널 창을 효율적으로 관리하고 세션을 저장할 수 있는 ccanvas 도구를 개발하여 공유했다.

ccanvasClaude Code

r/LLMDevs

매주 쏟아지는 AI 에이전트 보안 도구, 한눈에 정리한 'Awesome Agent Vault'

AI 에이전트 자격 증명, 보안, 인증 도구 생태계를 정리한 'awesome-agent-vault' 저장소를 공유하고 커뮤니티의 피드백을 요청함.

NVIDIA - Deep Learning Blog Companies

NVIDIA와 Microsoft가 공개한 에이전트 AI 생태계: 하드웨어부터 클라우드까지

NVIDIA와 Microsoft가 에이전트 AI 구현을 위해 Windows 기기, Azure 클라우드, 온프레미스를 아우르는 통합 하드웨어 및 소프트웨어 스택을 발표했다.

MicrosoftNVIDIA

TechCrunch AI

AI 에이전트의 안전한 배포를 위한 마이크로소프트의 새로운 표준, ACS

마이크로소프트가 AI 에이전트의 일관된 정책 제어와 거버넌스를 위해 오픈소스 표준인 Agent Control Specification(ACS)을 공개했다.

TechCrunch AI Libraries Products

마이크로소프트가 선보이는 상시 가동형 AI 에이전트 '스카우트(Scout)'

마이크로소프트가 오픈클로(OpenClaw) 프레임워크를 기반으로 사용자 행동을 학습하고 지속적인 정체성을 유지하는 AI 에이전트 '스카우트(Scout)'를 공개했다.

OpenClawScout

TechCrunch AI

마틴 스콜세지 감독이 AI 이미지 생성 스타트업 Black Forest Labs와 손잡은 이유

거장 마틴 스콜세지 감독이 영화 스토리보드 제작 효율화를 위해 AI 이미지 생성 스타트업 Black Forest Labs의 파트너이자 자문으로 합류했다.

r/ClaudeAI

Claude가 게임 엔진을 직접 보고 3D 게임을 만든다? MCP 도구 godotiq 공개

MCP 도구 godotiq를 활용해 Claude가 Godot 엔진 내에서 인간의 개입 없이 3D 플랫폼 게임을 자율적으로 제작한 사례.

r/ClaudeAI

AI 에이전트의 실수를 줄이는 가장 간단한 방법: 인프라 추상화

AI 에이전트에게 HTTP 헤더나 인증 같은 저수준 인프라 세부 사항을 숨기고 단순한 함수 호출만 제공하면 추론 품질과 정확도가 크게 향상된다.

r/ClaudeAI Coding Agents Language Models

AI가 과학적 발견을 예측할 수 있을까? Singularity Gate 벤치마크 결과

최신 AI 모델의 과학적 발견 예측 능력을 평가하는 Singularity Gate 벤치마크가 공개되었으며, Opus 4.8 모델이 20.47%의 부분 점수를 기록했다.

Claude CodeOpus 4.8Singularity Gate

r/ClaudeAI

Claude Desktop의 위험한 플래그, 당신의 SSH 키를 노릴 수 있습니다

Claude Desktop의 --allow-dangerously-skip-permissions 플래그 사용 시 민감 정보 탈취 및 악성 스킬 삽입을 통한 지속적 공격 위험이 존재함.

r/ClaudeAI Language Models

Claude 코딩 시 버그를 줄이고 토큰 비용을 아끼는 MD 스펙 파일 활용 전략

코드 아키텍처를 담은 Markdown 스펙 파일을 활용해 Claude의 문맥 이해도를 높이고 토큰 사용량을 최적화하는 방법.

Claude

Ars Technica AI Companies

수학계가 AI의 침투를 경계하는 이유: 레이던 선언의 핵심

수학계가 AI 기술 기업의 연구 영향력 확대에 대응하여 '레이던 선언'을 통해 우려를 표명하고 공식적인 입장을 정리했다.

International Mathematical UnionOpenAI

Matthew Berman Companies

AI가 일자리를 없앤다? 데이터로 확인한 진실과 실무 AI 활용법

AI가 화이트칼라 일자리를 대체한다는 주장은 과장되었으며, 기업들은 AI를 활용해 생산성을 높이는 과정에서 오히려 고용을 유지하고 있다.

Zapier

r/LLMDevs

4인 팀의 LLM 게이트웨이 평가: 왜 Concentrate.ai를 선택했는가

4인 B2B SaaS 팀이 PII 보안, 거버넌스, 비용 효율성을 고려하여 4가지 LLM 게이트웨이를 평가하고 Concentrate.ai를 최종 선택한 경험 공유.

r/LLMDevs

LLM이 아닌 코드가 제어하는 신뢰성 높은 AI 에이전트 프레임워크 'Swarm'

블록체인 엔지니어링의 결정론적 상태 관리와 이벤트 기반 아키텍처를 적용하여 에이전트의 신뢰성과 재현성을 높인 오픈소스 프레임워크.

Analytics Vidhya Companies Language Models

Claude Managed Agents로 AI 에이전트 인프라 구축 고민 해결하기

Anthropic의 Claude Managed Agents를 사용하여 에이전트 인프라 구축, 샌드박스 환경, 세션 관리 및 오케스트레이션을 효율적으로 처리하는 방법을 다룬다.

AnthropicClaudeClaude Managed Agents

AI Engineer

데이터 품질만 바꿔도 학습 효율 5배 상승: 고품질 데이터의 비밀

고품질 데이터로 에이전트 모델을 파인튜닝하면 저품질 데이터 대비 성능 향상폭이 5배 더 크며, 이는 모델의 추론 능력과 실패 패턴 분석에 직결된다.

The Verge AI Companies Products

마이크로소프트가 공개한 AI 에이전트 전용 OS 'Project Solara'는 무엇인가?

마이크로소프트가 AI 에이전트 구동에 최적화된 안드로이드 기반의 새로운 운영체제 'Project Solara'를 빌드 2026에서 발표했다.

MicrosoftProject Solara

r/ClaudeAI Language Models Products

Claude.ai 대화 도중 모델과 Thinking 모드를 자유롭게 전환할 수 있을까?

Claude.ai 브라우저 및 데스크톱 앱에서 대화 중 모델 변경과 Thinking 모드 토글이 가능하며, AI가 현재 모델과 모드를 인식함을 확인했다.

ClaudeClaude.aiHaiku

r/ClaudeAI

Claude 긴 대화도 이제 한 번에 이동, 오픈소스 내비게이션 도구 공개

Claude 대화창에서 메시지 간 빠른 이동을 지원하는 오픈소스 내비게이션 패널 도구.

r/ClaudeAI

Claude의 자동 요약으로 인한 정보 손실, 구조화된 템플릿으로 해결하기

Claude의 자동 압축 기능으로 인한 컨텍스트 손실 문제를 해결하기 위해 CLAUDE.md와 수동 압축 전략을 활용한 상태 관리 시스템을 구축했다.

TechCrunch AI

OpenAI, 기업용 Codex 기능 확장 및 6개 직무별 플러그인 공개

OpenAI가 Codex의 기업용 기능을 강화하며 데이터 분석, 영업 등 6개 직무별 플러그인과 웹사이트 배포 기능을 출시했다.

AWS ML Blog Products Companies

Amazon Bedrock AgentCore로 코드 리뷰의 제품 검증까지 자동화하는 방법

Baz는 Amazon Bedrock과 AgentCore를 활용해 코드와 제품 요구사항 간의 간극을 메우고, 브라우저 기반 자동 검증을 통해 코드 리뷰 효율을 높였다.

Amazon BedrockAmazon Bedrock AgentCoreBaz

r/LLMDevs Inference Products

Ollama보다 빠르고 가벼운 로컬 LLM 실행 도구, LlamaStash

LlamaStash는 llama.cpp를 직접 래핑하여 오버헤드 없이 로컬 모델을 실행하고, 하드웨어 자동 감지와 OpenAI 호환 API를 제공하는 고성능 실행 도구이다.

llama.cppLM StudioOllama

Hacker News - LLM

Kubernetes GPU 비용 40% 절감, piqc로 즉시 확인하기

piqc는 Kubernetes 클러스터 내 유휴 GPU 자원, 잘못된 티어 할당, 미사용 노드를 탐지하여 비용 효율성을 분석하는 오픈소스 도구입니다.

r/ClaudeAI

개인 DNA 데이터를 로컬에서 안전하게 분석하는 에이전트 하네스, Genomi 공개

Genomi는 대규모 유전체 데이터를 로컬에서 처리하여 프라이버시를 보호하고, 최신 과학 데이터베이스와 연동해 정확한 유전학 분석을 수행하는 오픈소스 에이전트 하네스이다.

r/ClaudeAI Coding Agents Agents

MCP 서버 6개, 툴 180개: 프로덕션 에이전트 배포의 함정과 비용 절감 전략

프로덕션 환경에서 MCP 서버를 사용할 때 발생하는 툴 선택 오류, 컨텍스트 비용 증가, OAuth 관리 문제를 해결하는 실무 가이드.

Claude CodeMCPRatel

r/ClaudeAI

코딩 에이전트의 컨텍스트 비용을 64배 줄이는 아키텍처 메모리 레이어

Provenant는 코딩 에이전트가 대규모 저장소를 효율적으로 탐색하도록 돕는 MCP 기반의 아키텍처 메모리 서버입니다.

r/ClaudeAI Language Models Coding Agents

Claude Code 스킬 74개 작성 후 깨달은 '가르치지 말고 제한하라'는 원칙

Claude Code의 커스텀 스킬은 모델을 가르치기보다 선택지를 제한하고 금지 사항을 명시하는 가드레일로 활용할 때 가장 효과적이다.

ClaudeClaude Code

r/LangChain Libraries MLOps

LangGraph를 Rust로 재구현한 Juncture, 400배 빠른 성능과 타입 안전성 제공

LangGraph의 핵심 모델을 Rust로 포팅하여 타입 안전성과 병렬 처리 성능을 극대화한 Juncture 라이브러리 소개.

JunctureLangfuseLangGraph

Hacker News - LLM

LLM은 왜 고전 게임 Zork를 제대로 플레이하지 못할까?

Zork-bench는 고전 텍스트 어드벤처 게임 Zork를 활용해 LLM의 추론 및 문제 해결 능력을 평가하는 벤치마크 도구이다.

r/artificial Companies

AI 정렬의 핵심은 개별 에이전트가 아닌 시스템의 구성적 위상수학에 있다

AI 정렬은 개별 에이전트의 속성이 아니라 시스템의 구성적 위상수학에서 발생하며, 이를 해결하기 위해 서브 튜링 컴파일러를 통한 구조적 검증이 필요하다는 주장.

Anthropic

r/artificial

5년 된 RTX 3090으로 로컬 LLM 160tps 달성한 후기

RTX 3090을 활용해 Qwen 3.6 35B 모델을 로컬에서 구동하며 VRAM 최적화를 통해 추론 속도를 15tps에서 160tps로 대폭 향상함.

Hacker News - LLM

원본 데이터 유출 없이 LLM을 활용하는 메타데이터 우선 AI 프레임워크, LocalFlow

로컬 환경에서 메타데이터만 LLM에 전송하여 데이터 프라이버시를 보호하고 결정론적인 분석 코드를 생성·실행하는 AI 프레임워크입니다.

r/LLMDevs

PDF 파서 5종 성능 비교: 비용과 정확도 사이의 최적 선택은?

실제 기업 문서 200건을 대상으로 PDF 파서 5종의 성능을 비교하고, 문서 유형에 따른 파서 선택 전략을 논의한다.

r/ClaudeAI Companies Coding Agents

내 Claude Code 설정은 몇 점일까? 설정 진단 도구 'ccaudit' 소개

Claude Code 설정 상태를 로컬에서 분석하여 후크 커버리지, 프로젝트 위생 등 6가지 지표로 등급을 매기는 감사 도구 'ccaudit'을 공유했다.

AnthropicClaude Code

r/ClaudeAI Coding Agents Libraries

LLM으로 나만의 지식 베이스를 구축하는 법: McBrain 소개

Andrej Karpathy의 문서 위키 아이디어를 Claude Cowork에서 구현할 수 있는 오픈소스 플러그인 McBrain을 소개한다.

Claude CodeMcBrainMCP

r/ClaudeAI

GPT-5.5가 직접 인정한 Claude Opus 4.8의 우위, 무엇이 달랐나?

개인 지식 베이스를 활용한 3가지 과제 테스트에서 Claude Opus 4.8은 창의적 글쓰기와 추천에서, GPT-5.5는 신중한 연구와 사실 검증에서 우위를 보였다.

r/ClaudeAI

Claude와 Threads를 직접 연결해 게시물 작성부터 예약까지 자동화하는 방법

BlackTwist MCP 서버를 활용해 Claude와 Threads를 연동하고, 데이터 분석 기반의 콘텐츠 작성 및 예약 자동화 워크플로를 구축한 사례.

r/ClaudeAI Coding Agents Dev Tools

Claude Code와 GitHub로 구현하는 야간 백로그 자동화 파이프라인

Claude Code와 GitHub PR 자동 병합 기능을 연동하여 야간에 백로그 작업을 자동으로 처리하는 워크플로를 구축했다.

Claude CodeGitHub

r/ClaudeAI

Chrome의 메모리 절약 기능으로 Claude 탭이 계속 새로고침된다면?

Chrome의 메모리 절약 기능으로 인한 Claude 탭 강제 새로고침 문제를 해결하기 위해, 탭 상태를 로컬에 캐싱하는 'Session Vault' 확장 프로그램을 개발했다.

TechCrunch AI Companies

AI 모델의 실수를 방지하는 가드레일, ZeroDrift가 1,000만 달러 투자 유치

ZeroDrift는 결정론적 규칙으로 규정 위반을 탐지하고 LLM으로 메시지를 수정하는 AI 컴플라이언스 솔루션을 제공한다.

ZeroDrift

r/LangChain

터미널 에이전트와는 다른 접근, LangGraph로 구축한 인간 개입형 코딩 에이전트

LangGraph를 사용하여 사용자가 워크플로우를 직접 제어하고 컨텍스트를 큐레이션하는 인간 개입형 코딩 에이전트를 개발하여 공개했다.

r/artificial

GPU도, 역전파도 필요 없다? 부동소수점 연산을 제거한 BIN16 아키텍처

부동소수점 연산 대신 XNOR와 popcount 기반의 불리언 연산을 사용하여 GPU 없이 학습과 추론이 가능한 BIN16 아키텍처를 소개한다.

AI Jason Companies Libraries

AI 에이전트가 스스로 운영하는 '자기 개선 기업' 구축 가이드

AI 에이전트와 피드백 루프를 활용하여 기업 운영을 자동화하고 지속적으로 성능을 개선하는 실전 방법론을 소개한다.

HubSpotLoopany

r/LLMDevs Vector DB Benchmarks

개인용 AI 에이전트의 망각 문제 해결, Quarq Agent v0.4.0 오픈소스 공개

Quarq Labs가 장기 기억과 로컬 우선 아키텍처를 갖춘 오픈소스 에이전트 프레임워크 Quarq Agent v0.4.0을 출시했다.

FAISSLongMemEval-SQuarq Agent

r/LLMDevs Dev Tools

LLM 컨텍스트 윈도우가 부족한가요? AST로 코드 구조만 추출해 토큰을 절약하는 CGE

AST를 활용해 코드의 구문 노이즈를 제거하고 핵심 구조만 압축하여 LLM 컨텍스트 사용량을 줄이는 CGE 프로젝트를 소개한다.

CGE

IBM Technology Companies

양자 컴퓨팅의 핵심, 게이트와 중첩 그리고 얽힘의 원리

양자 컴퓨팅의 기본 단위인 큐비트와 게이트를 통해 중첩과 얽힘 현상의 수학적 원리를 설명한다.

IBM

AI Supremacy Companies

Anthropic과 OpenAI의 IPO 임박, 그리고 급증하는 데이터센터 인프라 비용의 실체

AI 인프라 경쟁으로 인한 데이터센터 확장과 막대한 자본 지출이 이어지는 가운데, 기업들의 IPO 준비와 지역 사회의 환경적 반발이 심화되고 있다.

AnthropicGoogle

r/ClaudeAI

Claude Code 세션 초기화 문제를 해결하는 컨텍스트 요약 도구, Claude Cairn

Claude Code 세션의 추론 과정과 결정 사항을 마크업 노트로 저장하여 컨텍스트 재사용성을 높이는 플러그인 Claude Cairn을 개발했다.

r/ClaudeAI Coding Agents Dev Tools

30분 만에 구축하는 스스로 학습하는 AI 영업 사원

Claude Code를 사용하여 리드 자격 확인부터 학습까지 수행하는 모듈형 AI 영업 에이전트 구축 사례를 공유한다.

Claude Coden8nSupabase

r/ClaudeAI

AI 모델별 코드 리뷰 능력 비교: 15개 버그를 가장 잘 찾은 모델은?

15개의 버그가 심어진 React 앱을 대상으로 5개 AI 모델의 코드 리뷰 성능을 벤치마크한 결과, Opus가 가장 넓은 커버리지를 보였고 Grok이 가성비 면에서 우수한 성능을 나타냈다.

r/artificial

AI 산업의 수익화 가속과 보안 위협: 최근 주요 동향 정리

AI 산업의 수익화 가속과 보안 취약점 노출, 인프라 투자 확대 등 최근 주요 동향을 정리한 요약이다.

r/LLMDevs

AI 에이전트 플랫폼 7종 비교: 인프라, 보안, 확장성 관점의 선택 기준

AI 에이전트 운영을 위한 7가지 주요 플랫폼의 기술적 특징과 보안, 인프라 트레이드오프를 비교 분석한 자료.

Hacker News - LLM Agents Libraries

LLM 응답을 텍스트에서 대화형 UI로, MDMA로 구현하는 차세대 AI 인터페이스

MDMA는 마크다운에 폼, 버튼, 승인 게이트 등 대화형 컴포넌트를 삽입하여 LLM 응답을 즉시 실행 가능한 애플리케이션으로 변환하는 오픈 표준이다.

MCPMDMA