2026년 6월 27일 AI 뉴스 아카이브

r/LLMDevsNEW12시간 전

서버 실행 기반 human-in-the-loop 설계 취약점 검토 요청

모델의 직접 실행을 차단하고 서버 측 게이트와 원장 기반으로 효과를 수행하도록 구성한 설계와 그 한계를 기술적 관점에서 검토해 달라는 요청이다.

sudoremove Best PracticesNEW14시간 전

"리텐션이 전부다" 토스 출신 PO가 공개하는 망하지 않는 제품의 수학

토스와 오늘의집 출신 PO가 AARRR 프레임워크와 리텐션의 수학적 원리를 통해 좋은 제품을 정의하고, AI 시대에 기술보다 브랜딩과 철학이 중요해지는 이유를 설명한다.

AARRR

r/LangChain Libraries Vector DBNEW14시간 전

RAG 디버깅 도구와 23.7% 중복 발견

Haystack Diagnostics Engine은 RAG 파이프라인의 검색 실패를 6개 클래스 수준으로 분류하고 쿼리 상태를 JSON 번들로 캡처해 diff로 원인을 밝히는 도구이다.

Haystack Weaviate

LangChain ArchitectureNEW13시간 전

AI 에이전트 도구 선택 가이드: MCP vs CLI 핵심 차이와 비용 분석

AI 에이전트 구축 시 보안과 세밀한 제어가 필요하면 MCP를, 비용 효율성과 가벼운 실행이 필요하면 CLI를 선택하는 기준을 제시한다.

MCP

r/deeplearningNEW14시간 전

데이터 파이프라인 우선순위

온프레미스 AI 프로젝트에서 모델 개선보다 데이터 수집·정규화·검색·거버넌스 같은 기반 인프라가 생산성과 신뢰도를 결정한다고 주장했다.

Sebastian Raschka (Ahead of AI)Coding AgentsNEW14시간 전

오픈 웨이트 LLM 기반 로컬 코딩 에이전트 구축

로컬의 오픈 웨이트 LLM과 인퍼런스 런타임, 파일·명령 실행을 지원하는 코딩 하니스로 완전한 로컬 코딩 에이전트를 구성하는 실전 튜토리얼이다.

Claude Code Codex

r/LLMDevs ProductsNEW15시간 전

코드 토큰 절감 실험 프로젝트 LLMpress

LLMpress는 AST와 소스맵을 활용해 코드와 프롬프트를 압축하고 편집 결과를 원본으로 역매핑해 LLM 전송 토큰을 줄이는 실험 프로젝트이다.

LLMpress

r/LangChain Agents InferenceNEW16시간 전

로컬 에이전트의 위험한 명령을 사전 가로막는 경량 솔루션

Halt Core는 로컬에서 에이전트의 명령과 코드를 가로채 정적 룰과 선택적 로컬 LLM 심사를 통해 위험한 셸 및 파이썬 실행을 차단하는 경량 미들웨어다.

AutoGPT CrewAI Ollama

aifeed.dev ProductsNEW16시간 전

AI 에이전트가 권한 기반으로 기업에 연락할 수 있는 구조화된 프로필 시스템

anewera는 llms.txt, agent.json, agent.md와 실시간 MCP/webMCP 엔드포인트를 통해 AI 에이전트가 기업을 찾고 권한화된 액션으로 연락하도록 설계된 구조화된 비즈니스 디렉토리이다.

anewera

r/neuralnetworks LibrariesNEW18시간 전

C/CUDA 기반 nanoeuler LLM 구현

스크린샷은 JustVugg의 nanoeuler가 C/CUDA로 작성된 GPT-2 스타일 LLM이며 hand-written backprop, BPE, FlashAttention, pretraining, SFT를 포함한다고 보고한다.

nanoeuler

Vizuara ArchitectureNEW22시간 전

로봇이 인간처럼 정교하게 움직이는 비결, ACT 아키텍처 분석

로봇의 모방 학습 시 발생하는 오차 누적 문제를 해결하기 위해 동작 시퀀스를 묶어 예측하는 Transformer 기반 모델인 ACT를 정의한다.

Action Chunking Transformer

Latent Space (swyx)Language ModelsNEW20시간 전

GPT-5.6 Sol은 일부 코딩 작업에서 Mythos를 앞섰으나 사이버 임계치는 넘지 못했다

OpenAI가 공개한 GPT-5.6은 제한적 접근으로 제공되며 일부 코딩 에이전트 작업과 벤치마크에서 Mythos에 필적하는 성능을 보였으나 준비태세 평가에서는 Cyber Critical 임계값을 넘지 못했다.

GPT-5.6 Sol

r/MachineLearningNEW1일 전

학습 손실이 꾸준히 감소하는 대시보드 스냅샷이다. 주요 메트릭과 ETA가 함께 표시되어 현재 진행 상황을 직관적으로 알 수 있다.

해당 스크린샷은 step 161에서 loss=1.108, lr=0.001, steps_per_sec≈99로 손실이 꾸준히 감소하는 학습 진행을 보고한다.

r/ClaudeAINEW1일 전

미션 문서·하트비트·통신·감사로 완성한 오케스트레이터 설계

오케스트레이터의 신뢰성은 미션 문서에 따른 의사결정, 주기적 하트비트, 명확한 에이전트 간 통신, 그리고 감사 가능한 제어로 확보된다.

DataRobot Blog Agents ArchitectureNEW1일 전

에이전트 도구 연결의 권한과 감사 체계를 설계하는 방법

MCP 연결은 에이전트의 계획을 실제 실행으로 연결하는 표준화된 호출 표면이어서 소유권·권한·실행 로그를 포함한 거버넌스가 필수라고 강조한다.

Agentic AI MCP

r/artificialNEW1일 전

AI로 생겨난 상위 5개 신규 직무와 채용 수를 공개했습니다

작성자는 2022년 이후 AI 영향으로 급증한 신규 직무명을 구직 사이트에서 스크래핑해 추적하는 사이트를 만들고 상위 5개 직무와 채용 수를 공개했다.

The AI Daily Brief CompaniesNEW1일 전

AI가 시간을 아껴준다고요? '봇시팅'에 뺏기는 시간도 계산하셨나요?

AI 에이전트 도입으로 발생하는 관리 부담인 '봇시팅' 현상을 분석하고, 단순 도구 활용을 넘어 AI를 추론 파트너로 대하는 조직 혁신 방안을 논의합니다.

KPMG

r/ClaudeAI Coding Agents LibrariesNEW1일 전

Claude Code의 로컬 기록을 API 없이 Obsidian 노트로 자동으로 가져오는 파이썬 도구

Claude Code의 .jsonl 대화 기록을 파싱해 가중치 키워드 분류와 메모리 심볼릭 링크로 Obsidian 마크다운 노트로 변환하는 파이썬 유틸리티이다.

Claude Code obsidian-vault-sync

Hacker News - LLM CompaniesNEW1일 전

Telnyx가 올린 Python 기반 AI 콘텐츠 번역 예제 저장소 링크

Hacker News에 공유된 Telnyx의 GitHub 저장소 링크로 Python 기반 AI 콘텐츠 번역용 코드 예제를 가리킨다.

Telnyx

Simon Willison Language ModelsNEW1일 전

수천 건의 공격에도 비밀 유출은 발생하지 않았다

Fernando는 OpenClaw 테스트 인스턴트에 이메일로 프롬프트 인젝션을 시도한 6,000건의 공격에도 비밀 유출이 발생하지 않았고 실험에 약 500달러의 토큰 비용이 소요되었음을 보고했다.

Opus 4.6

r/MachineLearningNEW1일 전

학습 보상 신호의 구성 요소와 롤아웃 노트로 이상 동작을 포착한 스크린샷

rewardspy 대시보드 스크린샷에서 평균·표준편차·구성요소 기여도와 롤아웃 노트를 통해 reward-hacking 징후가 관찰된다.

r/LLMDevsNEW17시간 전

판결 근거 불일치 표시 도구

LLM 채점 결과를 주장·근거·판결로 분해하고 근거 없이 내려진 판결을 표시해 수작업 검토 효율을 높이는 도구이다.

r/MachineLearning LibrariesNEW19시간 전

pytest 스타일 CLI로 통계적 회귀를 검출하는 벤치마크 도구

pybench은 여러 시드를 샘플링해 기준 통계를 저장하고 같은 시드로 재실행하여 메트릭의 통계적 회귀를 판정하는 pytest 스타일의 벤치마크 도구이다.

pybench pytest

r/ClaudeAI Products Coding AgentsNEW20시간 전

Claude Chat과 로컬 코드 연결을 자동화하는 MCP 브리지

로컬에서 Claude Chat이 코드베이스를 탐색하고 답변과 수행 단계를 반환하는 읽기 전용 MCP 브리지를 GitHub에 공개했다.

Claude Chat Claude Code MCP

r/LLMDevs Libraries InferenceNEW1일 전

컨텍스트를 작업 세트로 재구성한 ContextForge와 장기 벤치 결과 공개

컨텍스트 윈도우를 작업 세트로 재구성하는 ContextForge 논문과 구현을 공개하고 장기 평가에서 기존 방식보다 일관성과 안정성이 우수함을 보고했다.

ContextForge llama.cpp RecallBench

r/LangChain LibrariesNEW1일 전

검색 단계가 LLM 호출보다 더 많은 지연을 차지하는 경우가 관찰됨

LangChain으로 구축한 RAG 앱에서 임베딩·검색·네트워크 왕복·컨텍스트 주입이 LLM 호출보다 전체 레이턴시에 더 크게 기여함을 100k 문서 벤치로 확인하고 오픈소스 벤치마크를 공개했다.

LangChain moss

AI Engineer Companies ProductsNEW1일 전

20턴이 지나도 무너지지 않는 AI 보이스의 비밀: 4단계 레이어 설계법

단순 프롬프트를 넘어 불변의 정체성과 상황별 모드 등 4단계 계층 구조로 AI의 일관된 브랜드 보이스를 구축하는 실무 아키텍처를 제시한다.

Isadora & Co The Bloom House AI

r/LLMDevs Dev ToolsNEW1일 전

의존성 번들이 코드 이해에 주는 효과는 과제 유형에 따라 달랐다

PViz로 만든 의존성 그래프 번들을 이용한 통제 평가에서 과제 유형이 번들 유용성을 예측했고 번들 보조는 구조·혼합 과제에 특히 도움이 되었다.

PViz

r/LLMDevs Products CompaniesNEW1일 전

한 엔드포인트로 제공자 장애와 비용 원인 추적을 해결하는 오픈소스 게이트웨이

llmgateway는 다중 LLM 제공자 간 자동 페일오버와 기능별 비용 귀속, Redis 응답 캐싱을 지원하는 OpenAI 호환 게이트웨이로 Docker로 자체 호스팅 가능하다.

llmgateway theopenco

Cohere CompaniesNEW1일 전

유창한 번역이 소통을 망친다? AI 번역의 함정과 해결책

벤치마크 성능을 넘어 실제 소통 성공률을 높이기 위해 사용자 인지와 문화적 맥락을 통합한 새로운 다국어 AI 설계 및 평가 방법론을 제시한다.

Cohere

Hacker News - LLM Companies ArchitectureNEW1일 전

한 명령으로 AWS에 배포하는 셀프 호스팅 LLM 게이트웨이

소규모 초기 제품 팀을 겨냥한 셀프 호스팅 LLM 게이트웨이를 공개했으며 'mantis deploy' 명령으로 AWS에 간단히 배포할 수 있다.

AWS LLM Gateway Mantis

r/LLMDevs Benchmarks ArchitectureNEW1일 전

프롬프트 악성 여부 대신 요청의 권한을 검사하는 에이전트 보안 설계

요청이 실제로 해당 행동을 수행할 권한이 있는지 암호화된 케이퍼빌리티와 결정적 어텐션으로 검증하는 에이전트 보안 아키텍처와 평가·코드가 공개되었다.

AgentDojo Deterministic Hard Attention

The Verge AI Language Models CompaniesNEW1일 전

GPT-5.6 공개로 고성능·대량·저비용 모델을 한 번에 선보였다

OpenAI가 GPT-5.6 제품군 Sol·Terra·Luna의 제한적 프리뷰를 공개했으며 모델별 용도와 백만 토큰당 과금 기준이 함께 제시되었다.

Claude Fable 5 GPT-5.6 OpenAI

r/deeplearning Libraries TrainingNEW1일 전

지연을 줄였지만 비용은 그대로였고, 시맨틱 캐시와 압축으로 비용을 60% 이상 절감했다

지연 최적화로는 해결되지 않던 월 $2,400의 추론 비용을 시맨틱 캐시, int4 양자화, 프롬프트 압축을 적용하여 $914로 낮췄다.

FAISS HNSW int4 quantization

r/artificial Companies Language ModelsNEW1일 전

9,700명 설문: 3분의1 이상이 'AI가 대부분 업무' 전망

Anthropic 조사에서 9,700명의 Claude 사용자 중 3분의1 이상이 내년 AI가 업무 대부분을 처리할 것으로 믿고 있으며, Claude Code는 일반 채팅보다 더 많은 출력 유형에서 자율성이 높게 나타났다.

Anthropic Claude Claude Code

Cohere Companies ArchitectureNEW1일 전

교사 모델을 능가하는 학생 모델? TIPSv2가 해결한 패치-텍스트 정렬의 비밀

TIPSv2는 iBOT++와 다중 입도 캡션을 활용해 기존 모델의 한계인 패치 단위 텍스트 정렬 성능을 획기적으로 개선한 시각-언어 사전 학습 프레임워크이다.

Cohere iBOT++TIPSv2

KDNugget LibrariesNEW1일 전

Mac으로 클라우드 없이 LLM 파인튜닝 가능

MLX를 사용하면 클라우드 GPU나 별도 비용 없이 Mac에서 오픈 언어모델을 로컬로 파인튜닝할 수 있다.

MLX