2026년 6월 25일 AI 뉴스 아카이브

r/LLMDevs Language Models

같은 JSON 스키마가 모델마다 다르게 동작하나?

동일한 프롬프트와 JSON Schema로 5개 LLM을 테스트한 결과 공급자별로 스키마 준수 일관성이 달라 다운스트림 파서가 깨질 수 있다는 관찰과 경험 공유 요청이다.

Claude Opus 4.8Gemini 3 FlashGPT-5.5

r/LLMDevs Language Models

1M 토큰 컨텍스트가 실제 리팩터링에서 통할까?

GLM-5.2의 1M 컨텍스트로 200k줄 코드베이스 리팩터링을 시도하자 긴 세션을 유지하고 종속성 충돌을 자체 발견했으나 응답 속도는 느려졌다.

GLM-5.2

TechCrunch AI Companies

네트워크 스위치에서 동작하는 소프트웨어로 가동 시간 단축 지원

Netris는 네트워크 스위치에서 동작하는 소프트웨어와 네오클라우드 운영자가 빠르게 서비스 가동할 수 있도록 지원하는 플랫폼을 제공한다.

Netris

PyTorch Libraries

런타임과 하드웨어 코드를 분리해 멀티 실리콘 추론 복잡성을 줄이다

TokenSpeed-kernel은 런타임과 하드웨어 특화 커널을 분리하는 레이어드 API·레지스트리 시스템을 제공해 다양한 GPU·벤더에서 고성능 LLM 추론을 가능하게 한다.

GluonGluon kernelsGluon kernels

r/MachineLearning RAG Products

도구 셀렉션은 임베딩보다 키워드가 더 낫다?

대규모 도구 카탈로그에서 도구 설명이 짧고 구조화되어 특정 토큰이 판별자인 경우 BM25 같은 키워드 기반 검색이 의미 임베딩(cosine)보다 더 정확하다는 실험 결과와 43,000개 도구 벤치 링크를 제시한다.

BM25Document RAGratel

r/LangChain Agents Dev Tools

프록시로 에이전트 실행을 기록·재생해 비용 제로 CI 테스트를 구현하다

Orchid는 에이전트와 API 사이에 가볍게 끼워 로컬에 모든 요청·응답·토큰을 기록하고 웹 UI·플레이백·비용 집계를 제공하는 오픈소스 디버깅/테스트 도구이다.

Multi-AgentOrchidSQLite

r/ClaudeAI Coding Agents

총 비용 $17,222 중 58.4%가 캐시 읽기에 사용됐다

약 209억 토큰 사용 중 95.41%가 캐시 읽기로 집계되며 총 비용 $17,222.27의 과반이 캐시 읽기에 할당됐다.

Claude Code

r/ClaudeAI Coding Agents Dev Tools

tmux 백엔드 터미널을 VS Code 탭으로 유지하고 Claude Code로 자동 재개

Deck은 repo>worktree>terminal 트리에서 tmux-backed 터미널을 에디터 탭으로 관리하고 Claude Code 연동으로 재부팅 시 세션을 자동 복구하는 VS Code 확장이다.

Claude CodeCodextmux

r/deeplearning

RAG·임베딩 파이프라인에서 검색 품질을 끌어올리는 실전 방법은?

사용자는 지식집약적 작업에서 LLM 성능만큼 검색 파이프라인(검색·문맥유지·잡음감소·응답신뢰도)이 중요하다고 지적하며, RAG·임베딩 기반 시스템에서 검색 품질을 높이는 효과적인 접근법을 묻고 있다.

r/artificial Products

모델 전환으로 잃는 시간과 일관성을 막는 실무법

모델별 대화 상태가 흩어지며 컨텍스트가 소실되므로 단일 소스에 모든 프로젝트 컨텍스트를 모으고 주 모델+보조 모델 하이브리드를 쓰는 방식이 실무에서 가장 실용적이다.

ChatGPTClaude

r/LangChain Libraries Coding Agents

프로젝트에 /new-dcode-agent 입력만으로 에이전트 코드를 자동 생성한다

Claude Code 스킬로 동작하는 dcode-agent-kit는 인터뷰형 위자드로 agent.py·model.py·README를 생성해 LangChain deepagents 반복 작업을 자동화하고 안전 장치를 기본 포함한다.

ChatOpenAIClaude Codedeepagents

The Verge AI Products Companies

메타가 AI 기반 Creator Assistant로 Creator Studio를 재출시

Meta가 2023년 중단했던 Facebook Creator Studio를 AI 기반의 독립형 크리에이터 앱으로 재출시하고, Creator Assistant가 성과 인사이트 제공과 댓글 우선순위·응답 초안 생성을 지원한다.

Creator AssistantFacebook Creator StudioMeta

r/MLOps Companies

인프라 통합이 MLOps 표준이 될까?

TrueFoundry가 Seldon AI를 인수해 게이트웨이(라우팅/에이전트)와 추론·배포 계층을 모두 갖추게 되었고, 작성자는 기업들이 여러 도구를 연결하는 대신 통합 인프라로 이동하는 추세가 보인다고 관찰하면서 향후 표준화 여부를 묻고 있다.

Seldon AITrueFoundry

r/artificial

실제 워크플로를 맡길 에이전시 알파 테스터를 모집합니다

Gravity는 자연어로 작업을 적으면 별도 설정·프롬프트 엔지니어링·모니터링 없이 에이전트가 끝까지 수행하는 알파 버전으로, 현재 실사용 워크플로를 맡길 테스터를 모집하고 있다.

Analytics Vidhya

에이전트가 결과에서 스스로 개선되는 Self‑Improving Loop

Self‑Improving Loop는 에이전트가 작업 결과를 학습해 반복 실수를 줄이고 시간이 지남에 따라 성능을 개선하는 순환적 설계이다.

r/neuralnetworks

파이프라인 선택이 모델보다 성능을 더 바꿨다

비디오 VLM 평가에서 프레임 샘플링 밀도·장면 분할 전략·해상도·프롬프트 구조 같은 파이프라인 요소가 모델 교체보다 성능 변화에 더 큰 영향을 미쳤다.

r/MachineLearning Training

T15 CS 학생이 제시한 ML 이력의 빈틈과 우선 과제는?

기초 AI/ML 수업과 KNN·Louvain 프로젝트 경험을 가진 컴공/응수 전공 학생이 ML 인턴십 경쟁력을 높이기 위해 권장되는 프로젝트·역량·학습 우선순위를 묻는다.

KNNLouvainXGBoost

Salesforce Best Practices Architecture

에이전트형 AI, 행동 설계, 오케스트레이션 핵심 정리

에이전트형 시스템의 등장과 에이전트 행동 설계, 멀티에이전트 오케스트레이션을 중심으로 AI가 제품의 행동·신뢰·워크플로우를 어떻게 변화시키는지 정리했다.

Agent Behavior DesignAgentic SystemsMulti-Agent Orchestration

Roboflow Blog Vision AI Companies

RF-DETR로 강판 표면 결함을 Pass/Review/Fail로 자동 분류하는 워크플로

공개 라벨 데이터로 RF-DETR Small을 학습해 강판 표면 결함을 검출하고 Roboflow Workflow로 pass/review/fail 삼단 분류를 자동화한다.

RF-DETRRoboflow

r/neuralnetworks Training

두 모멘텀 수식, 어느 쪽이 '진짜' 모멘텀인가?

작성자는 전형적 momentum 업데이트와 Adam의 지수이동평균 기반 업데이트 두 수식의 직관적 차이를 묻고 있다.

AdamMomentum

r/MLOps Hardware

예약 GPU 풀이 닫혔다면 어떻게 용량을 확보하나?

작성자는 주요 클라우드의 예약 B200/B300 풀이 신규 고객에 사실상 닫혀 있고 온디맨드는 2–3배 비싸며 공급사는 24–36개월 커밋을 강제해 실무에서의 용량 확보 경로를 묻고 있다.

B200B300

LangChain

AI 에이전트가 실수를 반복하지 않게 만드는 지속적 학습 루프 구축법

LangSmith Engine과 Context Hub를 사용하여 에이전트의 추적 데이터를 영구적인 메모리로 변환하고 지속적으로 성능을 개선하는 방법을 다룬다.

Hugging Face Blog

한 줄 바꾸기로 MoE 파인튜닝 3.4~3.7배 가속과 GPU 메모리 29~32% 절감

NeMo AutoModel은 Transformers v5 위에서 Expert Parallelism, DeepEP, TransformerEngine을 결합해 MoE 파인튜닝을 API 변경 없이 3.4~3.7배 가속하고 GPU 메모리를 29~32% 절감한다.

Hacker News - LLM

단일 파라미터가 모델을 망가뜨리는 이유

소수의 '슈퍼 웨이트'와 대응하는 '슈퍼 액티베이션'이 LLM의 생성 품질을 결정하며 이를 보존하면 단순 양자화로도 높은 압축 품질을 유지할 수 있다.

r/ClaudeAI

Fable 정지로 Anthropic의 하방 리스크가 커졌는가

Anthropic의 IPO 이후 90일 시장가치를 Fable 거래 정지 전·후 예측 범위와 중앙값으로 비교한 예측 차트이다.

r/LLMDevs

수백 문서·수백만 행 RAG에서 정확한 청크를 어떻게 보장하나요?

자동 크롤링·대규모 인덱스 환경에서 Top‑K 의미 검색이 정확한 청크를 놓쳐 비용·지연·임베딩 희석이 발생해 이를 해결할 아키텍처 조언을 구함.

r/LLMDevs Products Optimization

하드웨어가 못 보는 미세한 hidden-state 주입이 모델 답변을 바꿨다

동일 가중치·동일 온도로 레이어별 히든스테이트에 총 +0.034953만큼 미세 주입하자 bfloat16으로는 검출 불가하지만 출력 품질과 코드 실행 가능성이 달라졌다는 재현 가능한 실험 로그이다.

AKBASCORE 1.1bfloat16Qwen2.5-1.5B-Instruct

r/LLMDevs

샘플링 온도 상승이 JSON 스키마 준수에 미치는 영향

340회 반복 실험에서 샘플링 온도가 높아질수록 JSON 스키마 기반 출력의 무결성이 떨어지고 이스케이프·손상·필드 누락 오류가 늘어났다.

Ben's Bites Coding Agents Companies

Codex로 UI 이미지를 자동 생성하고 팀 에이전트를 슬랙에 태그하기

작성자는 Codex의 Image Gen으로 웹 UI에 바로 쓸 수 있는 이미지를 생성해 가시성이 좋아졌다고 전하며, Claude Tag, Gemini 3.5 Flash의 컴퓨터 제어 기능, Figma·Notion 업데이트, OpenAI의 Jalapeño 칩 등 최신 AI 도구·플랫폼 소식을 모아 전한다.

Claude CodeCodexOpenAI

r/artificial Language Models Hardware

Z.ai가 GLM-5.2로 서구 최전선 모델에 근접했다고 밝혔다

Z.ai는 자사 신형 GLM-5.2가 코딩 및 AI 에이전트 벤치마크에서 OpenAI·Anthropic과 유사한 성능을 낸다고 밝히며 화웨이 칩에 최적화해 저비용 운영을 내세웠다.

GLM-5.2HuaweiZ.ai

r/LangChain Libraries MLOps

멀티에이전트 운영에 도구 4개를 꼭 연결해야 하나?

작성자는 장시간 실행하고 웹과 상호작용하며 감사 가능한 멀티에이전트 워크플로를 구축하면서 CrewAI·LangGraph·Temporal·Browserbase·Langfuse 같은 여러 플랫폼을 연결해야 하는지 묻고 있다.

CrewAILangfuseTemporal

r/MachineLearning Language Models

공개 리더보드에 속지 말고 내 데이터로 모델을 검증하라

벤더·공개 벤치마크는 배포 결정에 한계가 있어, 고정된 생산 트래픽 샘플로 구성한 평가셋과 동일한 입력·로그 조건을 통해 모델을 비교해야 한다.

GLM-5.2Kimi K2.7Seed 2.1

r/ClaudeAI

한눈에 보는 Claude Code 훅 실행 흐름과 핵심 이벤트

Claude Code 슬라이드 다이어그램으로 훅 이벤트(세션 시작→프리툴→권한 요청→툴 실행→포스트툴→세션 종료)와 실패/컴팩트·서브에이전트 흐름을 시각화했다.

r/deeplearning Language Models Architecture

Minimax Sparse Attention+MoE로 1M 토큰 시대가 가능한가

M3 논문은 Minimax Sparse Attention으로 블록 선택 기반 희소 어텐션을 도입해 MoE와 결합하여 1M 토큰급 장문 처리 확장성을 목표로 한다.

M3Minimax Sparse AttentionMoE

r/LLMDevs Language Models Companies

바이너리 필터를 대체하는 연속 안전 프로토콜 I-Lang

I-Lang v5.0은 9차원 연속 벡터 평가와 행동 최적화로 이진 차단의 기본 한계를 극복하고 LLM 기반 스트레스 테스트에서 0.92의 강건성 점수를 얻었다.

GPT-4oHuggingFaceI-Lang

r/LLMDevs

프롬프트 vs 스킬 파일: 에이전트 리뷰 기준 어떤 식으로 고정하나요?

작성자는 프롬프트에 리뷰 규칙을 넣을 때 판정이 들쭉날쭉해 스킬 파일로 분리해 버전 관리하니 일관성이 개선됐다며, 다른 팀들의 실무 방식을 묻고 있다.

r/LLMDevs Coding Agents Dev Tools

에이전트가 작업 전에 모드를 골라 체크리스트로 안전하게 행동하도록 강제하는 SKILL

코딩 에이전트가 작업 전에 'debug, fix, review' 등 모드를 선택하고 모드별 체크리스트로 실제 검사·비파괴 규칙을 강제하는 SKILL.md 기반 프로젝트

Claude CodeCodexHermes

r/MLOps Companies Products

팀 단위 LLM 비용을 자동 귀속·차단하는 오픈소스 프록시

공유 API 키로 발생하는 비용 불투명 문제를 해결하기 위해 요청 헤더·팀 키 기반 비용 귀속과 하드 예산 차단을 제공하는 오픈소스 프록시 SteadIO가 공개되었다.

OpenAISteadIOvLLM

r/artificial Companies Products

호스티드 모델 접근이 수출인가? 연방 법원이 답한다

Legion LegalTech가 미국 상무부 조치에 맞서 제기한 소송이 진행 중이며, 핵심 쟁점은 서버에 남는 호스티드 추론 출력이 수출통제의 적용 대상인지 여부다.

AnthropicFable 5Mythos 5

r/LLMDevs Hardware Language Models

DGX Spark 2대 운영—토큰 속도·확장성·전력 이슈 실전 리포트

작성자는 2대의 NVIDIA DGX Spark로 오픈소스 LLM 인퍼런스와 프로덕션 운영을 수행하며 모델별 토큰 처리속도, 노드 확장 효율, 전력·네트워크 이슈 등을 수치와 함께 보고했다.

DGX SparkNvidia Nemotron 3 SuperQwen 3.5 122B

r/neuralnetworks Libraries Architecture

468개 키포인트로 iOS에서 CNN+RandomForest를 온디바이스 실행

Apple Vision으로 468개 얼굴 키포인트를 추출해 15개 기하학적 특징을 계산하고 CNN과 Random Forest의 하이브리드 모델로 iOS 기기 내에서 12개 차원 예측을 수행하는 개발 일지이자 피드백 요청글이다.

Apple VisionCNNRandom Forest

r/LangChain Architecture Vector DB

저장된 확신은 오래된 정보다 — 읽을 때 재계산하라

저장된 confidence 값은 시간이 지나면 부정확해지므로 그래프 기반 'Recall'이 읽을 때마다 stated·calibration·support·challenge를 결합해 확신을 재계산해 모순을 즉시 반영한다.

RecallVector store

r/ClaudeAI

온디바이스 AI만 강조한 TestFlight 베타 초청 배너

nudii라는 온디바이스 AI 기반 'sea companion' 앱의 TestFlight 초대 광고 이미지로 서버·계정·추적이 없다고 표기되어 있음.

r/LLMDevs Companies Language Models

이더리움에 호스팅된 LLM 생성 모듈 라이브러리 공개

Sakana Fugu 모델로 생성한 모듈 1–8을 검열 저항 목적으로 이더리움에서 라이브로 읽을 수 있게 하고 topoglyph.net에 라이브러리를 공개했다.

EthereumSakana Fugu

Simon Willison Coding Agents Products

MDN 호환성 데이터를 66MB SQLite로 빌드해 GitHub에 공개 호스팅

MDN의 browser-compat-data를 sqlite-utils와 AI 생성 스크립트로 약 66MB SQLite DB로 만들고 GitHub 레포지토리에 공개 CORS로 호스팅해 Datasette Lite로 탐색 가능하게 함.

Claude CodeDatasette Litesqlite-utils

r/artificial Companies

AI 보조 뒤 실력 저하 사례들—의사와 엔지니어에서 확인된 영향

실시간 보조 AI 사용이 숙련 의료진과 소프트웨어 엔지니어의 현장 수행 능력과 개념 학습을 약화시킨다는 무작위실험·현장관찰 증거가 제시됐다.

Anthropic

r/LangChain Dev Tools

에이전트 내부를 그래프로 들여다보는 새 LangGraphics 기능

LangGraphics가 서브그래프를 그래프 내부에 중첩 렌더링하고 완료된 실행을 단계별로 재생해 각 노드의 입력·출력·상태·비용을 조사할 수 있게 했다.

LangGraphics

Ars Technica AI Companies Hardware

OpenAI와 Broadcom이 LLM 추론 전용 칩 'Jalapeño'를 공동 발표

OpenAI와 Broadcom이 데이터센터에서 LLM 추론을 목표로 하는 신규 칩 'Jalapeño'를 공동 발표했으며 이번 공개는 장기 프로젝트의 첫 세대다.

BroadcomJalapeñoOpenAI

Wired AI Companies

검색에 올린 이미지가 AI 모델 학습 데이터로 저장된다

Google의 Search 기록 업데이트는 역이미지 검색 등에서 사용자가 업로드한 미디어를 검색 기록에 저장하고 AI 모델 훈련 용도로 활용한다.

Google

r/LangChain Libraries

프롬프트 육아에서 벗어나게 해주는 LLM 출력 검증·튜닝 워크플로

dspyer는 LLM 호출을 Pydantic 스키마로 래핑해 출력 검증·재요청 루프를 자동화하고, 해당 단계를 DSPy 모듈로 컴파일해 optimizer로 프롬프트를 튜닝·저장해 재사용하는 도구다.

DSPyLangGraphPydantic

r/MachineLearning Benchmarks Architecture

스파이크로 연산량 15배 절감했지만 정확도는 따라오지 못했다

자작 Spiking Neural Network가 NARMA-10에서는 기억 깊이가 부족했으나 입력에 이산 지연을 추가해 메모리 깊이를 3배로 늘리고 기본 선형 기준과 유사한 정확도를 만들며 512셀 과제에서 내부 연산량을 15배 줄였다.

NARMA-10Spiking Neural Network

r/ClaudeAI

Claude에 빠진 사용자를 풍자한 밈 이미지

이미지 밈이 Claude 모델에 대한 과장된 의존성을 유머로 표현한 게시물

r/LLMDevs

부품 대 전체 — 에이전트 성능은 어디서 최적화하나

작성자는 에이전트 성능 최적화에서 프롬프트·컨텍스트·검색·개별 툴 같은 구성요소를 따로 튜닝할지, 아니면 로직과 컨텍스트를 포함한 전체 하네스를 통합 최적화할지를 묻고 실무에서 쓰는 평가 방법·플레이북·오픈소스 사례를 구한다.

r/LLMDevs Coding Agents Language Models

오픈 모델 GLM-5.2가 Claude Opus와 동일한 코딩 성능을 보였다

GLM-5.2는 Claude Opus와 같은 25/45 통과율을 보였고, 프롬프트 캐싱 적용 시 비용은 약 46% 수준이었다.

Claude CodeClaude OpusGLM-5.2

r/LLMDevs

AI 에이전트의 툴 호출을 실시간으로 허용·거부할 수 있을까?

ActPass는 AI 에이전트와 도구/API 사이에 위치해 각 액션에 대해 허용·거부·승인 필요 여부를 결정하고 서명된 증거를 저장하는 런타임 권한 솔루션으로, 게시자는 제품 포지셔닝·신뢰도·초기 통합 우선순위에 대한 피드백을 요청했다.

r/LLMDevs Libraries Vector DB

온디스크·로컬 RAG용 경량 벡터 DB, LodeDB 공개

LodeDB는 LangChain·LlamaIndex 어댑터를 제공하는 로컬 온디스크 벡터 DB로, 작은-중간 규모 코퍼스에서 정확 검색과 빠른 p50 지연(<1ms)을 목표로 설계됐다.

LangChainLlamaIndexLodeDB

Salesforce Products Dev Tools

Agentforce 준비를 위한 Slack–Salesforce 통합의 핵심 설계 원칙

Slack과 Salesforce 연결에서는 연결 앱·통합 사용자·아이덴티티 매핑·Slack의 레코드 노출 설정이 보안성과 유지보수성, Agentforce 준비성에 결정적 영향을 준다.

AgentforceConnected AppModel Context Protocol (MCP)

r/LangChain

Vision 단계 평가를 자체 입력 기반으로 구성하는 법

Vision 모델을 체인이나 에이전트에 넣을 때는 공개 벤치보다 자체 입력으로 소규모 평가셋을 만들고 실행 추적을 통해 설정(프롬프트·샘플링·후처리)별 성능을 비교해야 한다.

Roboflow Blog Companies Best Practices

파일럿에서 공장 실전으로: Vision AI 확장 로드맵

Roboflow의 청사진은 실험실 정확도가 현장으로 이전되지 않는 문제를 지적하며, 다섯 단계의 Vision AI Maturity Model로 재사용 가능한 생산 역량으로 전환하는 방법을 제시한다.

RoboflowVision AI Maturity Model

r/artificial Language Models

153일 어드벤처로 본 Gemini의 창의성·기억 문제

153일간 Gemini로 진행한 대화형 플레이에서 모델은 창의적·출현적 이벤트를 자주 만들어냈지만 인벤토리·지리·퀘스트·레벨 추적에서 반복적 일관성 실패를 보였다.

Gemini

AWS ML Blog Products Companies

데이터 레이어에 비즈니스 로직을 두어 AI·BI 응답을 하나로 통일하기

Snowflake 시멘틱 뷰를 사용해 S3에서 불러온 데이터에 비즈니스 정의를 부여하고 Cortex Analyst와 Amazon QuickSight에서 동일한 의미로 쿼리해 신뢰 가능한 AI·BI 결과를 제공한다.

Cortex AnalystSnowflake

AWS ML Blog Products Language Models

Nova 2 Sonic으로 환자 예약 전화를 음성으로 자동화하기

Amazon Nova 2 Sonic의 speech-to-speech 처리와 Bedrock AgentCore 오케스트레이션을 이용해 환자 인증·예약 관리·사전 건강정보 수집·인력 에스컬레이션을 수행하는 서버리스 음성 에이전트를 구현한다.

Amazon Bedrock AgentCoreAmazon Nova 2 SonicStrands Agents SDK

AWS ML Blog Products Vision AI

4억 건 문서를 수개월 내 처리하고 95% 이상 정확도 달성한 워크플로

Huntington 은행은 Amazon Textract·SageMaker·Step Functions·Lambda와 DataSync/Direct Connect를 조합해 4억 건 이상의 문서를 수개월 내에 95% 이상 정확도로 식별·마스킹하고 온프레미스로 결과를 동기화했다.

Amazon SageMaker AIAmazon Textract

Latent Space (swyx)Companies Architecture

Databricks가 그리는 에이전트 시대의 데이터 플랫폼

Databricks가 Omnigent 오픈소스 하니스와 LTAP·Lakebase 등으로 데이터 스토리지와 에이전트 운영을 통합하는 '데이터·AI 운영체제' 비전을 제시했다.

DatabricksLTAPOmnigent

r/MachineLearning Architecture

위치를 다차원 회전으로 표현한 HDD-RoPE, 학습 수렴이 빨라짐

누적 행렬곱을 위치 임베딩으로 재해석한 HDD-RoPE는 토큰 표현을 4차원 이상 청크로 쪼개어 다축 회전을 적용하고 각 축의 회전량을 데이터 종속적으로 학습해 TinyStories에서 xPos 대비 검증 손실의 수렴을 앞당겼다.

HDD-RoPERoPExPos

Roboflow Blog Companies

Roboflow 모델을 엔지니어 개입 없이 로봇에 직접 배포

Roboflow와 Standard Bots가 파트너십을 맺어 Roboflow에서 학습한 비전 모델을 엔지니어의 수동 전송 없이 Standard Bots 로봇의 스킬 라이브러리에 바로 배포해 실시간 시각 기반 작업을 수행할 수 있게 했다.

RoboflowStandard Bots

r/LLMDevs Companies Products

Claude 기반 시나리오 합산으로 Fable 공개일을 예측함

작성자는 네 가지 시나리오(실수·안전·외국인 제한·정치적 압박)를 세우고 Claude로 조합한 확률로 미국 사용자 대상 Fable 공개 예측을 산출해 7월 중순(중앙값 7월12일)을 제시했다.

AnthropicClaudeFable

r/LLMDevs Libraries

메모리 레이어에서 조용한 손실 등 4가지 실패를 재현하고 회피하는 엔진

CLS++ 재현 스크립트로 embedder 장애·충돌·차원 불일치·빈 추출 등 에이전트 메모리의 네 가지 실패 모드를 재현했고, 이를 회피하는 메모리 엔진과 벤치마크를 공개했다.

CLS++

r/LLMDevs Architecture

128k–1M 문맥에서 6x–40x 빠른 새 어텐션, 다음 평가 방법을 구함

작성자는 기존 dense attention을 대체하는 자체 어텐션을 만들어 128k–1M 컨텍스트에서 6x–40x 속도 향상과 42x 적은 FLOPs를 보고하며 추가 평가·검증 조언을 요청합니다.

Attention Mechanism

r/artificial Image Gen

동일 프롬프트 2주 테스트로 본 5대 이미지 생성기 장단점

같은 프롬프트로 2주간 테스트한 결과 Midjourney가 사진 실사에 강하고 Ideogram은 이미지 내 텍스트, Stable Diffusion은 파인튜닝 시 스타일 일관성, DALL·E 3은 사용성 우수, Firefly는 상업적 라이선스 안전성이 돋보였다.

MidjourneyStable Diffusion

r/MachineLearning Vision AI Architecture

Papers with Code에 정리된 최신 OCR 모델과 벤치마크를 한곳에 모았다

Papers with Code가 OCR 벤치마크·모델·논문·코드 링크를 정리한 페이지를 공개했으며 Baidu의 Unlimited OCR(3B, R-SWA)과 Mistral의 OCR 4 등 최신 릴리스를 소개하고 있다.

Chandra OCR 2OCR 4Unlimited OCR

r/MLOps Products Inference

오픈소스 드리프트 모니터링 Driftium을 배포할 때 점검할 핵심 항목

작성자가 만든 Driftium은 tabular 피처 드리프트와 LLM 응답 드리프트를 함께 모니터링하는 오픈소스 플랫폼으로서 아키텍처 현실성 및 확장성에 대한 경험 많은 MLOps 피드백을 요청하고 있다.

DriftiumOllamaQdrant

r/ClaudeAI

AI 생성 코드에서 흔히 발생하는 환각·보안·신뢰성 문제와 대응책

AI가 생성한 코드에서 허구의 API 제안, 일반화된 패턴의 부적합성, 디버깅 능력 저하, 민감 정보 노출이라는 네 가지 위험이 발생하며 각각에 대한 검증·문맥 보강·수동 연습·권한 제한 대응이 필요하다.

AWS ML Blog Language Models

Nova 2 Sonic으로 실시간 자연스러운 음성 에이전트 구현

Loka는 Amazon Nova 2 Sonic 기반의 speech-to-speech 파이프라인으로 Big Bench Audio 87.0 점수와 1.39초의 응답 지연, 시간당 약 0.27달러 비용을 달성해 차량 딜러 상담용 음성 에이전트의 자연스러움과 경제성을 개선했다.

Amazon Nova 2 Sonic