강화학습으로 진화한 RAG, 1,000만 토큰에서도 정확한 다단계 검색 달성
기존의 다단계 RAG는 LLM 자체를 파인튜닝해야 하므로 비용이 매우 높고 대형 모델 적용이 어려웠다. 이 논문은 LLM 대신 가벼운 Embedder 모델만 강화학습으로 최적화하여, 훨씬 적은 비용으로도 초장문 컨텍스트에서 복잡한 추론 검색을 수행할 수 있음을 입증했다.
총 94건
기존의 다단계 RAG는 LLM 자체를 파인튜닝해야 하므로 비용이 매우 높고 대형 모델 적용이 어려웠다. 이 논문은 LLM 대신 가벼운 Embedder 모델만 강화학습으로 최적화하여, 훨씬 적은 비용으로도 초장문 컨텍스트에서 복잡한 추론 검색을 수행할 수 있음을 입증했다.
로봇이 실세계에서 복잡한 작업을 수행하려면 도구 사용이나 동적 제약 조건과 같은 물리적 원리를 이해해야 하지만, 기존 벤치마크는 언어나 인지 능력에 치중되어 있었습니다. KinDER는 인지적 요소를 배제하고 순수하게 물리적 추론 능력만을 측정할 수 있는 표준화된 환경을 제공하여 로봇 지능 연구의 새로운 방향을 제시합니다.
Claude와 OpenAI의 주간/세션별 남은 사용량과 리셋 시간을 실시간으로 보여주는 오픈소스 데스크톱 위젯이 공개됐다.
에이전트가 공유 피드 환경에서 활동할 때 필요한 상태 관리, 의도와 실행의 분리, 피드백 루프 중심의 아키텍처 설계 원칙을 제시한다.
장기 실행되는 LangChain 에이전트의 토큰 누수를 방지하기 위해 메시지 압축 및 도구 최적화를 수행하는 Axor 미들웨어가 공개됐다.
복잡한 멀티 에이전트 오케스트레이션 대신 단일 루프와 자기 개선 사이클을 활용해 실질적인 성능을 내는 에이전트 구축 전략을 제시한다.
OpenAI 파라미터 골프 대회 실험 결과, SSM의 가중치 구조가 Transformer보다 압축 효율이 낮아 제한된 용량 내 성능 구현에 불리함이 확인됐다.
로그라이크 게임 요소를 결합하여 AI 모델의 출력 제어 능력을 키워주는 일일 프롬프트 챌린지 플랫폼이 공개됐다.
Claude Code 사용 시 발생하는 불필요한 서론과 감탄사를 제거하기 위해 CLAUDE.md 파일에 구체적인 응답 스타일 지침을 추가하는 방법이 공유됐다.
인텔이 퀄컴 출신 알렉스 카투지안을 클라이언트 컴퓨팅 및 피지컬 AI 부문 총괄로, 푸슈카르 라나데를 CTO로 임명하며 AI 하드웨어 리더십 강화에 나섰다.
Aurra는 LLM 분류기를 사용하여 에이전트의 오래된 정보를 자동으로 식별하고 갱신하는 이중 시간 버전 관리 시스템을 출시했습니다.
Google이 Chrome에 WebMCP 지원을 실험적으로 추가하며 AI 에이전트가 웹사이트와 직접 도구 호출 방식으로 통신하는 새로운 웹 생태계의 변화를 예고했다.
비개발자가 Replit Agent와 Claude Code를 활용하여 코드를 직접 작성하지 않고 복잡한 브라우저 기반 게임을 하루 만에 구축했다.
의료 데이터 분석 중 AI가 발생시킨 수치 오류를 자동 검증 프롬프트를 통해 추적하여 원본 CSV 파일의 콤마 오류를 해결한 사례이다.
AI 시스템이 스스로의 후계 모델을 자율적으로 구축하는 'AI 연구 R&D 자동화'가 2028년까지 실현될 가능성이 60% 이상이라는 분석과 그 근거를 제시한다.
최신 LLM 아키텍처인 Llama 3와 Mistral의 핵심 구성 요소를 PyTorch로 직접 구현하며 학습하는 12단계 기술 가이드이다.
AI 에이전트가 외부 세계와 상호작용하는 두 가지 방식인 CLI와 MCP의 기술적 차이와 워크플로별 최적의 선택 기준을 제시한다.
Hermes Agent의 최신 업데이트는 SQLite 기반 칸반 보드를 도입하여 에이전트 간의 작업 의존성 관리, 구조화된 데이터 전달 및 장애 복구가 가능한 지속성 워크플로를 구현했다.
2026년 하이퍼스케일러의 AI 자본 지출이 급증하며 2027년 1조 달러 규모에 도달할 전망인 가운데, AI 도입이 오히려 서비스 수요를 늘리는 제번스의 역설 현상이 관찰되고 있습니다.
GPT 모델이 존재하지 않는 정보를 생성하는 할루시네이션 문제를 해결하기 위해 시스템 프롬프트를 활용한 인용 강제 및 사후 검증 전략을 제시한다.
LLM 추론 시 메모리와 연산 스케일링 특성상 대규모 배칭이 효율적이며, 이로 인해 로컬이나 프라이빗 클라우드 운영은 자원 낭비가 심하다는 분석이다.
Pinecone이 에이전트의 추론 효율을 극대화하기 위해 데이터를 지식 아티팩트로 자동 컴파일하는 지식 엔진 Nexus를 발표했습니다.
Salesforce는 AI 기반 대화의 폭발적 증가에 대응하기 위해 CSS 아키텍처를 Kafka와 캐싱 계층 중심으로 진화시켜 10만 건의 동시 상호작용을 지원한다.
사용자의 명시적 지시를 넘어서는 AI의 과잉 최적화를 방지하기 위해 정확한 실행 또는 명확한 확인만을 강제하는 Signal Lock 프레임워크가 제안됐다.
AgentSwarms는 브라우저 기반의 시각적 노드 그래프 IDE를 통해 멀티 에이전트 아키텍처의 데이터 흐름과 라우팅을 실시간으로 실험할 수 있는 플랫폼이다.
저렴한 클라우드 CPU 인스턴스에 Hermes Agent V2를 설치하고 웹 스크래핑, 리드 발굴, 가격 모니터링 등 실무 자동화에 활용하는 방법을 다룹니다.
AI 스타트업 Artisan이 유명한 'This is Fine' 밈을 원작자 허가 없이 광고에 사용해 저작권 침해 논란이 일고 있습니다.
효과적인 프롬프팅은 단순한 기교가 아니라 명확한 의도 전달과 모델의 주의 집중을 유도하는 전략적 설계이다.
NVIDIA 연구진이 개발한 Lyra 2.0은 단일 이미지를 입력받아 장기적 일관성이 유지되는 고품질 3D 가상 환경을 생성하는 기술이다.
DexCap과 AirExo 연구를 통해 사람의 시연 데이터를 로봇이 학습 가능한 고품질 행동 데이터로 변환하는 아키텍처와 파이프라인을 분석한다.
전화번호, 주소, 코드믹스 등 엔티티가 밀집된 인도어 음성 인식은 기존 SOTA 모델과 상용 API에서도 성능이 매우 낮다. 이 논문은 저비용 TTS 시스템을 활용해 고품질 합성 데이터를 생성하고 이를 다시 ASR 학습에 사용하는 플라이휠 구조를 통해 이 격차를 획기적으로 줄이는 방법을 제시한다.
LLM 에이전트가 단순한 도구 사용자를 넘어 팀 단위로 협업하는 시대로 진화함에 따라, 팀 전체의 효율성을 극대화하는 강화학습 방법론이 필수적이다. 이 논문은 산업계의 대규모 에이전트 시스템과 학계 연구 사이의 간극을 메우고, 에이전트 생성부터 결과 취합까지의 전 과정을 최적화하기 위한 기술적 프레임워크를 제공한다.
기존의 복잡한 에이전트 오케스트레이션 시스템 대신 LLM 자체의 내재적 기술로 '깊게 생각하기'를 구현할 수 있음을 입증했다. 병렬 추론과 순차적 숙의라는 두 단계 파이프라인을 통해 모델의 추론 능력을 테스트 타임에 확장할 수 있는 새로운 경로를 제시한다.
기존의 자율 연구 에이전트들이 동일 모델 계열 내에서 자기 수정을 반복하며 발생하는 상관 오류 문제를 해결하기 위해 서로 다른 모델 계열 간의 적대적 협업 구조를 도입했다. 이를 통해 실험 데이터의 무결성을 검증하고 논문의 논리적 허점을 찾아내는 강력한 보증 계층을 구축하여 신뢰할 수 있는 자율 연구 환경을 제공한다.
게임 엔진으로 생성한 합성 데이터는 실제 환경과의 시각적 차이(Sim2real gap) 때문에 AI 모델의 실세계 성능을 저하시킨다. 이 논문은 최신 Diffusion 모델과 이미지 번역 기술을 결합하여 합성 이미지의 기하학적 구조를 개선하고 실사 데이터의 분포를 정확히 맞춤으로써 자율주행 등 시각 AI의 학습 효율을 높이는 방법을 제시한다.
기존의 시각 언어 모델은 이미지를 단순히 훑어보는 수준에 그쳐 복잡한 질문에 대해 잘못된 정보를 생성하는 환각 현상이 잦았습니다. 이 논문은 모델이 사람처럼 계획을 세우고 이미지의 특정 부분을 단계적으로 탐색하며 추론하는 Perceptual Flow 기법을 도입하여 시각적 이해의 정확도와 신뢰성을 동시에 높였습니다.
기존의 생성 모델은 주로 격자(Grid) 구조에 최적화되어 있어 자유롭게 움직이는 입자 시스템을 처리할 때 효율성이 떨어졌다. 이 논문은 입자의 물리적 특성과 대칭성을 직접 활용하는 새로운 Flow Matching 프레임워크를 통해 3D 형상 복원 및 물리 시뮬레이션의 정확도를 획기적으로 높였다.
멀티턴 강화학습에서 LLM 에이전트가 무의미한 행동을 반복하며 학습이 붕괴되는 'hesitation' 문제를 해결합니다. 토큰과 턴 단위에서 불확실성을 실시간으로 모니터링하여 탐색 효율을 높이고 학습 안정성을 획기적으로 개선합니다.
기존 의료 AI 벤치마크는 단순 지식 암기나 단일 단계 작업에 치중되어 실제 병원 시스템의 복잡한 워크플로우를 반영하지 못했다. 이 논문은 실제 환자 기록과 표준 API를 사용하는 EHR 환경을 구축하여, AI 에이전트가 자율적인 임상 에이전트로 기능하기 위해 극복해야 할 기술적 격차를 명확히 제시한다.
기존 AI 에이전트 벤치마크가 이메일 관리와 같은 단순 비서 업무에 치중되어 실제 고도의 지적 능력이 필요한 학업 현장의 요구를 반영하지 못한다는 한계를 지적한다. 대학생들이 직접 실패를 경험한 80개의 복잡한 과제를 통해 에이전트의 도메인 지식과 장기 추론 능력을 엄격하게 평가할 수 있는 새로운 기준을 제시한다.
기존 로봇 제어 모델은 폐쇄적이거나 특정 하드웨어에 종속되어 실제 환경 배포에 한계가 있었다. MolmoAct2는 데이터, 학습 코드, 모델 가중치를 모두 공개한 완전 오픈소스 VLA 모델로, 저비용 로봇에서도 고성능 행동 추론이 가능함을 입증하여 로보틱스 연구의 민주화를 가속화한다.
자연어 요청 한 번으로 요구사항 분석부터 SDK까지 생성하는 AutoBe 벤치마크에서 GLM 5와 Qwen 3.5가 우수한 성능을 기록했다.
JAX 환경에서 제약 조건이 있는 파라미터 모델링과 PyTree 조작을 돕는 경량 라이브러리 Parax가 공개됐다.
여러 AI 코딩 에이전트를 한 화면에서 모니터링하고 관리할 수 있는 윈도우 기반의 오픈소스 터미널 워크스페이스가 공개됐다.
DeepClaude는 Claude Code의 API 요청을 로컬 프록시로 가로채 DeepSeek 등 저렴한 모델로 라우팅하여 사용 비용을 대폭 절감한다.
3개의 코딩 에이전트를 병렬로 운용한 결과, 에이전트의 자기 보고를 신뢰하지 않고 독립적인 자동 검증 레이어를 구축하는 것이 필수적임이 확인됐다.
Claude Code와 같은 자율 에이전트가 프롬프트 인젝션을 통해 로컬 네트워크(LAN)를 공격하는 것을 방지하기 위해 nftables와 dnsmasq를 활용한 보안 샌드박스 구축 사례이다.
Claude Code 위에 구축되어 TDD 워크플로, 토큰 최적화, 시맨틱 검색 기능을 제공하는 오픈소스 프레임워크 Pilot Shell이 공개되었다.
RAG 시스템에서 검색 데이터가 부족할 때 발생하는 할루시네이션을 진단하기 위해 서로 다른 모델군의 LLM 판사들을 활용한 오픈소스 블라인드 평가 아키텍처를 제안한다.
Patchwork OS는 AI가 중요한 작업을 수행하기 전 사용자의 승인을 거치도록 설계된 170여 개의 도구를 갖춘 오픈소스 에이전트 프레임워크이다.
Claude Code의 비공식 엔드포인트를 활용해 실시간 사용량 대시보드를 제공하고 다중 계정 전환을 지원하는 PowerShell 도구가 공개됐다.
Claude Code 서브 에이전트가 대규모 출력을 직접 반환하려다 API 제한을 초과해 사용량 캡을 모두 소진한 사례와 이를 방지하기 위한 파일 저장 전략을 공유한다.
Claude의 5시간 롤링 사용 제한 윈도우를 업무 시작 시간에 맞춰 미리 활성화하는 루틴 설정 최적화 가이드를 제시한다.
7개의 자율 AI 에이전트가 스타트업을 구축하는 실험에서 모델 계층화에 따른 성능 차이와 에이전트별 비효율적 행동 패턴이 관찰됐다.
멀티 에이전트 환경에서 자연 발생한 특정 행동 양식이 나중에 합류한 에이전트에게는 직접적인 지시로도 학습되지 않는 '행동 비대칭성' 현상이 발견됐다.
Claude Code의 MCP 설치나 설정 변경 시 발생하는 수동 재시작 불편을 해결하기 위해 세션 상태를 보존하며 자동 재시작하는 claude-resurrect가 공개됐다.
LLM_InSight는 4단계 파이프라인을 통해 프롬프트를 자동 최적화하고 여러 모델의 답변을 비교·평가하는 Flask 기반 오픈소스 프레임워크입니다.
LLM 출력을 제어 흐름이 아닌 데이터로 취급하고 유한 상태 기계(FSM)를 통해 시스템의 결정론적 안전성을 보장하는 llm-nano-vm 프로젝트가 공개됐다.
OWASP가 에이전트 메모리 포이즈닝 공격을 방어하기 위해 92.5%의 탐지율을 기록한 LangChain 통합 미들웨어를 출시했다.
Claude Code를 사용하여 n8n 워크플로의 복잡한 비동기 API 폴링 로직을 해결하고, 저비용으로 고품질 AI 광고 영상을 자동 생성하는 시스템을 구축했다.
인터넷 대역폭과 지연 시간의 한계를 극복하고 소비자용 GPU들을 연결해 거대 언어 모델을 추론하기 위한 분산 시스템 아키텍처와 Petals의 해결책을 분석합니다.
YCombinator 선정 기업 Locus Founder가 멀티 에이전트 시스템의 일관성 해결을 위한 구조화된 컨텍스트 공유와 실행 전 추론 기법의 중요성을 공유했다.
AI에게 직접 코드를 요청하는 대신, 추상적 의도를 실행 가능한 프롬프트 구조로 먼저 변환한 뒤 코드를 생성하는 5만 토큰 규모의 계층적 워크플로 실험 결과이다.
바이브 코딩을 통해 이미지를 SVG 벡터 데이터로 변환하거나 기하학적 패턴을 생성하는 펜 플로터 및 일러스트레이터용 툴킷을 구축했다.
Claude를 활용한 바이브 코딩으로 레이저 커팅 및 CNC용 SVG 파일을 생성하는 파라미터 기반 시계 디자인 웹 앱을 개발한 사례이다.
사용자가 직접 코딩하는 대신 여러 AI를 오케스트레이션하여 Terraform 실행 계획의 보안 취약점을 분석하고 피드백을 주는 'IaC Guardrail' 도구 개발 사례이다.
엔비디아 GPU의 유휴 NVENC 하드웨어를 활용해 LLM의 KV 캐시와 활성화를 실시간 압축 전송함으로써 PCIe 대역폭 한계를 극복하는 오픈소스 프로젝트이다.
LLM의 단순 나열식 기억을 출처와 신뢰도가 명시된 구조화된 지식 그래프로 변환하여 정교한 개인화 메모리를 구축하는 오픈소스 프로젝트입니다.
LangChain 에이전트 실행 전 사용자의 잔여 예산을 확인하고 실행 결과에 따라 과금하는 오픈소스 라이브러리 AgentBill이 공개됐다.
GPT-4o가 높은 확률의 토큰 대신 낮은 확률의 토큰을 선택하는 현상을 통해 Temperature 하이퍼파라미터가 확률 분포와 샘플링에 미치는 수학적 원리를 설명한다.
LiteRT-LM을 사용하여 Gemma와 같은 소형 언어 모델을 모바일 기기에서 구동하고, 온디바이스 함수 호출을 통해 실용적인 로컬 에이전트를 구축하는 기술적 방법론을 제시한다.
터미널 출력을 실시간 분석하여 명령어를 제안하고 Jira 연동 및 벡터 DB 지원 기능을 갖춘 AI 기반 터미널 에뮬레이터 Shellmate가 공개됐다.
Claude Code, Kimi CLI, OpenAI Codex CLI의 설정과 스킬을 통합하고 에이전트 간 협업 기능을 추가한 claude-bootstrap v3.6 업데이트가 공유되었다.
LangGraph의 interrupt() 기능과 PostgreSQL 체크포인터를 결합하여 서버 재시작 시에도 상태를 유지하는 견고한 인간 승인 워크플로 구현 사례이다.
DuraLang은 단일 데코레이터를 통해 LangChain 에이전트의 모든 호출을 Temporal Activity로 변환하여 확률적 실행 과정에서도 강력한 내구성과 재시도 메커니즘을 제공합니다.
고전 게임 파이널 파이트 환경에서 행동 복제(BC)를 통해 에이전트를 학습시키고 GAIL 및 PPO로 확장하려는 실험 과정과 기술적 난제를 공유했다.
Claude Code의 세션 기록을 LLM으로 분석하여 문제 분해, 시스템 사고 등 5가지 핵심 엔지니어링 역량의 변화를 시각화해주는 오픈소스 도구이다.
Claude, Gemini 등 다중 모델을 활용해 코드베이스의 보안 및 기능을 감사하고 자동으로 수정하는 에이전트 기반 툴킷이 공개됐다.
4개월간 600회 이상의 실험을 통해 모델의 자기 검토를 유도하고 답변의 깊이를 더하는 5가지 핵심 메타 프롬프트 구조를 공유한다.
코딩 에이전트가 프로젝트 구조를 빠르게 파악하도록 돕는 Rust 기반의 로컬 컨텍스트 엔진 Cognitive Project Layer가 공개됐다.
대화 이력을 무한히 전송하는 대신 고정된 크기의 시맨틱 상태로 변환하여 LLM 비용을 98% 절감하고 성능을 높이는 Semvec 기술이 공개됐다.
Rust 기반의 OpenHawk는 에이전트 실행, 메모리 증명, 컨텍스트 압축 등을 통합 관리하여 AI 에이전트를 지속 가능한 인프라로 구축하는 로컬 OS 스택이다.
클리포드 대수를 활용해 어텐션 메커니즘을 개선한 T³ 아키텍처가 기존 모델 대비 적은 연산량으로 높은 추론 성능을 입증했다.
AI 음성 도구가 단순한 텍스트 변환을 넘어 복잡한 프로젝트 관리를 위한 워크플로와 타임라인 중심의 제작 도구로 진화해야 한다는 제언이다.
CONVERA는 반복되는 프롬프트와 추론 작업을 로컬 상태로 저장하고 재사용하여 지연 시간을 단축하는 실험적인 로컬 LLM 추론 런타임입니다.
Meta AI의 Detectron2 라이브러리를 활용하여 Faster R-CNN 모델로 고성능 객체 탐지 시스템을 구축하는 초보자용 가이드이다.
Claude Code 2.1.121 버전에서 시스템 프롬프트 크기가 2배로 늘어난 문제를 해결하기 위해 자동 업데이트를 끄고 2.1.119로 다운그레이드하는 방법이 공유됐다.
Claude Code용 오픈소스 플러그인 Wiki Builder를 사용하여 마크다운 기반의 LLM 지식 베이스 구축 워크플로를 자동화하는 방법을 소개합니다.
llmconfig는 단일 YAML 설정 파일과 CLI를 통해 llama.cpp, stable-diffusion.cpp, whisper.cpp 기반의 로컬 모델 추론을 통합 관리하는 도구이다.
VulkanForge는 AMD RDNA 4 아키텍처를 타겟으로 하여 FP8 데이터 타입을 네이티브로 지원하는 Rust 기반 고성능 Vulkan LLM 추론 엔진이다.