스탠포드가 알려주는 LLM 추론 속도 10배 높이는 아키텍처와 시스템 기법
LLM 추론의 핵심 병목인 메모리 대역폭 문제를 분석하고, KV 캐시 최적화, 추측 디코딩, 연속 배칭 등 최신 성능 향상 기법을 다룹니다.
총 100건
LLM 추론의 핵심 병목인 메모리 대역폭 문제를 분석하고, KV 캐시 최적화, 추측 디코딩, 연속 배칭 등 최신 성능 향상 기법을 다룹니다.
UC 샌디에이고의 Michael Yip 교수가 이미지 기반 제어부터 물리 시뮬레이션, 휴머노이드 로봇을 활용한 의료 보조까지 자율 수술 로봇의 핵심 기술과 미래 방향을 제시한다.
Graft는 SQLite와 llama.cpp를 기반으로 AI 에이전트에게 세션 간 유지되는 영구적인 그래프 구조의 메모리를 제공하는 로컬 퍼스트 오픈소스 도구입니다.
AWS 인프라와 오픈소스 소프트웨어 스택을 활용하여 파운데이션 모델의 사전 학습, 사후 학습, 테스트 시간 컴퓨팅을 최적화하는 4계층 아키텍처 가이드
OpenAI가 Codex Security 에이전트와 GPT-5.5-Cyber 모델을 결합하여 조직의 코드 취약점을 자동으로 탐지하고 패치하는 보안 이니셔티브 'Daybreak'를 발표했습니다.
기존의 AI 모델 학습 방식은 교사 모델의 내부 데이터(로짓)가 꼭 필요해 폐쇄형 모델을 교사로 쓰기 어려웠습니다. 이 논문은 텍스트로 된 평가 기준(루브릭)만으로도 모델을 효과적으로 가르칠 수 있음을 증명하여, GPT-5와 같은 강력한 API 모델을 활용한 효율적인 모델 학습의 길을 열었습니다.
시각 언어 모델(VLM)이 실제 서비스에 도입되면서 이미지에 숨겨진 미세한 노이즈로 모델을 속이는 적대적 공격이 심각한 보안 위협으로 부상했다. 이 논문은 추가적인 재학습 없이도 기존 모델에 간단히 끼워 넣어 공격을 실시간으로 감지할 수 있는 가벼운 방화벽 기술을 제시하여 VLM의 실무 안전성을 크게 높였다.
AWS의 Strands Agents SDK와 Exa AI 검색 엔진을 통합하여 실시간 웹 정보를 스스로 검색하고 분석하는 고성능 리서치 에이전트 구축 방법을 소개합니다.
구글의 새로운 에이전트 모드 Remy와 OpenAI Codex의 울트라패스트 모드 등 구글 I/O를 앞두고 유출된 주요 AI 기술 업데이트를 다룹니다.
Databricks가 Delta Lake와 Unity Catalog를 결합하여 멀티 테이블 트랜잭션과 엔진 간 데이터 일관성을 보장하는 Catalog Commits 기능을 정식 출시했다.
Anthropic의 엔지니어가 AI 에이전트와의 데이터 교환 포맷으로 Markdown보다 HTML이 정보 밀도와 시각화 측면에서 우수하다고 제안하며 업계의 주목을 받았습니다.
미국 조지아주의 대규모 데이터 센터가 유틸리티 당국의 모니터링 부재를 틈타 약 3,000만 갤런의 물을 무단으로 사용한 사실이 밝혀졌다.
Ollama와 Hugging Face를 활용하여 검열이 제거된 SuperGemma 26B 모델을 로컬 환경에서 실행하고, 자율 연구 루프를 통해 모델의 제한을 해제하는 방법을 제시한다.
Databricks와 MapAid가 멀티모달 AI를 사용하여 수단의 방대한 스캔 지질 문서를 검색 가능한 데이터베이스로 변환하고 지하수 예측 모델을 강화했습니다.
288회의 모델 호출 테스트를 통해 LLM의 JSON 출력 오류 패턴을 분석하고, 이를 자동으로 수정 및 검증하는 파이썬 라이브러리 outputguard를 개발한 사례입니다.
Cursor가 Microsoft Teams와 통합되어 채널 내 멘션만으로 클라우드 에이전트에게 작업을 위임하고 PR을 생성할 수 있습니다.
RF-DETR 모델과 ByteTrack 알고리즘을 결합하여 하키 경기 영상에서 선수들의 고유 식별자를 유지하고 이동 경로를 시각화하는 자동화 시스템 구축 방법을 설명합니다.
Jason Koebler는 AI 생성 콘텐츠가 인터넷을 점령하며 인간의 소통 방식과 글쓰기 스타일을 왜곡하는 '좀비 인터넷' 현상을 비판했다.
AI 코딩 에이전트를 통한 생산성 향상이 유지보수 비용의 획기적인 절감으로 이어지지 않으면 장기적인 기술 부채가 발생한다.
Qwen 2.7B, Kokoro TTS, HyperFrames 등 오픈소스 도구만을 조합하여 외부 API 비용 없이 고품질 AI 영상을 자동 생성하는 로컬 파이프라인을 구축했다.
Claude Code 세션에서 초기 의도와 무관하게 소모된 '미선언 의도 지출'을 측정하여 에이전트의 추론 이탈을 비용 관점에서 분석했다.
Swift UI, Faster Whisper V3 Turbo, Flask를 조합하여 Apple Watch에서 Claude 및 Gemini와 직접 대화할 수 있는 저지연 음성 비서를 개발했다.
AI 모델의 안전성은 고정된 값이 아니라 추론 시 투입되는 연산량(TTC)과 공격 전략에 따라 변하는 위험 표면으로 평가되어야 한다.
노벨 경제학상 수상자 다론 아세모글루는 AI 에이전트의 작업 전환 한계와 낮은 범용성을 근거로 AI가 일자리 시장에 미치는 영향이 제한적일 것이라고 분석했다.
Salesforce가 자율 에이전트 시대를 맞아 투명성, 거버넌스, 기술적 안전 장치를 강화한 제2회 연례 신뢰할 수 있는 AI 영향 보고서를 발표했다.
OpenClaw의 핵심인 Pi SDK를 사용하여 B2B 영업 파이프라인을 자동화하고, 에이전트 친화적인 도구 인터페이스 설계 원칙을 제시한다.
CAPT는 46개의 모듈로 구성되어 스스로 사고 과정을 모니터링하고 자원을 조절하며 위협에 대응하는 생물학적 인지 모방형 AI 아키텍처입니다.
Digg이 X의 소셜 그래프와 감성 분석을 활용해 영향력 있는 AI 뉴스와 인물을 실시간으로 랭킹화하는 뉴스 애그리게이터로 복귀했다.
Miro는 Amazon Bedrock과 RAG 기술을 결합한 BugManager를 구축하여 버그 재할당을 6배 줄이고 해결 시간을 며칠에서 몇 시간 단위로 단축했다.
Textstat 라이브러리와 가독성 지수(ARI)를 활용해 LLM의 장황한 응답을 감지하고, 자동 재프롬프팅으로 환각 위험을 줄이는 가드레일 구현 방법을 제시합니다.
Salesforce가 데이터를 복제하지 않고도 조직 간 안전하게 인사이트를 공유할 수 있는 Data 360 Clean Rooms의 제로 카피 페더레이션 아키텍처를 공개했습니다.
MCP 에이전트가 다수의 도구 통합 시 겪는 성능 저하 문제를 해결하기 위해, 모든 스키마를 미리 로드하는 대신 온디맨드로 조회하는 설계 방식이 제시됐다.
슬랙 기반 AI 에이전트 Viktor를 개발하며 겪은 복잡한 입력 처리, 메모리 격리, 모델 교체 시의 사용자 경험 변화를 다룹니다.
구글이 AI로 개발된 것으로 추정되는 제로데이 취약점 공격을 최초로 식별하고, Gemini와 Big Sleep 등 AI 도구를 활용한 선제적 방어 체계를 강화했다.
MCPJam의 CEO Prathmesh Patel이 MCP 서버 연결 시 발생하는 토큰 비대화 문제를 진단하고 효율적인 에이전트 시스템 구축 전략을 공유한다.
PayPal이 8,000명의 개발 조직에 Cursor를 도입하여 3,000개 앱의 Java 업그레이드 기간을 1년에서 2개월로 단축하고 일일 배포 체계를 구축했다.
Ollama와 Mistral 7B를 활용하여 학습자의 숙련도에 따라 경로를 수정하고 퀴즈를 생성하는 로컬 AI 기반 LMS 구축 방법을 소개합니다.
Meta의 V-JEPA 2.1 모델을 분석한 결과, 모델 크기 증가가 견고성 향상으로 이어지지 않는 비단조적 스케일링과 시간적 변형에 대한 특이적 민감성이 확인됐다.
AI 애플리케이션의 성능 개선을 위해 Task, Data, Scorer를 활용한 구조화된 평가 체계를 구축하고 에이전트 및 멀티 에이전트 시스템을 단계별로 검증하는 실무 방법론이다.
AI의 재귀적 자기 개선이 가져올 폭발적 경제 성장 가능성과 소프트웨어 전체를 대체할 신경망 컴퓨터 개념, 그리고 구글의 새로운 분산 학습 기술을 다룬다.
Dataiku가 전문가의 도메인 지식을 시각적 인터페이스로 구조화하고 기업 데이터와 연결하여 신뢰할 수 있는 AI 에이전트를 구축·배포하는 E2A(Expert-to-Agent) 솔루션을 발표했다.
AI 시스템의 확산 속에서 인간의 판단력을 유지하고 책임 소재를 명확히 하기 위한 '휴먼 인 더 루프(Human-in-the-Loop)' 설계의 중요성을 강조합니다.
Cowboy Space Corporation이 AI 연산용 궤도 데이터 센터 구축을 위해 2억 7,500만 달러를 유치하고 자체 로켓 개발에 나섰습니다.
Hugging Face의 Nouamane Tazi가 수천 개의 GPU 클러스터에서 대규모 언어 모델을 효율적으로 학습시키기 위한 5D 병렬 처리 기법과 MoE 아키텍처의 확장 전략을 상세히 설명합니다.
NVIDIA와 Mistral AI의 연구를 바탕으로 LLM 사전 학습 시 데이터의 순서 최적화, 추론 데이터의 조기 주입, 그리고 강화 학습 기반 목적 함수가 모델 지능에 미치는 영향을 다룹니다.
확산 모델의 백본 아키텍처가 U-Net에서 Transformer(DiT)로 진화하는 과정과 그 내부 작동 원리 및 최적화 기법을 심도 있게 다룹니다.
기존 월드 모델은 고비용의 비디오 생성에 의존하여 연산 부담이 크고 환각 현상에 취약했다. 이 논문은 픽셀 대신 DINO 특징의 잔차를 활용한 RLA 기법을 통해 연산 효율을 극대화하면서도 복잡한 3D 환경에서 정확한 물리적 예측과 정책 학습이 가능함을 입증했다.
연속 혈당 측정(CGM) 데이터는 기기나 측정 환경에 따라 데이터 형태가 달라져 범용적인 분석 모델을 만들기 어려웠다. 이 논문은 원시 데이터를 복원하는 대신 추상적인 특징을 예측하는 JEPA 구조를 도입하여, 병원 검사 결과와 가정용 센서 데이터 간의 격차를 줄이고 인슐린 저항성 등 대사 질환의 조기 진단 가능성을 높였다.
기존 양자 시퀀스 모델은 하드웨어의 잡음과 확장성 문제로 긴 데이터를 처리하기 어려웠다. 이 논문은 단일 큐비트 기반의 QKAN과 게이트 메커니즘을 결합하여, 훨씬 적은 파라미터로도 기존 LSTM보다 정확한 예측 성능을 보여주며 실제 양자 컴퓨터에서도 동작 가능함을 입증했다.
LLM 에이전트가 복잡한 도구 사용 작업을 수행할 때, 작업이 완전히 끝난 뒤에야 실패를 확인하면 이미 돌이킬 수 없는 손실이 발생할 수 있다. 이 논문은 에이전트의 실행 기록(Trace)을 실시간으로 분석하여 실패 가능성을 미리 경고함으로써 조기에 개입할 수 있는 실용적인 모니터링 기술을 제공한다.
AI 에이전트가 인간의 지식 노동을 대체함에 따라 임금이 0으로 수렴할 것이라는 막연한 공포를 경제학적 모델로 반박한다. 인간의 임금은 노동 시장이 아니라 GPU 대여료와 같은 연산 자본 시장의 가격에 의해 하한선이 형성됨을 입증하여 향후 AI 정책과 경제적 예측에 새로운 틀을 제공한다.
강화학습에서 에이전트가 무엇을 보고 어떤 보상을 받을지 설계하는 인터페이스 엔지니어링은 수동 작업이 많이 필요한 병목 구간이다. 이 논문은 LLM을 활용해 관측값 매핑과 보상 함수를 파이썬 코드로 자동 생성하고 진화시켜 사람이 설계한 것보다 효율적인 인터페이스를 찾아낸다.
기존의 통합 멀티모달 모델은 이해와 생성 기능이 분리되어 서로의 장점을 충분히 활용하지 못하는 한계가 있었다. 이 논문은 모델의 이해 능력을 생성 과정의 직접적인 감독 신호로 전환하여 복잡한 지시문 준수 능력과 이미지 세부 묘사를 획기적으로 개선했다.
LLM 추론 속도를 높이는 추측 디코딩 기술에서 기존의 순차적 방식(EAGLE-3)과 병렬 방식(Medusa)의 단점을 동시에 해결했습니다. 한 번의 연산으로 여러 토큰 간의 의존성을 유지하며 예측하는 블록 단위 접근법을 통해 연산 비용은 절반으로 줄이면서도 정확도는 높게 유지합니다.
LLM 기반 에이전트가 복잡한 다단계 작업을 수행할 때 발생하는 논리적 일관성 부족과 반복적인 추론 오류를 해결하기 위한 메모리 기술의 발전 방향을 제시한다. 단순한 데이터 기록을 넘어 에이전트가 스스로 경험을 추상화하고 자율적으로 진화할 수 있는 기술적 로드맵을 제공한다는 점에서 중요하다.
기존의 바이트 단위 언어 모델은 토크나이저 없이 노이즈에 강하다는 장점이 있지만, 한 바이트씩 생성하는 속도가 매우 느려 실무 적용이 어려웠다. 이 논문은 디퓨전 기법과 자기 추측 디코딩을 도입하여 바이트 모델의 고질적인 속도 문제를 해결하고 메모리 대역폭 비용을 50% 이상 절감했다.
기존 AI 에이전트 검색이 이미지를 단순히 최종 답변 확인용으로만 썼다면, 이 논문은 이미지를 다음 검색 방향을 결정하는 핵심 단서로 활용하는 능력을 평가합니다. 실제 웹 환경처럼 텍스트와 이미지가 복잡하게 얽힌 상황에서 AI의 추론 능력을 한 단계 높이는 이정표가 될 것입니다.
Hugging Face에 수십만 개의 모델이 쏟아지는 상황에서, 내 데이터셋에 어떤 모델이 가장 좋을지 일일이 테스트하는 것은 불가능에 가깝다. 이 논문은 모델을 직접 실행해보지 않고도 공개된 리더보드 기록과 메타데이터만으로 최적의 모델을 순위 매겨주는 통합 프레임워크를 제시하여 모델 선택 비용을 획기적으로 줄여준다.
LLM 에이전트가 사용하는 기술(Skill)은 프롬프트 형식에 따라 성능 차이가 최대 40%까지 발생하지만, 기존에는 각 플랫폼에 맞춰 수동으로 재작성해야 했습니다. SkCC는 이를 해결하기 위해 하나의 소스로 여러 에이전트 프레임워크에 최적화된 형식을 자동 생성하고 보안 취약점까지 사전에 차단하는 컴파일러 기반의 새로운 접근 방식을 제시합니다.
현재의 대형 언어 모델들이 텍스트 생성 능력은 뛰어나지만 사용자의 실제 의도를 파악하는 능력은 현저히 떨어진다는 사실을 정량적으로 입증했다. 이를 해결하기 위한 새로운 벤치마크와 학습 방법론을 제시함으로써 더 안전하고 유능한 AI 비서 개발의 토대를 마련했다.
현재 AI 산업이 대화형 챗봇 인터페이스로 급격히 수렴하면서 발생하는 구조적 부작용을 비판적으로 분석합니다. 챗봇 형태의 AI가 인간의 비판적 사고력을 약화시키고 노동 시장과 환경에 미치는 부정적 영향을 조명하며, 이를 극복하기 위한 다원적 설계 방향을 제시합니다.
기존의 지속적 학습 모델들이 20개 내외의 적은 작업 수에서만 검증되었던 한계를 극복하고, 300개 이상의 방대한 작업 시퀀스에서도 성능 저하 없이 학습할 수 있는 확장성을 증명했다. 이는 실제 환경처럼 끊임없이 새로운 정보가 유입되는 상황에서 AI가 지식을 누적하며 성장할 수 있는 발판을 마련했다.
기존의 토크나이저들은 단순히 이미지를 잘 복원하는 데만 집중하여 확산 모델이 학습하기 어려운 복잡한 잠재 공간을 만들었습니다. 이 논문은 확산 모델이 학습하기 쉬운 공간의 특성을 정의하고 이를 강제하는 PAE를 제안하여 학습 효율과 생성 품질을 동시에 획기적으로 개선했습니다.
기존 텍스트-이미지 모델은 복잡한 프롬프트의 세부 사항을 모두 반영하지 못하는 Conceptual Rift 현상을 겪는다. SCOPE는 이를 해결하기 위해 생성 과정을 구조화된 명세서 기반으로 관리하며, 검색과 추론 기능을 결합해 사용자 의도에 완벽히 부합하는 고품질 이미지를 생성한다.
기존의 다단계 RAG는 LLM 자체를 파인튜닝해야 하므로 비용이 매우 높고 대형 모델 적용이 어려웠다. 이 논문은 LLM 대신 가벼운 Embedder 모델만 강화학습으로 최적화하여, 훨씬 적은 비용으로도 초장문 컨텍스트에서 복잡한 추론 검색을 수행할 수 있음을 입증했다.
기존의 소수 단계 이미지 생성 기법들은 속도를 위해 확률적 우도 프레임워크를 포기하여 학습 안정성과 품질에 한계가 있었다. NTM은 각 역과정을 가역적인 Normalizing Flow로 모델링하여 정확한 우도 학습을 유지하면서도 단 4번의 샘플링만으로 고품질 이미지를 생성한다.
강력한 외부 교사 모델에 의존하지 않고 LLM이 생성한 데이터만으로 모델을 개선하는 Self-Distillation의 한계를 극복했습니다. 데이터의 신뢰성, 표현 정렬, 학습 안정성을 동시에 해결하여 자원 제약 환경에서도 효율적인 모델 고도화가 가능함을 입증했습니다.
기존 비디오 생성 모델은 영상이 길어질수록 내용이 산으로 가거나 캐릭터의 모습이 변하는 문제가 있었다. 이 논문은 에이전트 구조를 도입해 기억을 관리하고 스스로 오류를 수정함으로써 10분 분량의 긴 영상에서도 일관된 서사를 유지하는 방법을 제시한다.
기존 시각 언어 모델(VLM)은 비디오 속 객체의 움직임과 카메라의 이동이 결합된 복잡한 4D 동적 장면을 이해하는 데 어려움을 겪었다. 이 논문은 외부 기하학적 모듈 없이 모델 내부의 잠재 공간에서 장면의 진화를 시뮬레이션하는 4DThinker 프레임워크를 통해 자율 주행 및 로보틱스 분야에 필수적인 동적 공간 추론 능력을 획기적으로 개선했다.
기존 LoRA는 학습 시 설정한 고정된 Rank(r)에서만 동작하여 최적의 효율을 찾기 위해 반복적인 실험이 필요했다. 이 논문은 하나의 모델 학습만으로 다양한 Rank를 자유롭게 선택해 사용할 수 있게 하여 연산 비용을 획기적으로 줄이고 가변적인 하드웨어 환경에 즉각 대응할 수 있게 한다.
Mamba나 Linear Attention과 같은 최신 순환 모델들이 이론적인 표현력에도 불구하고 왜 긴 시퀀스에서 상태 추적에 실패하는지 분석했다. 오차 제어 역학이라는 새로운 관점을 통해 모델의 구조적 한계가 장기적인 정확도 저하로 이어지는 과정을 수학적으로 증명했다.
LLM 에이전트가 긴 작업을 수행할 때 어떤 행동이 성공에 기여했는지 판단하는 Credit Assignment 문제는 매우 어렵다. 이 논문은 추가적인 보상 모델이나 데이터 라벨링 없이 모델 내부의 엔트로피 신호만으로 학습 효율을 극대화하는 경량화된 해결책을 제시한다.
AI 에이전트가 이메일 관리나 금융 거래 등 실생활에 깊숙이 관여하면서 보안 위험이 급증하고 있지만, 이를 체계적으로 평가할 안전한 시뮬레이션 환경이 부족했습니다. 이 논문은 실제 서비스와 유사한 50개 이상의 환경을 제공하여 에이전트의 보안 취약점을 자동으로 탐지하고 평가할 수 있는 표준 플랫폼을 제시합니다.
최신 LLM들이 긴 문맥을 처리하기 위해 다양한 하이브리드 구조를 채택하고 있지만, 기존 가속화 기법들은 특정 구조에만 국한되거나 실제 서비스 환경인 vLLM과의 통합이 어려웠습니다. UniPrefill은 모델 구조에 상관없이 적용 가능한 토큰 삭제 전략을 통해 연산량을 획기적으로 줄이면서도 정확도를 유지하며, 실제 추론 엔진에 즉시 배포 가능한 수준의 통합을 구현했습니다.
기존 코드 검색 평가 도구들이 단순히 텍스트 유사도만 측정하고 실제 개발 환경의 복잡한 리랭킹 과정을 무시하는 문제를 해결합니다. 데이터 오염을 엄격히 차단한 새로운 벤치마크 CoREB과 전용 리랭커 모델을 통해 AI 코딩 에이전트의 정확도를 실질적으로 높일 수 있는 기반을 마련했습니다.
멀티모달 모델 학습 시 고품질의 쌍(paired) 데이터를 확보하는 비용 문제를 해결하기 위해 단일 모달리티 데이터만으로 학습하는 새로운 패러다임을 제시한다. 모달리티 간의 간극(Modality Gap)을 단순한 위치 차이가 아닌 특정 방향으로 쏠린 기하학적 구조로 정의하여 정밀한 정렬을 가능하게 한다.
물리적 지능(Embodied Intelligence) 발전을 가로막는 가장 큰 병목 현상인 로봇 전용 데이터의 부족 문제를 해결하기 위해 인터넷상의 방대한 인간 활동 비디오를 활용하는 새로운 패러다임을 제시합니다. 1,000시간의 인간 비디오 학습이 100시간의 실제 로봇 데이터 학습 성능을 능가함을 입증하여 로봇 학습의 확장성을 확보했습니다.
LLM 추론 시 연산량을 늘려 성능을 높이는 Test-Time Scaling(TTS) 전략은 그동안 연구자의 직관에 의존해 수동으로 설계되었습니다. AutoTTS는 이러한 전략 설계를 자동화하여 단 39.9달러의 비용과 160분의 탐색만으로 기존 수동 설계 방식보다 뛰어난 정확도-비용 효율을 달성했습니다.
기존의 LLM 강화학습 방식인 GRPO 등은 보상 신호를 근사적으로만 처리하여 학습의 안정성이 떨어지는 문제가 있었다. 이 논문은 응답들을 하나의 확률 공간(Simplex)으로 정의하고 수학적으로 정확한 타겟에 직접 투영하는 LPO 기법을 통해 학습 효율과 응답의 다양성을 동시에 확보했다.
기존 멀티모달 검색 에이전트는 여러 대상을 찾을 때 하나씩 순차적으로 검색하여 시간이 오래 걸리고 불필요한 비용이 발생했다. 이 논문은 여러 대상을 한 번에 병렬로 검색하는 기법과 효율성을 극대화하는 강화학습 프레임워크를 통해 검색 속도와 정확도를 동시에 획기적으로 개선했다.
기존 Flow Matching 기반 이미지 생성 모델은 여러 작업을 동시에 학습할 때 성능이 상충하는 시소 효과와 보상 해킹 문제에 시달렸다. Flow-OPD는 거대 언어 모델의 온-폴리시 증류 기법을 이미지 생성에 최초로 도입하여, 텍스트 렌더링과 미적 품질을 동시에 극대화하는 새로운 정렬 패러다임을 제시한다.
음악에 맞춰 춤추는 영상을 생성할 때 발생하는 동작의 물리적 어색함과 외형의 불일치 문제를 동작 전문가와 외형 전문가를 분리한 MoE 구조로 해결했다. 3D 동작 파라미터를 중간 매개체로 사용하여 기존 2D 기반 방식보다 훨씬 정교하고 역동적인 댄스 비디오 생성이 가능하다.
Diffusion Transformer(DiT)를 수백 개 이상의 레이어로 확장할 때 발생하는 갑작스러운 학습 붕괴 현상인 Mean Mode Screaming(MMS)의 원인을 규명했다. 이를 해결하는 MV-Split Residuals 기법을 통해 1000개 레이어의 초거대 모델도 안정적으로 학습할 수 있는 기술적 토대를 마련했다.
Andreessen Horowitz의 공동 창업자 벤 호로위츠가 AI 기술이 벤처 캐피털의 투자 전략, 기업의 경쟁 우위(Moat), 그리고 조직 문화에 미치는 근본적인 변화를 공유합니다.
유닉스 계열 시스템의 shebang 라인에 LLM CLI 도구를 설정하여 자연어 프롬프트나 YAML 템플릿을 직접 실행 가능한 스크립트로 변환하는 방법을 제안한다.
Claude를 24시간 상주하는 개인 튜터로 활용하여 구체적인 기법 지시와 냉정한 비평을 통해 물리적 기술인 초상화 실력을 향상시킨 사례이다.
항공우주 및 제조 분야의 복잡한 도면과 차트를 OCR 없이 직접 벡터화하여 검색 정확도와 답변 품질을 획기적으로 개선하는 멀티모달 RAG 파이프라인 구축 가이드이다.
AI 코딩 에이전트의 자율 실행 과정에서 발생하는 비용 낭비와 제어 불능 문제를 해결하기 위해 예산 제한, 감사 로그, 테스트 검증 기능을 제공하는 오픈소스 관리 도구 MartinLoop가 공개됐다.
Anthropic이 AWS 인프라 내에서 Claude API의 모든 최신 기능과 관리형 에이전트 서비스를 제공한다.
Claude Code 등 AI 에이전트와 연동하여 상태 정보를 시각화하는 오픈소스 macOS 데스크톱 펫 프로젝트 OpenPets가 출시됐다.
Shopify는 내부 코딩 에이전트 River를 슬랙 공개 채널에서만 운영하여 전 직원이 서로의 작업 과정을 보고 배우는 '교육용 작업장' 문화를 구축했다.
LLM 인프라의 성능 병목을 정밀 분석하기 위해 실행 트레이스와 워크로드 카드를 결합한 새로운 벤치마크 시스템인 CCL-Bench 1.0이 제안됐다.
VibeServe는 AI 에이전트를 활용해 특정 모델, 하드웨어, 워크로드에 최적화된 맞춤형 LLM 서빙 스택을 자동으로 생성하는 프레임워크이다.
세션과 사용자 간에 구조화된 지식을 공유할 수 있도록 그래프와 벡터를 결합한 Claude 전용 MCP 메모리 서버 Sandra가 공개됐다.
Claude Code 인프라를 확장하여 다중 모델 라우팅, 교차 세션 메모리, SDLC 기반 자가 학습 기능을 갖춘 자율 엔지니어링 플랫폼 Maggy가 공개됐다.
Markdown과 SQLite를 활용한 영구 에이전트 메모리 라이브러리 memweave가 LongMemEval-S 벤치마크에서 LLM 호출 없이 높은 검색 성능을 입증했다.
Apple Silicon 전용 프레임워크인 MLX를 활용하여 실시간 비전, 음성 합성, 비디오 생성 및 100만 컨텍스트 LLM을 로컬 환경에서 구현하는 기술적 성과를 다룹니다.
MLflow의 트레이싱, 자동화된 LLM 평가, AI 게이트웨이를 활용하여 AI 에이전트의 개발 수명 주기를 관리하고 신뢰성을 확보하는 기술적 방법론을 제시한다.
로컬 환경에서 LLM 추론 속도는 메모리 대역폭에 의해 결정되며, 모델 크기와 하드웨어 사양을 통해 이론적 최대 토큰 생성 속도를 예측할 수 있다.
FastAPI의 기초부터 풀스택, 마이크로서비스, 머신러닝 모델 서빙까지 실전 프로젝트를 통해 배울 수 있는 10가지 핵심 GitHub 저장소를 소개한다.