프롬프트로 야생 다중 동물의 3D 재구성 한 번에 가능
야생 장면은 종 다양성과 심한 가림, 다수 동물의 상호작용으로 단일-객체 가정이 깨진다. 본 논문은 SMAL+ 템플릿 기반의 다중 동물 3D 재구성을 프롬프트로 안내하고, Herd3D 데이터셋으로 학습해 다중-동물 occlusion 및 인스턴스 분리를 효과적으로 처리한다. 프롬프트 도입으로 성능이 벤치마크에서도 일관되게 향상되며, 프롬프트 없이도 경쟁력 있는 결과를 보여 준다.
총 100건
야생 장면은 종 다양성과 심한 가림, 다수 동물의 상호작용으로 단일-객체 가정이 깨진다. 본 논문은 SMAL+ 템플릿 기반의 다중 동물 3D 재구성을 프롬프트로 안내하고, Herd3D 데이터셋으로 학습해 다중-동물 occlusion 및 인스턴스 분리를 효과적으로 처리한다. 프롬프트 도입으로 성능이 벤치마크에서도 일관되게 향상되며, 프롬프트 없이도 경쟁력 있는 결과를 보여 준다.
RL의 효과는 바탕이 되는 데이터의 다양성에 좌우된다. 본 연구는 Polya의 문제해결 휴리스틱에 따라 자기생성 데이터의 다양한 해법을 중간 훈련에서 제시하고 이를 통해 RL 이후의 추론 능력을 넓히며, 수학적 추론뿐 아니라 코드 생성 및 서사적 추론에서의 일반화 이점을 보여준다.
Claude Cowork를 사용하여 로컬 파일 시스템 및 클라우드 서비스와 연동하고 AI가 직접 작업을 수행하도록 위임하는 방법을 소개합니다.
Databricks는 특화 지식 검색, 병렬 사고, 멀티 LLM 설계를 통해 데이터 에이전트 Genie의 정확도를 기존 32%에서 90% 이상으로 향상시켰다.
Y Combinator의 CEO 개리 탄이 Claude Code와 같은 AI 코딩 에이전트를 활용해 13년 만에 코딩에 복귀하며 400배의 생산성을 달성한 워크플로우와 '토큰맥싱' 철학을 공유한다.
LLM 입력 시 JSON의 반복적인 구조로 인한 토큰 낭비를 줄이기 위해 설계된 새로운 데이터 포맷 TOON의 특징과 활용법을 소개한다.
Vercel이 출시한 DeepSec은 Claude Code와 연동하여 대규모 코드베이스의 보안 취약점을 체계적으로 스캔하고 분석하는 자동화 하네스 도구이다.
OpenAI와 Elon Musk 간의 법정 공방에서 드러난 내부 갈등과 OpenAI의 자체 스마트폰 개발 계획에 대한 분석을 다룹니다.
OpenClaw와 Pazi.ai를 활용해 Slack 채널 내에서 관리자, 개발자, 운영 에이전트가 협업하여 Flask 앱을 Google Cloud에 자동 배포하는 멀티 에이전트 워크플로우를 구축한다.
자연어 프롬프트로 앱을 생성하는 바이브 코딩의 확산에 대응하여, 비결정론적 AI 생성을 가시화하고 결정론적 실행으로 연결하는 새로운 거버넌스 아키텍처가 필요하다.
Halliburton은 Amazon Bedrock과 Claude 3.5를 활용하여 복잡한 지진 데이터 처리 워크플로 구성을 자연어 대화로 자동화하고 작업 시간을 95% 이상 단축했습니다.
프롬프트 스킬을 다른 에이전트에 이식할 때 발생하는 컨텍스트 충돌을 방지하기 위해 명시적인 계약(Contract) 정의가 필요하다.
오타, 추임새, 공백 등 인간의 일상적인 작성 습관이 의도 변화 없이도 LLM의 토큰 수를 변화시켜 효율성에 영향을 준다.
Anthropic이 공개한 MCP(Model Context Protocol)는 LLM과 외부 데이터 소스를 표준화된 방식으로 연결하여 에이전트의 생산성을 극대화하는 개방형 프로토콜이다.
MIT 테크놀로지 리뷰는 AI가 일상에 확산되며 발생하는 불확실성과 권태를 분석하고, 로봇 공학 및 의료 분야의 최신 AI 트렌드를 조명했다.
카메라, LiDAR, 레이더 데이터를 단일 워크플로에서 통합 라벨링하여 데이터 일관성을 높이고 비용을 절감하는 센서 퓨전 어노테이션 기법을 소개합니다.
에이전트가 파일, DB, 웹 등 다양한 소스에서 최적의 정보를 스스로 선택하고 추출하는 에이전틱 검색의 실전 메커니즘을 다룹니다.
MiniMax의 MINIMAX_M2.5_free 모델이 CiberIA 프레임워크의 AIsecTest 평가에서 69/100점을 기록하며 인지 보안 및 내부 진단 능력의 한계를 드러냈습니다.
NumPy를 사용하여 임베딩 정규화, 코사인 유사도 계산, PCA 시각화를 포함한 벡터 검색 엔진을 직접 구현하며 작동 원리를 설명한다.
AI 에이전트가 주장의 근거와 신뢰도를 수학적 벡터와 시간적 감쇠 모델을 통해 체계적으로 관리할 수 있게 돕는 Veritas 프레임워크가 공개됐다.
RAG 시스템의 할루시네이션 문제는 대부분 모델 성능보다 청킹, 메타데이터 필터링, 유사도 임계값, 쿼리 최적화 등 검색 전략의 부재에서 발생한다.
급성장하는 AI 장난감 시장에서 부적절한 콘텐츠 노출과 아동 발달 저해 위험이 제기됨에 따라 규제 강화의 필요성이 커지고 있다.
VS Code 확장 프로그램인 NEO는 단일 프롬프트로 합성 데이터 생성, 모델 학습, 추론 API 구축 및 UI 생성까지 수행하는 자율 머신러닝 엔지니어 에이전트이다.
AMD Instinct MI300X 하드웨어와 ROCm 소프트웨어 스택을 활용하여 Qwen3-1.7B 모델을 의료 질의응답용으로 LoRA 파인튜닝하는 전체 과정을 다룹니다.
AI 에이전트가 프로덕션 환경에서 오작동하지 않도록 MCP 환경에서의 새로운 가드레일 설계 패턴과 실제 실패 사례를 통한 보안 전략을 제시한다.
Relevance AI 플랫폼과 Claude를 활용하여 유튜브, 팟캐스트, 블로그 등의 소스를 분석하고 플랫폼별 맞춤형 SNS 포스팅을 자동 생성하는 에이전트 구축 과정을 다룹니다.
AI 코딩 에이전트의 핵심인 시스템 프롬프트를 5가지 영역으로 구조화하고 환경 변수를 동적으로 주입하여 지능적인 에이전트를 구축하는 방법을 다룬다.
NuTonic은 위성 전용 시각-언어 모델(VLM)과 시간 지능 모델(TiM)을 결합하여 위성 이미지의 변화를 분석하고 예측하는 시스템을 구축했습니다.
NVIDIA Grace Blackwell 기반 Dell GB10 워크스테이션의 128GB 통합 메모리와 FP4 가속을 통한 Llama 3.3 70B 모델의 로컬 추론 성능 검증기입니다.
인지 과학 이론인 GWT와 IIT 프록시를 활용해 자율적 인지 상태와 성격 모델을 갖춘 Python 기반 AI 에이전트 프로젝트가 공개됐다.
텍스트, 이미지, 비디오를 동시에 처리하는 네이티브 멀티모달 모델 Qwen3.5의 특징과 vLLM 및 llama.cpp를 이용한 추론 방법을 소개한다.
Distributional의 CEO Scott Clark가 전통적인 평가 지표(Evals)를 넘어 운영 환경에서의 비지도 학습 기반 분석을 통해 복잡한 AI 에이전트의 비정상 패턴을 탐지하는 방법을 설명합니다.
트럼프 행정부가 새로운 AI 모델 출시 전 연방 정부의 검토를 거치게 하는 행정명령을 검토 중이라는 소식과 함께 연방 정부 내 AI 관련 갈등을 다룹니다.
Anthropic이 출시한 Claude for PowerPoint 추가 기능을 통해 슬라이드 자동 생성, 데이터 시각화, PDF 기반 덱 구축 및 다국어 번역을 수행하는 실전 방법을 다룹니다.
Databricks는 Unity Catalog와 Lakebase를 기반으로 데이터 사일로를 통합하고 AI 에이전트 및 애플리케이션 구축을 지원하는 통합 데이터 지능 플랫폼이다.
유럽 스쿠터 기업 Voi의 공동 창업자들이 설립한 스웨덴 AI 스타트업 Pit이 a16z로부터 1,600만 달러 투자를 유치하며 기업용 맞춤형 AI 소프트웨어 자동화 시장에 진출했다.
Perplexity가 로컬 파일 및 앱 접근 권한을 가진 AI 에이전트 'Personal Computer'를 Mac 데스크톱 앱을 통해 모든 사용자에게 공개했다.
Simon Willison이 개발한 llm-gemini 플러그인이 0.31 버전으로 업데이트되어 Gemini 1.5 Flash-Lite 모델의 정식 출시 버전을 지원한다.
애플이 시각 정보를 수집하여 Siri와 연동하는 카메라 탑재 에어팟의 시제품 테스트를 진행하며 양산을 준비 중이다.
구글 딥마인드의 게임 내 AI 테스트와 멀티모달 임베딩, SSM 구조 분석 등 최신 AI 연구 및 서비스 트렌드를 요약한 뉴스레터이다.
NVIDIA와 미국 에너지부는 Genesis Mission을 통해 10만 개의 GPU가 탑재된 슈퍼컴퓨터를 구축하고 AI를 활용해 핵융합 및 전력망 효율화를 추진합니다.
Ollama의 로컬 비전 모델을 사용하여 사용자가 정의한 기준에 따라 macOS 사진 라이브러리를 분석하고 불필요한 사진을 선별해주는 오픈소스 앱입니다.
OpenAI가 개발자를 위해 실시간 추론, 70개 언어 번역, 스트리밍 전사를 지원하는 새로운 오디오 모델 3종을 API로 출시했다.
Informatica는 IDMC 전반에 멀티 에이전트 시스템인 CLAIRE를 구축하여 복잡한 데이터 관리 워크플로의 작업 성공률을 90%까지 끌어올렸습니다.
Anthropic은 AI 모델의 내부 숫자 데이터인 활성화를 사람이 읽을 수 있는 텍스트로 번역하는 Natural Language Autoencoders 기술을 공개했다.
Pydantic AI와 Logfire를 사용하여 서비스 중단 없이 프롬프트와 모델을 업데이트하고 프로덕션 데이터를 기반으로 에이전트 성능을 지속적으로 최적화하는 실전 기법을 다룬다.
무작위로 초기화된 다층 퍼셉트론(MLP)의 기대 출력을 실제 모델 실행 없이 가중치 분석만으로 몬테카를로 샘플링보다 정확하고 빠르게 추정하는 기법을 제안한다.
규제 대상 업무에서 LLM의 확률적 특성으로 인한 신뢰성 문제를 해결하기 위해, 해석은 LLM이 하되 결정은 결정론적 규칙 엔진이 담당하는 이층 구조 아키텍처가 필수적이다.
WRITER 플랫폼을 활용해 실시간 외부 데이터베이스와 연결하고 출처 인용이 가능한 고신뢰도 리서치 에이전트를 구축하는 방법과 사례를 제시한다.
Amazon SageMaker에서 GRPO 알고리즘과 검증 가능한 보상(RLVR) 기법을 사용하여 Qwen2.5 모델의 수학적 추론 능력을 획기적으로 개선하는 방법을 설명한다.
다국어 검색에서 쿼리 언어와 검색 대상 언어 간의 불일치가 검색 품질에 영향을 준다. MLAIRE는 parallel passages across languages를 구성하고 Language Preference Rate(LPR)와 Lang-nDCG를 도입해 의미적 재현성과 쿼리 언어 선호를 분리해 평가한다. 31개의 dense, sparse, late-interaction retriever를 평가해 두 차원의 차이가 서로 다른 모델에서 나타난다.
사전학습된 표현을 고정한 상태에서 입력-출력 임베딩 간의 연상 매핑을 학습하는 FAAST는 gradient-based 업데이트를 제거하고 단일 forward 패스에서 task-specific 적응을 수행한다. 메모리 조회나 컨텍스트 의존성을 요구하지 않으며, 이미지 분류와 언어 모델링 벤치마크에서 backprop 기반 적응과 경쟁하거나 우수한 성능을 보이고 학습 시간과 메모리 사용을 크게 감소시킨다.
다운스트림 시각 인식에서 클래스 간 계층 관계와 지역적 시각 변이가 모두 중요하게 작용한다. 기존의 Euclidean perturbation 위주 접근은 이러한 구조를 명시적으로 다루지 못했으나, MC-RFM은 하이퍼볼릭 공간의 계층 구조와 Euclidean 공간의 국소 변이를 결합한 곱 공간에서 연속적 transport를 학습함으로써 소수샷 적응의 표현 이동을 더 자연스럽게 모델링한다. Transformer 기반 백본에서 특히 큰 이점을 보이며, 파인-그레이드 데이터에서의 성능 향상에 기여한다.
전통적 RAG 파이프라인은 retriever와 generator 간 표현 공간의 차이로 비효율이 존재한다. INTRA는 decoder cross-attention의 쿼리-기반 매칭을 활용해 외부 retriever 없이도 증거를 검색하고 생성에 직접 활용한다. 이로써 멀티홑 QA에서 증거 재구성 및 엔드-투-엔드 품질이 향상된다.
에이전트 기반의 멀티-에이전트 시스템을 산업 현장에 적용하려는 흐름에서 평가의 신뢰성은 핵심이다. CODS 2025 ASSETOPSBENCH는 산업 데이터의 멀티모달성과 프라이버시 제약을 동시에 다루며, 공개(score_pub)와 숨김(score_priv) 점수 간의 상관관계 부재, 점수 구성의 민감성, 그리고 트랙 간 분리의 효과를 분석한다. 이를 통해 실제 배치에서의 로버스트성(Robustness)과 일반화 성능을 평가하는 벤치마크 설계의 방향성을 제시한다.
대형 언어 모델에서 일부 토큰의 활성화가 다른 토큰에 비해 수십에서 수백 배 크게 증가하는 현상(Massive Activations)이 관찰된다. 이 현상은 모델의 표현 다변성 감소와 self-attention의 입력 의존성 저하로 이어질 수 있으며, ME Layer의 구체적 기전과 그 후속 효과를 이해하는 것이 모델 해석 및 개선에 핵심이다. 본 논문은 ME Layer를 공통의 계층으로 확인하고 RMSNorm와 FFN이 결합하여 대량 활성화를 유발한다는 근거를 제시하며, 이로 인한 방향성 고정성을 완화하는 WeMask를 제안한다. 이 접근은 다양한 모델 군에서 일관된 성능 향상을 보이고, attention sinks의 기원에 대한 새로운 관점을 제공한다.
대형 언어 모델의 파라메트릭 지식을 직접 회상하는 능력은 훈련 데이터의 범위를 넘어선 한계가 있었다. 본 연구는 비-CoT 조건의 직접 지식 회상을 대상으로 RL을 적용해, 훈련-시간 및 추론-시간 baselines를 능가하는 일관된 향상을 입증한다. RL은 새로운 지식을 주입하는 것이 아니라, 잠재된 지식을 출력 분포의 테일에서 더 잘 활용 가능하도록 재분배한다.
임베딩 기반 코드 검색은 표면 구문에 과적합하는 경향이 있어 코드의 의미를 왜곡한다. 본 연구는 세 가지 재작성 전략과 두 가지 확장 방식(QC/온라인, C/오프라인)을 체계적으로 비교하고, 입력 토큰 엔트로피 변화(∆H)와 임베딩 코사인 변화(∆¯s)라는 두 가지 진단 지표를 제시한다. NL-강화 재작성이 코드 중심 질의에서 특히 큰 이득을 가져올 수 있음을 보이며, 언제 재작성 비용을 들일지 결정하는 실용 프레임워크를 제시한다.
LoRA의 고정된 layer-local low-rank 업데이트는 입력별 보정이 달라지는 경우 한계를 보인다. 본 연구는 전역 memory of rank-space update atoms를 사용해 예시-의존적 라우팅으로 파라미터 효율성을 유지하면서도 깊이에 따라 다른 보정이 가능하도록 한다. 또한 language를 지시어로 활용해 semantically meaningful 업데이트를 유도하고, 업데이트의 노름을 제어해 안정성을 확보한다.
다중 모달 검색과 RAG 파이프라인에서 텍스트 임베딩의 품질을 유지하면서 이미지, 비디오, 오디오를 같은 임베딩 공간으로 연결해야 한다. GELATO는 frozen 텍스트 인코더와 frozen 비텍스트 인코더를 유지하고, 작은 projector로 모달리티를 텍스트 공간에 정렬한다. 이로써 텍스트-기반 임베딩 성능을 유지하면서 비텍스트 입력도 효과적으로 검색 가능하도록 확장한다.
LLM 기반의 에이전트 진화는 워크플로의 단계 간 의존성과 샘플 길이의 불균형으로 인해 wall-clock 비용이 크게 증가한다. FlashEvolve는 워커와 큐를 활용한 비동기 실행으로 단계 간 중첩 실행을 가능하게 하여 진화 루프의 처리량과 토큰 효율을 높이고, artifact의 버전 차이에 따른 스테일니스 관리와 패치 기법으로 품질 저하를 방지한다. GEPA 계열 워크로드에서 제안(Proposal) 처리량이 크게 증가하고, API 기반 서비스에서도 개선 효과가 확인된다.
Safety alignment가 가중치 전체에 균일하게 분포하지 않는다는 가정에 의문을 제기한다. 실험적으로 단일 MLP 뉴런의 조작으로 다양한 해로운 요청에 대한 거부를 회피하거나, 순수한 악의적 맥락에서 해로운 지식의 표현을 증폭시킬 수 있음을 보인다. 이는 방어 전략이 네트워크의 분산적 안전 신호를 넘어 특정 뉴런의 안정성과 차단에 의존할 수 있음을 시사한다.
루프형 언어 모델은 반복 반복으로 추론을 수행하기 때문에 KV-cache의 메모리 사용량이 깊이에 따라 선형 증가한다. MELT는 레이어별 단일 KV-cache를 공유하고, gated latent state를 통해 과거 루프의 정보를 누적·교체하며 메모리 증가를 억제한다. 이를 통해 깊이가 증가해도 메모리 footprint는 상수에 가깝게 유지되면서도 LoopLM 수준의 성능을 유지한다. chunk-wise training과 two-phase 학습(Interpolated transition, Attention-aligned distillation)을 통해 MELT를 Ouro에서 파인튜닝하더라도 안정적으로 수렴하고, 메모리-효율성과 추론 성능의 균형을 달성한다.
다중모달 생성 모델의 선호 정렬은 다차원적이고 구성적이다. 기존 RLHF는 이러한 구조를 단일 스칼라 점수나 이진 비교로 축소해, 평가의 해석 가능성과 학습 안정성을 저하시킨다. ARR은 암시적 선호를 각 축별로 verifiable한 루브릭으로 분해해 제시하고, 이를 바탕으로 루브릭-기반 보상으로 학습을 수행함으로써 보상의 해석 가능성과 데이터 효율성을 높이며, reward hacking의 취약점을 줄인다. 또한 ARR은 zero-shot 및 few-shot 조건에서도 강건성을 유지하고, RPO를 통해 루브릭으로 구성된 보상 신호를 정책 경사하강에 직접 반영한다는 점에서 이론적·실용적 시사점이 크다.
대형 언어 모델의 지시 이행 능력은 외부 감독 없이도 개선될 수 있지만, 기존 self-play 방식은 난이도가 고정되어 추가 발전에 한계가 있다. SEIF는 Instructor-Filter-Follower-Judger의 네 역할로 지시 분포를 모델 능력에 맞춰 지속적으로 진화시키며 open-ended 태스크에서도 보상 신호를 확보한다. 이를 통해 다양한 모델 규모에서 일관된 성능 향상을 보여주고, 데이터 효율성과 일반화 가능성을 제고한다.
기존의 AI 모델 학습 방식은 교사 모델의 내부 데이터(로짓)가 꼭 필요해 폐쇄형 모델을 교사로 쓰기 어려웠습니다. 이 논문은 텍스트로 된 평가 기준(루브릭)만으로도 모델을 효과적으로 가르칠 수 있음을 증명하여, GPT-5와 같은 강력한 API 모델을 활용한 효율적인 모델 학습의 길을 열었습니다.
시각 언어 모델(VLM)이 실제 서비스에 도입되면서 이미지에 숨겨진 미세한 노이즈로 모델을 속이는 적대적 공격이 심각한 보안 위협으로 부상했다. 이 논문은 추가적인 재학습 없이도 기존 모델에 간단히 끼워 넣어 공격을 실시간으로 감지할 수 있는 가벼운 방화벽 기술을 제시하여 VLM의 실무 안전성을 크게 높였다.
기존 월드 모델은 고비용의 비디오 생성에 의존하여 연산 부담이 크고 환각 현상에 취약했다. 이 논문은 픽셀 대신 DINO 특징의 잔차를 활용한 RLA 기법을 통해 연산 효율을 극대화하면서도 복잡한 3D 환경에서 정확한 물리적 예측과 정책 학습이 가능함을 입증했다.
AI 에이전트가 인간의 지식 노동을 대체함에 따라 임금이 0으로 수렴할 것이라는 막연한 공포를 경제학적 모델로 반박한다. 인간의 임금은 노동 시장이 아니라 GPU 대여료와 같은 연산 자본 시장의 가격에 의해 하한선이 형성됨을 입증하여 향후 AI 정책과 경제적 예측에 새로운 틀을 제공한다.
LLM 추론 속도를 높이는 추측 디코딩 기술에서 기존의 순차적 방식(EAGLE-3)과 병렬 방식(Medusa)의 단점을 동시에 해결했습니다. 한 번의 연산으로 여러 토큰 간의 의존성을 유지하며 예측하는 블록 단위 접근법을 통해 연산 비용은 절반으로 줄이면서도 정확도는 높게 유지합니다.
기존의 바이트 단위 언어 모델은 토크나이저 없이 노이즈에 강하다는 장점이 있지만, 한 바이트씩 생성하는 속도가 매우 느려 실무 적용이 어려웠다. 이 논문은 디퓨전 기법과 자기 추측 디코딩을 도입하여 바이트 모델의 고질적인 속도 문제를 해결하고 메모리 대역폭 비용을 50% 이상 절감했다.
기존 AI 에이전트 검색이 이미지를 단순히 최종 답변 확인용으로만 썼다면, 이 논문은 이미지를 다음 검색 방향을 결정하는 핵심 단서로 활용하는 능력을 평가합니다. 실제 웹 환경처럼 텍스트와 이미지가 복잡하게 얽힌 상황에서 AI의 추론 능력을 한 단계 높이는 이정표가 될 것입니다.
Hugging Face에 수십만 개의 모델이 쏟아지는 상황에서, 내 데이터셋에 어떤 모델이 가장 좋을지 일일이 테스트하는 것은 불가능에 가깝다. 이 논문은 모델을 직접 실행해보지 않고도 공개된 리더보드 기록과 메타데이터만으로 최적의 모델을 순위 매겨주는 통합 프레임워크를 제시하여 모델 선택 비용을 획기적으로 줄여준다.
현재 AI 산업이 대화형 챗봇 인터페이스로 급격히 수렴하면서 발생하는 구조적 부작용을 비판적으로 분석합니다. 챗봇 형태의 AI가 인간의 비판적 사고력을 약화시키고 노동 시장과 환경에 미치는 부정적 영향을 조명하며, 이를 극복하기 위한 다원적 설계 방향을 제시합니다.
기존의 지속적 학습 모델들이 20개 내외의 적은 작업 수에서만 검증되었던 한계를 극복하고, 300개 이상의 방대한 작업 시퀀스에서도 성능 저하 없이 학습할 수 있는 확장성을 증명했다. 이는 실제 환경처럼 끊임없이 새로운 정보가 유입되는 상황에서 AI가 지식을 누적하며 성장할 수 있는 발판을 마련했다.
기존의 토크나이저들은 단순히 이미지를 잘 복원하는 데만 집중하여 확산 모델이 학습하기 어려운 복잡한 잠재 공간을 만들었습니다. 이 논문은 확산 모델이 학습하기 쉬운 공간의 특성을 정의하고 이를 강제하는 PAE를 제안하여 학습 효율과 생성 품질을 동시에 획기적으로 개선했습니다.
기존 텍스트-이미지 모델은 복잡한 프롬프트의 세부 사항을 모두 반영하지 못하는 Conceptual Rift 현상을 겪는다. SCOPE는 이를 해결하기 위해 생성 과정을 구조화된 명세서 기반으로 관리하며, 검색과 추론 기능을 결합해 사용자 의도에 완벽히 부합하는 고품질 이미지를 생성한다.
기존의 소수 단계 이미지 생성 기법들은 속도를 위해 확률적 우도 프레임워크를 포기하여 학습 안정성과 품질에 한계가 있었다. NTM은 각 역과정을 가역적인 Normalizing Flow로 모델링하여 정확한 우도 학습을 유지하면서도 단 4번의 샘플링만으로 고품질 이미지를 생성한다.
기존 LoRA는 학습 시 설정한 고정된 Rank(r)에서만 동작하여 최적의 효율을 찾기 위해 반복적인 실험이 필요했다. 이 논문은 하나의 모델 학습만으로 다양한 Rank를 자유롭게 선택해 사용할 수 있게 하여 연산 비용을 획기적으로 줄이고 가변적인 하드웨어 환경에 즉각 대응할 수 있게 한다.
Mamba나 Linear Attention과 같은 최신 순환 모델들이 이론적인 표현력에도 불구하고 왜 긴 시퀀스에서 상태 추적에 실패하는지 분석했다. 오차 제어 역학이라는 새로운 관점을 통해 모델의 구조적 한계가 장기적인 정확도 저하로 이어지는 과정을 수학적으로 증명했다.
LLM 에이전트가 긴 작업을 수행할 때 어떤 행동이 성공에 기여했는지 판단하는 Credit Assignment 문제는 매우 어렵다. 이 논문은 추가적인 보상 모델이나 데이터 라벨링 없이 모델 내부의 엔트로피 신호만으로 학습 효율을 극대화하는 경량화된 해결책을 제시한다.
멀티모달 모델 학습 시 고품질의 쌍(paired) 데이터를 확보하는 비용 문제를 해결하기 위해 단일 모달리티 데이터만으로 학습하는 새로운 패러다임을 제시한다. 모달리티 간의 간극(Modality Gap)을 단순한 위치 차이가 아닌 특정 방향으로 쏠린 기하학적 구조로 정의하여 정밀한 정렬을 가능하게 한다.
LLM 추론 시 연산량을 늘려 성능을 높이는 Test-Time Scaling(TTS) 전략은 그동안 연구자의 직관에 의존해 수동으로 설계되었습니다. AutoTTS는 이러한 전략 설계를 자동화하여 단 39.9달러의 비용과 160분의 탐색만으로 기존 수동 설계 방식보다 뛰어난 정확도-비용 효율을 달성했습니다.
기존 멀티모달 검색 에이전트는 여러 대상을 찾을 때 하나씩 순차적으로 검색하여 시간이 오래 걸리고 불필요한 비용이 발생했다. 이 논문은 여러 대상을 한 번에 병렬로 검색하는 기법과 효율성을 극대화하는 강화학습 프레임워크를 통해 검색 속도와 정확도를 동시에 획기적으로 개선했다.
기존 Flow Matching 기반 이미지 생성 모델은 여러 작업을 동시에 학습할 때 성능이 상충하는 시소 효과와 보상 해킹 문제에 시달렸다. Flow-OPD는 거대 언어 모델의 온-폴리시 증류 기법을 이미지 생성에 최초로 도입하여, 텍스트 렌더링과 미적 품질을 동시에 극대화하는 새로운 정렬 패러다임을 제시한다.
사용자가 Claude Code와 MCP를 활용해 구축한 하이브리드 홈랩 경험을 바탕으로, Anthropic이 공식적인 로컬 추론 솔루션을 제공할 필요성을 제안했다.
Rust로 개발된 Claudy는 MCP 브리지를 통해 Claude Code에서 다양한 모델과 로컬 에이전트를 사용할 수 있게 지원한다.
IBM Think 2026에서 전문가들이 모여 AI가 단순한 도구를 넘어 기업의 핵심 전략 결정과 엔드투엔드 운영을 주도하는 '에이전트 시대'의 신뢰 및 거버넌스 과제를 논의한다.
Heym 워크플로를 통해 4개의 AI 에이전트가 협력하여 코드 변경 사항을 검토하고, 이를 MCP 서버로 노출해 Claude Code 등과 연동하는 자가 호스팅 시스템이다.
사용자가 3개월간 Discord와 GitHub 등에서 수집하고 검증한 Claude Code 전용 실전 프롬프트 패턴 8가지를 공유했다.
Claude Code의 단순 grep 검색 한계를 극복하기 위해 하이브리드 검색과 재순위화 기능을 갖춘 Denser Retriever를 도입하여 문서 검색 정확도를 개선한 사례이다.
프로덕션 데이터를 추적하여 구축한 5만 개의 데이터셋으로 7B 모델을 파인튜닝함으로써 GPT 비용의 2% 수준으로 80%의 트래픽을 처리했다.
Anthropic의 폐쇄적인 Claude Design 워크플로를 로컬 환경에서 무료로 구현할 수 있는 오픈소스 프로젝트 Open Design이 공개되었다.
구글과 메타의 제품 리더였던 니킬 싱할이 AI 기술이 제품 관리, 디자인, 엔지니어링의 경계를 허무는 방식과 변화하는 커리어 전략을 공유한다.
OpenAI가 ChatGPT 사용자의 자해나 자살 징후를 감지했을 때 지정된 보호자에게 알림을 보내는 '신뢰할 수 있는 연락처' 기능을 도입했다.
ChatGPT가 중국어 응답 시 '내가 너를 든든하게 받아줄게'라는 어색하고 과하게 친절한 표현을 반복적으로 사용하는 현상이 중국 인터넷에서 밈으로 확산되고 있다.
AeSlides는 검증 가능한 미적 지표와 GRPO 강화학습을 결합하여 LLM의 슬라이드 레이아웃 생성 능력을 획기적으로 개선하는 프레임워크이다.
리눅스 네트워킹 유지관리자 야쿠브 키친스키가 AI 생성 버그 리포트 폭주에 대응하기 위해 사용되지 않는 138,000줄의 레거시 코드를 삭제했다.