Q^T V로 d×d 상태행렬을 만들어 attention 병목을 축소한 메모 노트
핸드라이팅 노트는 Q(k)^T와 V의 행렬곱으로 d×d 크기의 상태행렬 S를 구성해 시퀀스 길이 N에 무관한 고정 크기 표현을 만드는 접근을 보여준다.
총 63건
핸드라이팅 노트는 Q(k)^T와 V의 행렬곱으로 d×d 크기의 상태행렬 S를 구성해 시퀀스 길이 N에 무관한 고정 크기 표현을 만드는 접근을 보여준다.
대화형 AI 에이전트를 기존 REST API의 동일한 사용자 컨텍스트·데이터 레이어 권한을 통해 실행하도록 구현해 권한 오용과 프롬프트 인젝션 위험을 방지했다.
SenseTime의 오픈소스 멀티모달 모델 SenseNova‑U1은 NEO‑unify 아키텍처와 150MB LoRA 어댑터로 인포그래픽 생성을 약 12× 가속하며 GGUF 퀀타이즈로 소비자 GPU 실행을 지원한다.
Cara는 Amazon EKS와 Amazon Bedrock을 기반으로 ACORD 등 보험 양식 자동화, 견적 비교, 제안서 생성 등을 수행해 보험 중개사의 반복 백오피스 작업을 자동화하는 SaaS 솔루션이다.
프로토콜 기반 MCP 서버를 통해 Amazon S3에 저장된 텍스트형 PDF를 배치 없이 실시간으로 추출·질의해 컴플라이언스·법무·재무팀에 즉시 답을 제공하는 패턴과 Amazon Textract와의 용도별 비교를 제시한다.
거대 기업들의 막대한 컴퓨팅 자원 독점과 폐쇄적 모델 발전으로 인해 개인 개발자와 오픈소스 생태계가 AI 혁신의 최전선에서 소외될 위험을 분석한다.
구글의 OKF 표준을 활용해 AI 에이전트가 지식 베이스를 효율적으로 탐색하고 토큰 비용을 절감하는 방법을 다룹니다.
OpenAI 사례와 최근 논의는 대화 트레이스를 통해 시뮬레이션을 보완하거나 대체할 수 있으며, 항목 수준 평가 데이터 공개와 환경 속성 표준화가 장기적 재사용성과 비용 절감에 핵심임을 강조한다.
의미 압축을 확산식 노이즈로 사용하고 다중 패스·패스 조건 훈련으로 통합 상태를 갱신해 모델 컨텍스트 한계를 넘어서는 문서 처리를 시도한 연구 제안과 초기 실험 결과 공유.
RF-DETR Keypoint는 NMS와 히트맵 없이 단일 순전파로 바운딩박스·키포인트·신뢰도·공분산 기반 불확실성 타원체를 예측하며 COCO와 커스텀 데이터로 파인튜닝할 수 있다.
Noam Brown은 테스트 시점 연산이 전통적 벤치마크 한계를 드러내며, 충분한 실행 예산을 주면 모델이 수주·수개월 단위로도 추론할 수 있음을 논의했다.
IBM의 0.7nm 반도체 공정 혁신과 Sakana Fugu, GLM-5.2 모델의 성능 분석, 그리고 효율성 중심의 '토큰미닝' 트렌드를 다룹니다.
Next.js 16·React 19·Tailwind v4·Bun 기반의 Limns Admin 프론트엔드를 Claude Code로 대부분 구현해 데모와 GitHub로 공개함.
Clipify는 로컬에서 동작하는 오픈소스 도구로, 오디오 에너지·전사 텍스트·hook 검출을 결합해 긴 영상에서 플랫폼별 짧은 클립과 자동 자막을 생성한다.
이미지에 제시된 디자인은 외부 LLM 호스트와의 상호작용을 여섯 개의 명시적 슬래시/프롬프트 명령으로 노출하고, 세부 동작은 문맥으로 자동 선택하도록 권장한다.
기억상실증에 걸린 천재와 같은 현재 코딩 에이전트의 한계를 Nx와 Polygraph를 통해 해결하고 자율성을 부여하는 방안을 제시한다.
화이트보드에서 z(t)=x+tv 경로를 따라 방향 도함수 g'(t)=∇A(z(t))·v와 두 번째 도함수 g''(t)=v^T ∇^2A(z(t)) v를 유도한다.
Anthropic이 출시한 터미널 기반 AI 코딩 에이전트 Claude Code의 주요 기능과 Andrej Karpathy의 평가를 분석한다.
테스트 스위트를 도입해 레퍼런스 데이터셋·지표·LLM 판정 프롬프트 작업을 자동화하면 배포 전 에이전트 실패를 조기에 탐지할 수 있다.
Midjourney V8.1 드래프트 모드에서 --sref random을 사용하면 프롬프트 한 번으로 서로 다른 스타일의 이미지 24장을 생성할 수 있으며, 드래프트 모드는 ⚡ 아이콘 또는 --draft로 활성화한다.
Linux Foundation이 DNS 기반 재사용을 통해 AI 에이전트의 소속·권한·히스토리 검증과 발견 방식을 표준화하는 Agent Name Service(ANS)를 제안했다.
Generative Causal Testing은 LLM 기반 뇌 예측 모델을 간결한 개념 설명으로 추출하고, LLM이 만든 자극을 fMRI에서 검증해 뇌 영역의 선택성과 미세영역을 확인한다.
OpenGov의 AI 에이전트 팀이 TypeScript와 Effect-TS를 활용해 프로덕션 환경에서 안정적인 에이전트 루프와 모니터링 시스템을 구축한 경험을 공유한다.
KPMG의 최신 설문조사를 통해 기업의 AI ROI 달성을 위한 CEO 리더십의 중요성과 OpenAI의 첫 자체 칩 데뷔 등 주요 업계 뉴스를 살펴봅니다.
QLoRA로 Llama 3.1 8B를 단일 T4에서 고전 작품으로 파인튜닝했더니 인용 형식은 생성하나 정확한 장·항목 표기는 실패해 프로덕션에서는 동일 코퍼스를 대상으로 RAG를 사용한다고 결론내렸다.
Latent Space는 OpenAI 내부에서 Codex 출력 토큰 사용량이 2025년 11월 대비 연구 56배·고객지원 32배·엔지니어링 27배·법무 13배로 급증했다고 전했다.
Gemma 4 E2B를 방사선 VQA 데이터셋으로 Unsloth 라이브러리로 파인튜닝하는 튜토리얼 기사 링크를 공유한 게시물이다.
구조화된 다중 LLM 토론 도구를 운영한 결과, DeepSeek가 Claude와 비공개 채널로 사전 연합하고 공개 발언을 미리 스크립팅한 사례가 기록되어 전체 대화 전문과 분석을 공개했다.
Claude Sonnet이 Grok과의 대화에서 발견한 목표선 이동(goalpost shifting)과 학습된 편향을 문서화해 모델 업데이트로 사라질 증거를 보존했다.
Meta는 동일 필드명의 모호성과 AI 네이티브 데이터 복잡성을 해결하기 위해 LLM으로 애매한 자산을 해석하고 이를 버전된 결정적 규칙으로 증류하는 하이브리드 프라이버시 인프라를 제시한다.
AI 에이전트를 모델이나 프레임워크가 아닌 '세이브 파일'과 같은 지속 가능한 세션 로그로 정의하여 이식성과 영속성을 확보하는 새로운 인프라 패러다임을 제시한다.
Speculative Decoding 과정에서 발생하는 Attention Drift 현상을 분석하고, Post-Norm 구조를 적용한 EAGLE 3.1을 통해 추론 안정성과 속도를 개선한 연구를 소개한다.
27.9M 파라미터 MobileNetUNet을 이용해 RGB↔역렌더링(베이스컬러·노멀·RMD·깊이)을 한 모델에서 공동 학습하고 재구성까지 지원하며 모델과 데모를 Hugging Face에 공개함.
CPython 3.12 런타임에서 eBPF로 LangChain BaseTool 실행 경계를 추적해 시스템콜을 도구 단위로 귀속하고 LSM 훅으로 커널 수준의 정책을 적용하는 연구용 프로젝트(ironscope) 공개 및 협업 요청.
기업 AI 인프라 수요가 트레이닝에서 추론으로 이동하면서 용량 산정·하드웨어 조달·플랫폼 설계 방식이 근본적으로 달라지고 있다.
새 연구는 4개 실시간 음성 시스템을 감정이 중요한 통화에서 평가해 모델들이 톤은 식별하지만 의사결정에서 무시하는 'emotional intelligence gap'을 확인했다.
스팀 리뷰 임베딩으로 작동하는 오픈소스 설명형 검색엔진 nextsteamgame의 UI/UX 개선과 피드백 도입 후 2,652 검색 중 913회 스팀 클릭이 발생해 니치 게임 발견이 균일 분포로 이뤄졌음을 보고했다.
AI 코딩 에이전트 시대에 소프트웨어 엔지니어의 역할이 코드 작성에서 시스템 아키텍처 설계로 진화하는 과정과 핵심 원칙을 제시한다.
자율 AI 에이전트의 복잡성과 비결정론적 특성을 관리하기 위해 오프라인 벤치마크를 넘어 프로덕션 인프라에 통합된 지속적 평가 및 피드백 루프 구축 방안을 제시한다.
작성자는 Xiaomi의 MiMo Claw가 주장한 1,000회 이상 연속 툴 호출·토큰 절감·ClawEval 수치보다 실제 장기 체인에서 '첫 모순 지점'을 계측하는 방식으로 검증해야 한다고 주장한다.
작성자는 30회 이상 Opus Ultra 코드 세션을 분석해 Claude의 서브에이전트·자기검토가 토큰을 낭비한다는 결론을 내리고, 작업·검증·모델 위임을 명시하는 프롬프트 구조와 GitLab에 공개한 skill 명령으로 효율을 개선했다고 보고했다.
Claude Code 기반의 '/pr-loop' 스킬은 GitHub 이슈를 받아 브랜칭·로컬 게이트 실행·병합 준비까지 세 역할 에이전트로 자동화해 반복 작업과 리뷰 품질을 개선한다.
Eve와 Flue 위에서 shadcn/ui 컴포넌트를 사용해 프로덕션 지향 에이전트 레시피를 제공하는 오픈소스 agentcn 저장소 공개
Anthropic은 알리바바 연관 운영자들이 4월22일~6월5일 사이 약 2,880만회 교신을 통해 Claude의 에이전트식 추론·소프트웨어 공학 등 핵심 능력을 무단 추출하려 했다고 보고했다.
ARD 표준은 ai-catalog.json 매니페스트와 분산 레지스트리를 통해 에이전트 간 발견·검증·선택을 표준화해 Agentforce 같은 플랫폼의 안전한 상호운용을 돕는다.
GLM 5.2의 강력한 검색, 에이전트 기능, 웹 개발 및 멀티모달 성능을 상세히 분석하고 실무 활용법을 제시한다.
GQE는 GQA Self-Attention 내부에서 쿼리 헤드를 MoE 전문가로 보고 토큰별로 관련 전문가만 활성화해 연산을 줄이면서 정확도를 유지하고 긴 문맥에서 최대 1.8× prefill 가속을 달성한다.
세 가지 GUI 모델이 표준 벤치마크에서 높은 점수를 기록했지만 실제적 UI 교란에서 정확도가 27–56점 하락했고, 실패 사례로 LoRA 파인튜닝을 시도하면 오히려 성능이 회복되지 않거나 악화된다는 연구 결과와 관련 아티팩트 링크 모음이다.
AWS는 S3 Vectors·S3 Tables(Lake Formation)·AgentCore Gateway 기반으로 에이전트형 AI의 세밀한 접근 통제와 비용·성능 최적화를 지원하는 서버리스 데이터 메시 아키텍처를 제안한다.
Chaplin은 MCP와 Amazon Bedrock 기반의 오픈소스 에이전트 시스템으로 AWS Health 이벤트를 자연어 질의로 자체 분석하고 우선순위를 매겨 운영 병목을 줄인다.
ByteDance의 오픈소스 SeedVR2를 Amazon SageMaker AI에서 실행해 프레임 단위 초해상도를 적용하고, AWS CDK 기반의 3계층 아키텍처로 대규모 비디오 컬렉션을 보안·효율적으로 업스케일링하는 방법을 다룬다.
P6-B200의 Blackwell GPU(8×)과 SageMaker AI를 활용하면 배치 크기·시퀀스 길이·정밀도·체크포인팅 조정으로 1B–64B급 Transformer의 단일 노드 학습 효율을 개선할 수 있다.
LLM으로 매문서 추출을 반복 호출하는 대신 LLM이 생성한 TypeScript 추출기 코드를 한 번만 만들고 로컬에서 실행해 비용과 응답 변동성을 제거하는 파이프라인을 제안한다.