HBM과 SRAM 관점으로 본 FlashAttention 연산 흐름
핸드드로잉 다이어그램은 HBM에서 SRAM으로 청크를 스트리밍하며 온라인 소프트맥스 추적으로 FlashAttention 연산을 수행하는 메모리·연산 파이프라인을 보여준다.
총 40건
핸드드로잉 다이어그램은 HBM에서 SRAM으로 청크를 스트리밍하며 온라인 소프트맥스 추적으로 FlashAttention 연산을 수행하는 메모리·연산 파이프라인을 보여준다.
작성자는 7개 AI 모델을 월드컵 베팅 실험에 참여시켜 매 호출과 토큰·비용·추론 흔적을 기록해 모델별 의사결정과 비용효율을 비교한다.
Sentient Foundation이 오픈 소스 유지관리자와 오픈 구성요소 기반 스타트업을 대상으로 총 4,200만 달러 규모의 보조금 및 투자 프로그램을 운영하며 신청 링크와 참여 조건을 공개했다.
OpenAI가 Broadcom과 공동 설계한 AI 추론 ASIC 'Jalapeño'를 공개하고 2026년 말까지 서버 배치를 목표로 삼았다.
Setlur et al의 이론과 Apodex의 실무 사례는 테스트 시 검증자에 계산을 할당하는 구조가 동일 예산에서 성능을 크게 끌어올린다는 점을 시사한다.
데이터 라벨링은 원시 데이터 노출의 최대 지점이며, 배포 모드·인증·프로젝트 수준 접근 제어·라벨 단위 감사 로그가 규제 준수와 모델 신뢰도를 결정한다.
Clay의 Head of AI가 월 3억 5천만 개의 GTM 에이전트를 운영하며 해결한 인프라, 비용, 품질 최적화 전략을 공유한다.
Claude Code의 조기 실행·미검증 문제를 막기 위해 Receive→Understand→Decompose→Plan→Align→Execute→Verify→Goal Check의 엔지니어링 루프를 강제하는 CLAUDE.md 템플릿을 GitHub에 공개했다.
GGUF 양자화와 MoE/블록-디퓨전 등 구조적 최적화를 통해 16GB 수준의 개인 GPU에서도 실무용 코딩 모델 운용이 가능해졌고, 모델별로 범용성·멀티모달·속도 측면에서 선택 기준이 달라진다.
AI 기반 운영체제와 에이전트 ID 도입이 사회 공학적 해킹과 피싱 공격을 방어하는 새로운 보안 패러다임으로 주목받고 있다.
Anthropic이 Slack 워크스페이스 내부에서 채널·도구·코드베이스 접근을 받아 비동기적·지속적으로 작업을 위임·관리하는 Claude Tag를 베타로 공개했다.
자율주행에서 시맨틱 세그멘테이션은 이미지와 포인트클라우드의 모든 픽셀·포인트에 클래스 레이블을 부여해 주행 가능한 영역·차선·배경 문맥을 정확히 파악하도록 돕는다.
연속 업데이트되는 2000장 이상 분량의 딥러닝·확률모델 강의 노트와 데모 코드를 깃허브에 모아 공개한 자료 안내이다.
Qdrant의 CEO가 오픈소스 벡터 데이터베이스의 기원과 기술적 철학, 그리고 에이전트 시대를 대비한 아키텍처 최적화 과정을 공유한다.
AI 에이전트의 지속적 학습을 위해 모델 재학습 대신 메모리 계층과 벡터 데이터베이스를 활용한 상태 관리 전략을 제시한다.
DeepSWE는 데이터 오염 제거·91개 저장소 기반 다양성·실무 수준 복잡도(코드 5.5배, 출력 토큰 약 2배)·동작 기반 수작업 검증기를 통해 코딩 에이전트 성능 평가 신뢰도를 높인다.
DataRobot이 Agentic Resource Discovery(ARD)를 지원해 .well-known/ai-catalog.json으로 Agent Skills와 MCP 서버를 공개함으로써 에이전트와 레지스트리의 표준화된 동적 검색을 가능하게 했다.
프롬프트에 들어있던 출력 예시와 post-training된 언어적 priors가 결합해 Inter-1이 무음 비디오에서 특정 문장을 반복 발화한 사례와 실험 결과를 공유한다.
챗봇이 생성한 허구적 판례 인용을 변호사가 검증 없이 제출해 징계가 발생하며, 작성자와 분리된 독립 검증만이 이를 확실히 잡아낸다는 결론이 제시된다.
Microsoft는 설계 기반의 저수·무수 냉각 기술과 운영 최적화, 재사용수 확대 및 지역 투자로 데이터센터 물 사용 강도를 크게 낮추고 FY25에 전 세계적으로 순수 보전 성과를 실현했다.
과거 트레이스 기반 입력 시뮬레이션과 헤드리스 에이전트 실행으로 오프라인에서 변경 전후를 비교해 조용한 회귀를 사전에 탐지하는 실무 프로세스이다.
작성자는 Swokei로 잠재 고객을 자동 발굴하고 Claude로 2시간 만에 사이트를 제작해 선불 4,700달러를 받았다.
정적 설정 파일인 SKILLS.md의 한계를 분석하고, Gemini와 MCP를 활용해 에이전트가 워크플로우를 관찰하고 스스로 스킬을 생성하는 동적 자동화 방안을 제시한다.
HubSpot이 Helm의 한계를 극복하고 Kubernetes Operator를 도입하여 대규모 벡터 검색 인프라의 운영 효율과 비용을 최적화한 사례.
Oncotelic Therapeutics가 Qdrant 벡터 데이터베이스를 활용해 2,800만 개의 PubMed 초록을 인덱싱하고 신약 개발 파이프라인을 획기적으로 단축한 사례.
RAG 시스템의 검색 성능을 측정하기 위한 핵심 지표와 LLM-as-a-judge를 활용한 평가 자동화 전략을 다룬다.
Qdrant Edge는 애플리케이션 내부에 직접 임베드되어 네트워크 의존성 없이 실시간 로컬 벡터 검색을 가능하게 하는 새로운 배포 모델이다.
온디바이스 AI의 이점과 NPU 기반의 효율적인 에이전트 배포를 위한 Qualcomm AI Hub 활용 방안을 다룬다.
오픈소스 에이전트 프레임워크인 Strands Agents를 사용하여 자연어 명령으로 로봇을 제어하고, 엣지-클라우드 하이브리드 아키텍처로 지능형 로봇을 구축하는 방법.
IONS는 증거 기반의 Cognitive Building Blocks 그래프로 지식과 추론을 명시적으로 저장해 답변과 근거 경로, 신뢰도 정보를 반환하는 오픈소스 메모리·추론 시스템이다.