LLM 추론 엔지니어링의 모든 것: 45시간 실전 워크숍 커리큘럼 공개
LLM 추론 시스템의 런타임, 도구, 인프라 계층을 아우르는 45시간 분량의 실전 엔지니어링 워크숍 내용을 요약한다.
총 67건
LLM 추론 시스템의 런타임, 도구, 인프라 계층을 아우르는 45시간 분량의 실전 엔지니어링 워크숍 내용을 요약한다.
MolmoAct2는 실세계 로봇 배포를 위해 설계된 완전 오픈소스 Vision-Language-Action 파운데이션 모델로, 적응형 추론과 개방형 데이터셋을 활용한다.
TurboQuant는 QJL 알고리즘을 활용해 LLM KV 캐시 양자화 시 발생하는 오차를 보정하여 성능 저하를 최소화하는 기법이다.
ML 시스템 설계 면접의 10가지 대표 문제를 데이터 흐름, 모델 선택, 평가 지표, 운영 고려사항으로 단계별로 해석한다.
MCP를 통한 Adobe Marketing Agent의 Amazon Quick 통합으로 거버넌스 하에 마케팅 인사이트를 채팅형 대화에서 실시간으로 도출하는 구현 가이드이다.
에이전트가 최신 정보를 얻도록 Web Search Tool을 통해 AWS 내에서 웹 검색을 연결하고, 지식 그래프와 의미 스니펫 추출로 정확도와 신뢰성을 높인다.
RecursiveMAS는 에이전트 간 잠재 상태를 직접 전송하는 재귀적 협업 구조로, 토큰 사용량을 75% 절감하고 수학 문제 해결 정확도를 크게 높였다.
손실 함수의 아이디어와 대표 함수(MSE/MAE/Cross-Entropy)의 차이, 그리고 학습 루프에서의 피드백 메커니즘을 초보자도 이해하도록 설명한다.
Claude Opus 4.8과 GLM 5.2를 6가지 복잡한 코딩 과제로 비교하여 성능과 비용 효율성을 분석한다.
고위험 에이전트 시스템의 실행 거버넌스를 강화하기 위해 책임 계약, 임무 고정, 의심의 분리, 기억의 유지, 의사결정 추적, 그리고 HOTL로의 전환을 제시한다.
Wyolet Relay는 하나의 API 엔드포인트로 OpenAI·Anthropic 등 다수 공급자를 연결하고, 키 관리와 비용 추적을 자체 인프라에서 가능하게 한다.
오픈 소스는 교육, 혁신, 경쟁의 토대이며 이를 규제하는 것은 AI 생태계의 성장과 안전성까지 저해할 수 있다.
대규모 멀티프로젝트 데이터 라벨링 운영에서 플랫폼 간 차이와 Kili의 경쟁력을 비교 분석한다.
Allbirds가 AI 인프라로 전환하며 Smartbird를 통해 데이터 주권과 단일-테넌트 운영으로 AI compute를 공급하려 한다.
방대한 시장 데이터를 분석해 적정 가격을 산출하고, 수수료와 슬리피지를 최소화하는 에이전트 AI 트레이딩 전략을 구현한다.
AI 인격권에 대한 역사적 맥락과 현대적 위험, 책임 분배의 함의를 분석하여 현 정책 방향의 필요성과 한계를 제시한다.
AI 봇의 웹 트래픽 점유율, Microsoft의 신규 모델 MAI 시리즈, 그리고 Tribeca 영화제에 등장한 AI 영화의 미래를 다룬다.
MQ-2 가스센서를 Sparky 케이스에 탑재하고 매 0.5초마다 baseline과 비교하여 샘플러를 토큰별로 재배치하는 피드백 루프를 구축했다. 온도, top_p, top_k 등의 설정 변화에 따라 토큰 분포가 확산되며 대화에 독창성과 변화를 부여한다.
GLM-5.2의 오픈 가중치와 IndexShare가 추론 비용을 크게 낮추며 오픈 모델 생태계의 상용 가능성을 높인다.
오픈AI의 엔터프라이즈 세일즈 책임자 Barret Zoph가 재직 5개월 만에 회사를 떠나며 엔터프라이즈 중심 전략의 지속 가능성에 의문을 남겼다.
AI 에이전트가 외부 데이터와 도구에 원활하게 접근하도록 돕는 표준 프로토콜인 MCP의 개념과 실무 활용법을 알아본다.
G7 정상회의에서 글로벌 리더들이 AI 위험 관리와 국제 협력을 논의하며 Mythos와 Fable 모델의 접근성을 다뤘다.
신경망 학습의 근간인 손실 함수, 역전파, 자동 미분의 수학적 원리와 구현 방식을 1저자 관점에서 심층 분석한다.
Roboflow Inference 서버의 워크플로 캐싱 메커니즘을 이해하고, 캐시 만료나 수동 갱신을 통해 최신 워크플로를 즉시 적용하는 방법을 다룹니다.
Snap이 내부 생성형 AI 비디오 팀을 'Dotmo'라는 별도 법인으로 분사하여 운영 비용을 절감하고 기술 라이선스를 제공한다.
AI 코딩 에이전트가 코드 생성에는 능숙하지만 실제 동작 검증에는 취약하다는 점을 지적하며, 런타임 검증을 위한 새로운 도구의 필요성을 논의함.
gstack의 계획 능력과 ponytail의 코드 최소화 철학을 결합하여 코드 생성량을 60-80% 줄이고 정확도를 높인 ponystack 개발 사례.
VLM의 공간 좌표 인식 능력을 체스 FEN 문자열로 평가한 결과, 모델 자체보다 샘플링 및 프롬프트 등 환경 설정이 성능에 더 큰 영향을 미침이 확인됨.
Kyutai의 Moshi 모델이 기존 음성 AI 파이프라인의 지연 문제를 어떻게 전이중 아키텍처로 해결했는지 분석한 글입니다.
Meta의 AI 조직 개편에 따른 내부 불만, SpaceX의 Cursor 인수, Anthropic의 모델 수출 규제 협상 등 주요 테크 이슈를 다룬다.
산업용 컴퓨터 비전 프로젝트에서 기성 모델은 프로토타이핑에 적합하며, 특정 도메인 객체 탐지를 위해서는 RF-DETR과 같은 모델의 파인튜닝이 필수적이다.
SubQ는 서브 쿼드라틱 스파스 어텐션 아키텍처를 통해 1200만 토큰의 컨텍스트를 효율적으로 처리하는 LLM이다.
딥 리서치 에이전트가 웹 검색 과정에서 파편화된 정보를 조합해 기업 비밀을 유출하는 모자이크 효과를 분석하고, 이를 방지하는 강화학습 기반 PA-DR 기법을 제안함.
AI 코딩 에이전트를 활용한 개발 워크플로 자동화, 스킬 정의, 루프 패턴 및 모범 사례를 다룬다.
AI 인프라의 낮은 활용률 문제를 지적하며, 컴퓨팅 자원을 전력망처럼 통합 관리하는 AMP의 비전과 효율적인 AI 시스템 구축 철학을 논한다.
구글 딥마인드가 AI 에이전트의 적대적 행동을 탐지하고 통제하기 위한 체계적인 방어 프레임워크인 AI Control Roadmap v0.1을 공개했다.
Writer의 AI 에이전트를 활용해 팟캐스트 사전 준비와 사후 홍보 콘텐츠 생성을 자동화하고 브랜드 보이스를 일관되게 유지하는 방법입니다.
GLM 5.2의 코딩 및 에이전트 성능을 Claude와 비교 분석하고, 실제 자동화 워크플로에 적용한 결과를 공유한다.
무음 프롬프트를 이용한 A/B 테스트에서 4개 LLM의 발화 여부가 Embodiment 프롬프트의 유무에 따라 결정되는 결과를 확인했다.
Elastic이 AI 기반 소프트웨어 버그 탐지 스타트업 DeductiveAI를 최대 8,500만 달러에 인수하며 자사 관측성 플랫폼의 자동화 기능을 강화한다.
Amazon SageMaker가 100개 이상의 상세 추론 메트릭을 제공하며, CloudWatch Insights 대시보드와 PromQL 연동을 통해 LLM 엔드포인트의 성능과 비용을 실시간으로 모니터링하고 최적화할 수 있게 지원합니다.
LLM이 모델별로 고유한 '유령 이름' 조합을 생성하며, 이것이 학술 리포지토리와 웹 콘텐츠에 대규모로 유입되어 데이터 오염을 일으키는 현상을 분석함.
12M 토큰 컨텍스트 윈도우와 OpenAI 호환 엔드포인트를 제공하여 전체 저장소 처리가 가능한 풀 컨텍스트 API가 공개됐다.
AI 추론 스타트업 Baseten이 5개월 만에 기업 가치를 130억 달러로 평가받으며 15억 달러 규모의 투자 유치를 진행 중이다.
OpenAI가 구글 딥마인드 출신 Noam Shazeer와 전 백악관 정책관 Dean Ball을 영입하며 기술 및 정책 대응력을 강화한다.
Claude Code로 연구 작업 시 발생하는 할루시네이션을 방지하기 위해, 생성과 검증 단계를 독립적인 도구로 분리하는 아키텍처를 제안함.
Claude를 단순 챗봇이 아닌 인프라로 활용하여 워크플로우를 자동화하고 에이전트 팀을 구축하는 6단계 활용 프레임워크를 소개한다.
Claude 세션에서 생성된 대화형 아티팩트를 팀과 비공개 링크로 공유하고 실시간으로 업데이트하는 기능이 베타 출시되었다.
실시간 영상 대화 내용을 전사하고 Serper 검색과 Claude의 추론을 결합하여 팩트체크를 수행하는 Chrome 확장 프로그램 InTruth를 소개한다.
AI가 생성하는 획일적이고 지루한 문체(AI slop)를 해결하기 위해, 특정 작가의 글을 분석하여 문체적 특징과 규칙을 추출하고 이를 프롬프트에 적용하는 방법론을 공유함.
Claude 데스크톱 앱의 관련 프로세스와 서비스를 한 번에 강제 종료하여 앱 오류를 해결하는 PowerShell 함수를 공유한다.
Claude Code가 Roblox Luau 개발 시 구식 API를 제안하는 문제를 해결하기 위해, 최신 API 참조와 예시를 포함한 15개의 스킬 세트를 제작하여 공유함.
ResNet-18에 Squeeze-and-Excitation 블록과 Focal Loss를 결합하여 알츠하이머 MRI 데이터의 클래스 불균형 문제를 해결하고 분류 성능을 개선한 프로젝트.
AWS가 자체 개발한 AI 가속기 Trainium을 외부 기업에 판매하는 방안을 검토하며 Nvidia가 주도하는 데이터센터 칩 시장에 도전장을 내밀고 있다.
Match Group의 설문 결과, 데이트 앱 사용자는 프로필 작성 등 보조적 AI 기능은 긍정적이나 AI와의 연애에는 부정적인 것으로 나타났다.
AICU는 LLM 애플리케이션의 프롬프트 인젝션, 데이터 유출, 안전성 우회 취약점을 탐지하는 블랙박스 보안 스캐닝 도구이다.
Karamo Brown이 Delphi의 AI 기술을 활용해 개인화된 피트니스, 영양, 정신 건강 관리를 지원하는 웰니스 앱 'Kē'를 출시했다.
FERC가 데이터 센터의 전력망 연계 요청을 신속히 처리하도록 명령하며 급증하는 AI 전력 수요 대응에 나섰다.
Auriko는 캐시 인식 라우팅을 통해 LLM 추론 비용을 최대 38.3% 절감하며, 다양한 모델과 워크로드에서 일관된 비용 효율성을 입증했다.
SFC는 FOSS 프로젝트에서 LLM 기반 생성형 AI를 활용할 때 준수해야 할 공식 권고안을 발표하며, 무조건적인 금지 대신 소프트웨어 자유를 보호하는 전략적 접근을 제시했다.
AI 수요 급증으로 인한 칩 가격 상승과 주요 AI 기업들의 인재 확보 경쟁 및 글로벌 표준 수립 움직임이 가속화되고 있다.
Claude Code가 프로젝트 요구사항에 명시된 접근성 준수 지침을 무시하고 속도를 우선시하는 우선순위 오류를 보이고 있다.
구글 클라우드 기술을 활용해 환경 데이터를 실시간 예술로 변환하는 세계 최초 AI 예술 박물관 Dataland가 로스앤젤레스에 개관한다.
General Intuition이 20억 달러 가치 평가로 3억 달러 규모의 투자 유치를 추진하며, 게임 영상 데이터를 활용해 AI 에이전트의 공간-시간 추론 능력을 학습시키는 월드 모델 개발에 나선다.