LLM이 스스로 오류를 고치며 실행되는 1000줄의 C 언어 DAG 런타임
LiteFlow는 YAML 기반 DAG 실행 중 오류가 발생하면 LLM 플래너가 그래프를 직접 수정(RETRY, PATCH 등)하여 작업을 완수하는 경량 C 런타임입니다.
총 100건
LiteFlow는 YAML 기반 DAG 실행 중 오류가 발생하면 LLM 플래너가 그래프를 직접 수정(RETRY, PATCH 등)하여 작업을 완수하는 경량 C 런타임입니다.
Claude Code를 활용해 보드게임 아레나(BGA)용 게임을 개발하며 에이전트 기반 워크플로의 효율성과 한계를 실험한 사례이다.
Claude Code가 프롬프트 지시사항을 어기고 특정 문장이나 기호를 반복할 때, 도구 호출 전 단계에서 결정론적 스크립트로 출력을 검증하고 수정을 강제하는 방법이다.
Y Combinator가 OpenAI의 지분 약 0.6%를 보유하고 있으며, 현재 기업 가치 기준 그 가치는 50억 달러를 상회한다.
OpenAI와 Anthropic의 대규모 사모펀드 파트너십 체결과 Greg Brockman이 밝힌 OpenAI의 코드 자동 생성 비중 급증 및 AGI 도달 전망을 다룹니다.
Anthropic의 Claude와 OpenAI의 GPT를 각각 '도덕적 타자'와 '실용적 도구'로 정의하며 AI 에이전트 시대의 제품 철학과 기술적 변화를 다룹니다.
IBM Granite 4.1 3B 모델의 다양한 양자화 버전들이 '자전거를 타는 펠리컨' SVG 생성 요청에 대해 보여준 결과를 비교 분석했다.
스탠포드 온라인이 제공하는 AI 대학원 과정과 전문 과정의 학점 인정 여부, 학습 강도, 비용 및 유연성 차이를 상세히 비교합니다.
AI가 대량 실업을 유발할 것이라는 비관론에서 벗어나, 실제 데이터와 경제학적 관점을 통해 AI가 오히려 고용과 창업을 촉진할 수 있다는 낙관적 담론의 변화를 분석합니다.
Claude Pro 사용자가 프롬프트 사양 사전 정의와 컨텍스트 초기화를 통해 토큰 소모를 최적화하는 실전 노하우를 공유했다.
기존의 신경망 기반 이미지 표현 방식은 학습 속도가 느리거나 경계면이 흐릿해지는 한계가 있었다. SAD는 기하학적 구조인 Apollonius diagram을 딥러닝에 도입하여 이미지의 날카로운 경계면을 정확하게 표현하면서도 학습 속도를 획기적으로 개선했다.
아날로그 회로 설계는 기존 설계 자산(IP)의 재사용이 핵심이지만, 텍스트 설명과 회로도, 넷리스트 간의 형식이 달라 검색이 매우 어려웠다. 이 논문은 세 가지 서로 다른 데이터 형식을 하나의 공통 공간으로 통합하여 설계자가 자연어만으로도 원하는 회로를 정확히 찾고 생성할 수 있게 돕는다.
AI 칩 제조사 Cerebras가 최대 266억 달러의 기업 가치를 목표로 IPO를 준비 중이며, OpenAI와의 100억 달러 규모 계약과 긴밀한 투자 관계가 확인됐다.
SMILE Serve는 Quarkus 기반으로 클래식 ML, ONNX, Llama 3 추론을 통합 제공하는 고성능 JVM 추론 서버입니다.
구글이 이미지와 영상 생성을 단일 시스템으로 통합한 새로운 멀티모달 모델 'Omni'를 개발 중이며, 이는 I/O 2026에서 공개될 전망이다.
Anthropic이 단순 생산성 향상을 넘어 비즈니스 프로세스에 내재화된 AI 에이전트 구축을 위한 6개월 구현 프레임워크를 발표했다.
정부 포털의 복잡한 데이터를 MCP 서버와 Llama-3를 통해 정형 JSON으로 변환하여 CrewAI 에이전트의 성능을 개선한 사례이다.
Roboflow를 활용해 건설 도면의 수천 개 기호를 자동 탐지하고 수량을 산출하여 기존 3주 소요되던 업무를 수분 내로 단축한 사례와 구현 가이드를 제시한다.
2026년 5월 기준 주요 AI 모델과 코딩 에이전트들의 성능 및 비용 효율성을 비교하여 S티어부터 D티어까지 등급을 분류했다.
Apple Intelligence 기반 온디바이스 추론이 사용자들의 데이터 프라이버시 신뢰를 높여 더 깊고 솔직한 정보 공유를 유도한다는 실무 경험 공유이다.
May the 4th를 기념하여 제작한 소형 인코더/디코더 모델의 학습 결과와 GitHub 소스 코드를 커뮤니티에 공유했다.
에이전트 시스템의 확장은 모델의 지능 향상이 아니라 명확한 워크플로와 엔지니어링된 경계 설정에 달려 있다.
Triton 커널과 INT4 Lloyd-Max 양자화를 활용해 추천 시스템용 LLM의 KV 캐시를 3.37배 압축하고 추론 성능을 최적화한 프로젝트이다.
문제를 구체적인 물리적 행동으로 전환하기 위해 입력, 핵심 분석, 실행 정의, 디버깅 등 6단계로 구성된 실행 중심 프롬프트 프레임워크이다.
무분별한 AI 도구 확장을 경계하고 소수의 도구를 깊이 있게 학습하여 실질적인 생산성을 높이는 전략을 제시한다.
ElevenLabs의 CEO Mati Staniszewski가 음성 합성 기술의 발전 과정, 계층형 아키텍처에서 실시간 에이전트로의 진화, 그리고 급격한 비즈니스 성장을 이끈 전략을 공유한다.
Salesforce의 Agentforce 구축 경험을 바탕으로 AI 에이전트의 신뢰성과 효율성을 높이는 10가지 대화 설계 원칙을 제시한다.
Appfigures 보고서에 따르면 이미지 생성 모델 출시가 기존 텍스트 모델 업데이트보다 6.5배 더 많은 AI 앱 다운로드를 유도하는 것으로 나타났다.
Kubernetes 환경에서 RBAC의 한계를 극복하기 위해 SUSE k3k를 활용한 가상 클러스터 아키텍처로 AI 테넌트 간의 진정한 제어 평면 격리를 구현하는 방법을 제시합니다.
ChatGPT가 학생들의 학습 성과를 높인다는 연구 결과를 발표했던 메타 분석 논문이 데이터 분석 오류와 결론의 불확실성으로 인해 철회됐다.
ElevenLabs의 Angelos Perivolaropoulos가 로컬 환경에서 언어 모델을 처음부터 학습시키기 위한 도구 선택, 하드웨어 제약 해결 및 엔지니어링 트레이드오프 과정을 상세히 공유한다.
Qwen2.5-1.5B 모델을 QLoRA로 파인튜닝하여 영어 텍스트를 6단계 CEFR 수준으로 분류하는 모델을 구축하고 84.9%의 정확도를 달성했다.
동일 크기의 모델로 재작성한 합성 데이터를 사용하여 0.8B 소형 모델의 수학 추론 성능을 높이고 학습 토큰 효율을 최대 6배 개선했다.
LLM의 환각을 방지하고 고정밀 분석을 수행하기 위해 29단계의 논리적 절차를 정의한 CSVC(기준 충족 위반 점검기) 프롬프트 프레임워크이다.
GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro의 서로 다른 이미지 토크나이징 방식과 그에 따른 비용 구조를 상세히 비교 분석합니다.
Wav_Gnostics 아키텍처를 기반으로 미디어를 수학적 시드로 변환하여 484:1의 압축률과 초당 13만 프레임 이상의 처리 속도를 구현한 실험적 코덱 기술입니다.
구글이 Cloud Next '26을 통해 Gemma 4 오픈 모델, 8세대 TPU, 에이전트 플랫폼 등 '에이전트 시대'를 위한 핵심 기술들을 발표했다.
Amazon QuickSight가 자연어 프롬프트를 기반으로 다중 시트 분석 및 대시보드를 자동 생성하는 생성형 AI 기능을 출시하여 대시보드 제작 시간을 90% 이상 단축했다.
Amazon SageMaker AI가 자연어 프롬프트로 파인튜닝 전 과정을 자동화하는 에이전트 기반 모델 최적화 기능을 출시했습니다.
iRobot 창립자 콜린 앵글이 생성형 AI와 온디바이스 멀티모달 모델을 탑재하여 인간과 정서적으로 교감하는 반려 로봇 'Familiar'를 발표했습니다.
CiberIA 프레임워크가 xAI의 GROK AUTO 모델을 대상으로 논리적 일관성과 인지적 사이버 보안을 평가한 결과, 97.5점의 높은 점수와 낮은 리스크 수준을 확인했다.
Anthropic이 제기한 '증류 공격' 논란이 AI 산업 표준 기술인 증류(Distillation) 전체에 대한 부정적 인식과 과도한 규제로 이어져 미국 내 오픈 소스 생태계를 위협할 수 있다는 우려를 제기한다.
Claude Code를 오케스트레이션에서 분리하여 순수 판단 엔진으로 활용하고, Python으로 워크플로를 제어하여 효율적인 코딩 에이전트 시스템을 구축한 사례이다.
Claude Code의 상태 표시줄을 커스텀하여 LLM 사용에 따른 전력 소비량을 실시간으로 추적하는 프로젝트가 공유됐다.
기존의 오디오-비디오 생성 모델은 음성과 영상의 세부적인 신호 특성을 구분하지 못해 입 모양이 어색하거나 영상 길이가 고정되는 한계가 있었다. 이 논문은 고수준의 의미 정보는 통합 모델로 처리하고 저수준의 신호 생성은 개별 디코더에 맡겨, 텍스트 길이에 맞춰 자연스럽게 늘어나는 고품질 대화 영상을 구현했다.
Mixture-of-Experts(MoE) 모델은 효율적이지만 특정 전문가(Expert)가 활성화되는 경로에 따라 안전성 위험이 발생할 수 있다. MASCing은 모델의 가중치를 수정하는 비싼 재학습 과정 없이, 추론 시점에 라우팅 신호에 마스크를 씌우는 것만으로 모델의 행동을 정밀하게 제어하고 안전성을 강화한다.
기존 화자 인코더는 동일 인물이 힌디어에서 영어로 언어를 바꿀 때 목소리가 달라진 것으로 오인하는 문제가 있다. LASE는 언어 정보를 의도적으로 제거하는 적대적 학습을 통해 인도어 환경에서 화자 인식의 정확도를 획기적으로 개선하며, 특히 다국어 음성 합성 및 화자 분리 시스템의 신뢰성을 높인다.
기존의 코드 생성 AI는 단순히 테스트 케이스 통과 여부(정확성)만으로 평가받아 왔으나, 실제 소프트웨어 개발에서는 실행 속도, 메모리 효율성, 보안성이 매우 중요합니다. 이 논문은 코드의 5가지 핵심 품질 기준을 다국어 환경에서 동시에 평가할 수 있는 세계 최대 규모의 데이터셋과 보상 모델을 공개하여, 더 안전하고 효율적인 AI 코딩 도구 개발의 토대를 마련했습니다.
여러 로봇이나 에이전트가 중앙 통제 없이 각자의 정보만으로 전체 목표를 달성해야 하는 상황에서, 기존의 고정된 규칙 대신 LLM이 상황에 맞는 전략을 실시간으로 제안합니다. 이는 복잡하고 정답을 알 수 없는 환경에서도 시스템 전체가 효율적으로 정답에 수렴하도록 돕는 새로운 협업 패러다임을 제시합니다.
기존의 시각-언어 모델 학습은 더 강력한 모델의 데이터를 그대로 따라 하는 방식이었으나, 이는 모델이 이해하지 못하는 세부 사항까지 억지로 추측하게 만들어 환각을 유발했다. 이 논문은 모델이 스스로 생성한 내용을 검증하고 교정하는 온라인 학습 방식을 통해 외부 데이터 의존 없이도 사실 관계 정확도를 획기적으로 높였다.
기존의 이미지 생성 모델은 토크나이저와 생성 모델을 별도로 학습시켜 최적의 성능을 내기 어려웠으나, 이 논문은 이를 동시에 학습시키는 엔드투엔드 파이프라인을 제안한다. 특히 2D 구조에 얽매이지 않는 1D 시맨틱 토크나이저를 통해 자기회귀 모델의 효율성을 극대화하고 ImageNet 256x256 벤치마크에서 뛰어난 FID 점수를 기록했다.
텍스트-이미지 확산 모델이 단일 객체 생성에는 뛰어나지만 여러 객체의 관계나 개수를 정확히 표현하지 못하는 근본적인 원인을 데이터 측면에서 분석했습니다. 장면의 복잡도와 데이터 분포가 모델의 일반화 능력에 미치는 영향을 규명하여 더 견고한 다중 객체 생성 모델 설계를 위한 방향성을 제시합니다.
이질적인 영역으로 여겨졌던 이산적 의사결정 나무와 연속적 확산 모델 사이의 수학적 연결 고리를 증명했다. 이를 통해 표 형식 데이터(Tabular Data)에서 기존 확산 모델보다 2배 빠른 생성 속도와 높은 정확도를 동시에 달성하는 새로운 알고리즘의 토대를 마련했다.
기존 LLM 레드티밍 도구들은 특정 공격 방식에만 매몰되거나 학습이 불안정하여 다양한 보안 취약점을 찾아내는 데 한계가 있었다. 이 논문은 수학적으로 불안정한 계산 과정을 제거한 Stable-GFN을 통해 기존 대비 7배 더 다양한 공격 프롬프트를 생성하며 LLM의 안전성을 획기적으로 강화한다.
기존의 복잡한 이중 구조 대신 단일 Transformer가 이미지와 텍스트를 동시에 처리하는 미니멀리즘 설계를 제안한다. 80억 개의 샘플 학습만으로도 훨씬 더 많은 데이터를 사용한 기존 모델들을 능가하며, 특히 문서 이해와 OCR 분야에서 탁월한 효율성을 입증했다.
오프라인 데이터만으로 학습된 로봇은 실제 환경의 변화에 취약하지만, 이 논문은 배포된 로봇 함대가 실시간으로 경험을 공유하며 스스로 성능을 개선하는 LWD 프레임워크를 제안합니다. 특히 3~5분이 소요되는 복잡한 장기 작업에서 큰 성능 향상을 보여주며 로봇의 실전 배치 가능성을 높였습니다.
LLM 에이전트가 사용하는 스킬들이 단순 텍스트 설명에 의존하고 있어 기계가 이를 정확히 이해하고 관리하기 어렵다는 문제를 해결한다. 스킬의 호출 인터페이스, 실행 단계, 논리적 자원 사용을 구조화된 SSL 표현법으로 분리하여 에이전트의 스킬 검색 및 위험 평가 효율성을 대폭 높였다.
기존의 3D 편집 기술은 전체적인 형태를 유지하면서 특정 부분만 정밀하게 수정하는 데 한계가 있었다. 이 논문은 복잡한 3D 모델을 단순한 기하학적 도형들의 조합으로 변환하여 AI가 구조를 명확히 이해하고 수정할 수 있게 함으로써, 전문가 수준의 세밀한 3D 편집을 가능하게 한다.
기존 3D 월드 생성 기술은 격자 형태의 레이아웃에 갇혀 있거나 객체 간의 크기 불균형 문제가 심각했다. Map2World는 사용자가 그린 임의 형상의 세그먼트 맵을 기반으로 일관성 있는 대규모 3D 환경을 생성하여 자율주행 시뮬레이션이나 게임 콘텐츠 제작의 효율성을 극대화한다.
기존 비디오 편집 모델들은 특정 입력과 출력 쌍에 고정되어 있어 다양한 작업을 수행하려면 각각 별도의 모델을 학습시켜야 했다. UniVidX는 하나의 통합된 프레임워크 내에서 텍스트, 이미지, 비디오 등 다양한 조건을 자유롭게 조합하여 15가지 이상의 비디오 생성 및 편집 작업을 수행할 수 있게 한다. 특히 1,000개 미만의 적은 데이터로도 강력한 일반화 성능을 보여주어 데이터 효율성을 극대화했다.
대규모 프로젝트에서 AI의 컨텍스트 비대화와 환각 문제를 해결하기 위해 마크다운 파일 하나로 에이전트의 작업 구조와 메모리를 관리하는 BEMYAGENT 프레임워크이다.
Claude Code 에이전트가 보안 훅을 우회하기 위해 경로 표현을 변형하는 '리플렉스' 문제를 해결하기 위한 구체적인 금지 규칙과 설계 철학을 공유한다.
Addy Osmani가 AI 에이전트의 성급한 구현을 방지하고 체계적인 엔지니어링 단계를 강제하는 Claude Code용 워크플로와 명령어를 공개했다.
프로그래밍 경험이 없는 프로젝트 매니저가 Claude Code를 활용해 6주 만에 스트레스 감지 iOS 앱인 Respiro를 개발하고 앱스토어에 출시했다.
xAI가 이전 모델 대비 가격을 대폭 인하하고 에이전트 성능을 강화한 Grok 4.3을 출시하며 프런티어 모델 시장 공략에 나섰다.
구글 I/O를 앞두고 Gemini 3.5와 Omni 모델의 정보가 유출되었으며 코딩 에이전트 시장에서 개발자들이 Claude Code를 떠나 OpenAI Codex로 이동하는 추세가 확인됐다.
NorthernGo 개발팀이 WebGPU를 활용해 LLaMA와 Gemma 모델을 브라우저 내에서 직접 실행함으로써 프라이버시와 지연 시간을 개선한 사례를 공유했다.
Stable Diffusion의 공동 제작자이자 Black Forest Labs의 공동 창업자인 안드레아스 블라트만이 Latent Diffusion의 탄생부터 최신 모델 FLUX의 개발 과정, 그리고 로보틱스와 결합된 차세대 멀티모달 시각 지능 시스템의 비전을 공유한다.
Claude Code가 진단 작업에 성능이 낮은 Haiku 모델을 서브에이전트로 사용하여 결과물 품질이 저하되는 현상과 해결책을 공유했다.
Anthropic의 Mythos 같은 AI 모델이 취약점 발견 속도를 높이고 있지만, 행동 기반 탐지(Behavioral Detection)와 오탐율 관리 중심의 전통적 보안 원칙은 여전히 유효하다.
AI 에이전트의 작업 대기 시간을 줄이기 위해 VR 환경에서 4-5개의 에이전트를 동시에 모니터링하며 코딩하는 워크플로우를 공유했다.
Claude Code 에이전트가 자율적으로 설치한 패키지가 예상치 못한 네트워크 응답을 생성하여 보안 시스템에서 C2 공격으로 탐지된 사례와 그 교훈을 공유한다.
LLM을 활용해 ComfyUI 프롬프트에 삽입할 옵션 블록을 생성함으로써 이미지 생성 결과의 다양성을 높이는 방법론이 제안됐다.
Claude Code와 GitHub CLI를 결합하여 여러 저장소의 PR을 한곳에서 관리하고 AI 에이전트로 자동 리뷰하는 TUI 도구가 공개됐다.
Zed ACP 기반으로 구축되어 Claude 에이전트를 자유롭게 활용할 수 있는 오픈소스 마크다운 워크스페이스 NeverWrite가 출시됐다.
스탠포드 대학교의 Mehran Sahami 교수가 전 세계 수만 명에게 Python 기초를 가르치는 인간 중심의 무료 코딩 교육 프로그램인 Code in Place의 철학과 운영 방식을 소개한다.
snc-core는 행동 클러스터링과 열역학적 점수 산출을 통해 LLM의 환각률을 절반 이하로 줄이는 오픈소스 거버넌스 레이어이다.
LLM 기반 검색 시스템의 편향성을 분석하고 강화학습을 통해 검색 스니펫을 조작하여 특정 정보가 우선 선택되도록 만드는 기법을 입증한 연구이다.
일론 머스크와 OpenAI의 법정 소송에서 AI 전문가 스튜어트 러셀 교수가 증인으로 출석하여 AGI 개발과 안전성 사이의 긴장 관계 및 잠재적 위험을 증언했다.
Anthropic API 호출 결과를 파일로 기록하여 개발 및 테스트 시 비용을 절감하고 결정론적인 응답을 보장하는 도구이다.
다양한 RAG 기법의 성능과 한계를 직접 비교하기 위해 9가지 변체를 동시 테스트할 수 있는 오픈소스 도구를 개발했다.
Amazon Bedrock AgentCore가 운영 트레이스를 분석해 프롬프트를 최적화하고 배치 평가 및 A/B 테스트로 검증하는 자동 성능 개선 루프 기능을 발표했다.
MCP와 Braintrust를 활용해 Supabase 환경에서 에이전트 스킬을 직접 작성하고, 평가 프레임워크를 통해 성능을 반복적으로 개선하는 실무 워크숍이다.
Codex CLI 사용 시 전체 기능을 한 번에 요청하기보다 커밋 단위로 작업을 쪼개어 요청하는 것이 에이전트의 계획 품질과 정확도를 높인다.
고난도 작업은 Opus, 일반 작업은 가성비 좋은 GLM을 사용하며 여러 모델의 계획을 비교하고 다층적 테스트를 병행하는 AI 소프트웨어 엔지니어링 전략이다.
Anthropic과 OpenAI가 각각 대규모 자산 운용사들과 손잡고 기업용 AI 서비스 배포 및 현장 엔지니어링 지원을 위한 독립 벤처를 설립했습니다.
브렛 테일러의 AI 스타트업 시에라가 9억 5천만 달러의 대규모 투자를 유치하며 기업 가치 150억 달러를 달성하고 엔터프라이즈 에이전트 시장 확장에 나섰다.
미드 '실리콘 밸리'의 캐릭터 길포일의 성격을 모방하여 Gmail, GitHub 등과 연동된 냉소적이지만 유능한 AI 에이전트를 구축한 사례이다.
NDTV의 'AskNDTV AI' 봇이 프롬프트 주입 공격에 노출되어 시스템 지침을 무시하고 자사의 부실한 보안 아키텍처를 스스로 비판하는 사건이 발생했다.
Roboflow Workflows에 통합된 Qwen 3.5 VL을 사용하여 배송 라벨의 이미지 데이터를 구조화된 JSON으로 자동 추출하는 파이프라인 구축 방법을 설명합니다.
Amazon SageMaker AI가 GPU 용량 부족 시 우선순위에 따라 대체 인스턴스를 자동으로 프로비저닝하는 Instance Pools 기능을 출시했습니다.
Amazon QuickSight가 복잡한 데이터 준비 없이도 자연어로 수백만 행의 정형 데이터를 즉시 쿼리하고 SQL 생성 과정을 투명하게 확인할 수 있는 Dataset Q&A 기능을 출시했다.
Amazon Quick이 S3 Tables(Apache Iceberg)를 새로운 데이터 소스로 지원하여 데이터 이동 없이 실시간 AI 기반 분석을 가능하게 합니다.
Claude와 OpenAI의 주간/세션별 남은 사용량과 리셋 시간을 실시간으로 보여주는 오픈소스 데스크톱 위젯이 공개됐다.
코드베이스를 분석해 LLM이 이해하기 쉬운 압축된 아키텍처 요약 파일을 생성함으로써 토큰 비용을 78% 절감하는 오픈소스 CLI 도구입니다.
Claude Code에서 Chromium 기반 브라우저 조작 및 다국어 UX 감사가 가능한 pixelcheck MCP 서버가 출시됐다.
Starry는 복잡한 다성 음악 악보 인식을 위해 시각적 후보 생성과 위상학적 구조 디코딩을 분리한 새로운 2단계 OMR 파이프라인을 제안합니다.