매번 초기화되는 AI의 한계, 경험을 축적하고 스스로 성장하는 에이전트 프레임워크 'GNOSIS'
LLM 가중치를 변경하지 않고 외부 기억과 가치 레이어를 갱신하여 AI 에이전트의 자율적인 성장을 가능하게 하는 프레임워크 GNOSIS를 소개합니다.
총 100건
LLM 가중치를 변경하지 않고 외부 기억과 가치 레이어를 갱신하여 AI 에이전트의 자율적인 성장을 가능하게 하는 프레임워크 GNOSIS를 소개합니다.
Claude Code의 커스텀 스킬을 활용해 PR 리뷰를 자동화하고, 수정된 PR을 분석하여 리뷰 기준을 지속적으로 업데이트하는 피드백 루프를 구축했다.
AI 코딩 에이전트 도입 과정을 9단계 성숙도 모델로 정의하고, 단순 실험을 넘어 신뢰할 수 있는 엔지니어링 시스템으로 발전하는 전략을 제시한다.
cwcode는 터미널에서 실행되는 Go 기반의 코딩 에이전트로, 해시 기반 편집과 프롬프트 캐싱을 통해 비용과 지연 시간을 최적화한다.
Amazon Bedrock의 새로운 InvokeGuardrailChecks API는 에이전트 AI 워크플로의 각 단계에서 리소스 생성 없이 세밀한 안전성 검사를 수행하고 점수 기반의 맞춤형 대응 로직을 구현하게 한다.
NVIDIA와 Coherent가 텍사스 셔먼에 인듐 인화물(InP) 웨이퍼 제조 시설을 확장하여 AI 데이터 센터의 고속 광학 연결성을 강화한다.
미드저니가 6월 17일 오후 6시(태평양 표준시)에 디스코드와 X를 통해 첫 번째 비밀 하드웨어 프로젝트를 공개하는 라이브스트림을 진행한다.
1M 토큰 컨텍스트와 IndexShare 아키텍처를 도입하여 장기 코딩 작업 성능을 극대화한 오픈소스 모델 GLM-5.2의 특징과 벤치마크 결과를 분석한다.
Anyscale on Azure를 통해 애저 환경 내에서 데이터 거버넌스를 유지하며 Ray 기반의 분산 AI 워크로드를 효율적으로 배포하고 운영하는 방법을 소개한다.
Google DeepMind와 영국 정부가 협력하여 주택 건축 허가 신청 처리 시간을 50% 단축하는 AI 계획 도구를 개발하고 있다.
경제학적 모델과 실증 데이터를 통해 AI가 노동 시장의 생산성과 불평등에 미치는 영향을 분석하고 미래를 전망한다.
Intel Foundry가 차세대 공정 Intel 18A-P의 리스크 생산을 시작하며 기존 18A 대비 성능과 전력 효율을 대폭 개선했다.
Amazon SageMaker AI가 컨테이너 이미지 캐싱 기능을 도입하여 새로운 인스턴스 시작 시 이미지 다운로드 시간을 제거하고 엔드 투 엔드 스케일링 지연을 최대 50% 개선한다.
40만 건의 Claude Code 세션을 분석한 결과, 코딩 기술보다 도메인 전문 지식이 에이전트 활용 효율과 성공률을 결정하는 핵심 요인임이 밝혀짐.
과거 대화 데이터를 재현해 신규 모델의 배포 전 행동을 예측하고 잠재적 위험을 사전에 파악하는 배포 시뮬레이션 방법론을 다룬다.
데이터 파이프라인의 핵심 계층과 배치, 스트리밍, 메달리온 등 주요 아키텍처 패턴을 정의하고 실무 설계 원칙을 제시한다.
미 국방부가 생성형 AI를 도입하여 매년 의회에 제출해야 하는 수백 건의 보고서 작성 시간을 획기적으로 단축했다.
Databricks가 기업 환경에서 안전하고 효율적인 앱 개발을 지원하는 App Spaces, Genie App Builder, 서버리스 마이크로 앱을 공개했다.
구글이 Android 17과 Wear OS 7을 출시하며 Gemini Omni, Lyria 3 등 최신 AI 모델을 통합한 새로운 픽셀 드롭 기능을 선보였다.
RF-DETR 모델로 타이어를 탐지하고 LLM으로 측면 정보를 추출하는 자동화된 비전 파이프라인 구축 방법.
Roboflow의 Track Class Lock은 객체 탐지 시 발생하는 라벨 플리커링을 방지하여 데이터 안정성을 높이는 워크플로 블록이다.
OpenAI의 2025년 매출은 130억 달러로 성장했으나, 연구개발 비용이 191억 달러에 달하며 수익성 확보에 난항을 겪고 있다.
의료 보험 사전 승인(PA) 시스템에서 LLM 판정 모델의 신뢰성을 높이기 위해, 정답 데이터를 섭동시켜 오답을 생성하고 이를 모델이 정확히 탐지하는지 검증하는 평가 프레임워크를 구축했다.
메타의 Manus 인수 철회, Anthropic Fable 5 금지 배경, 애플의 Siri 업데이트 및 제프 베조스의 Project Prometheus 등 최신 AI 업계 소식을 다룹니다.
LLM의 환각 문제와 신뢰성 확보를 위한 강화학습 및 검증 가능한 시스템 설계 방안을 논의한다.
Georgi Gerganov가 M2 Ultra 및 RTX 5090 환경에서 Qwen3.6-27B 모델을 로컬 코딩 에이전트로 활용하는 경험을 공유함.
NVIDIA Blackwell 플랫폼이 MLPerf Training 6.0 벤치마크의 7개 전 부문에서 가장 빠른 학습 속도를 기록하며 압도적인 성능과 확장성을 입증했다.
60억 파라미터 비전 인코더와 LLM을 정렬하여 이미지 인식부터 멀티모달 대화까지 범용적으로 수행하는 InternVL 모델을 분석한다.
AI 기반 음성 모니터링 기기 Sensi.ai가 고령자의 안전한 독립 생활을 돕는 동시에 사생활 침해와 돌봄 기관의 수익성 도구로 활용되는 이면을 다룬다.
LLM 포스트 트레이닝 레시피가 단순 SFT-RLHF 구조에서 다중 전문가 모델을 활용한 MOPD 방식으로 진화하고 있다.
AI를 활용해 유튜브 스튜디오를 복제하고, 업로드 전 영상 성과를 예측하며 여러 소셜 미디어에 원클릭으로 게시하는 자동화 시스템 구축 과정.
Probably는 결정론적 검증 시스템을 통해 LLM의 환각을 방지하고, 더 작은 모델을 사용하여 비용을 절감하는 AI 솔루션을 개발한다.
AI 오케스트레이션 레이어는 모델, 에이전트, 데이터 파이프라인을 통합하여 거버넌스와 운영 효율성을 보장하는 핵심 인프라이다.
NVIDIA의 FastGen은 양자화, 캐싱, 증류 기법을 결합하여 비디오 확산 모델의 디노이징 단계를 획기적으로 줄여 실시간 생성을 구현한다.
LLM을 활용하여 산업용 PLC 코드를 자동으로 생성하고, 형식 검증 및 문법 교정을 통해 신뢰성을 확보하는 방법론을 제시한다.
AI 에이전트 시스템에서 발생하는 Confused Deputy 취약점을 방지하기 위해 Kagenti를 활용한 ID 기반 보안 및 위임 체인 검증 방식을 다룬다.
LLM 추론 과정에서 이전 토큰의 연산을 재사용하여 디코딩 속도를 높이는 KV Cache의 행렬 연산 원리를 상세히 설명한다.
과거의 관측값을 사용하여 미래의 값을 예측하는 자기회귀 모델의 개념과 시계열 및 언어 모델링에서의 활용 방안.
Anthropic의 Fable 5 모델이 보안 취약점 수정 요청을 탈옥으로 오인받아 수출 통제 대상이 된 상황을 비판하며, 코드 수정 기능이 방어적 보안에 필수적임을 강조한다.
Satya Nadella의 Loopcraft 전략과 Anthropic의 수출 통제 이슈, 그리고 추론 효율화 및 에이전트 시스템의 최신 기술 동향을 정리함.
Hermes Agent와 Apify MCP Connectors를 연동하여 웹 데이터를 수집하고 Supabase에 저장하여 AI 자동화 워크플로를 구축하는 방법.
미국 정부의 수출 통제 명령으로 Anthropic의 Claude 모델이 일부 서비스 중단되었으며, Microsoft의 AI 가치 독점 경고와 중국의 블랙리스트 대응 등 주요 기술 뉴스가 발표됐다.
페이스북이 Meta AI 기반의 검색 모드와 AI 편집 도구를 도입하여 사용자 경험을 강화합니다.
ALS 환자가 뇌 임플란트 BCI를 통해 3,800시간 이상 독립적으로 소통하며, 97.5%의 정확도로 음성 변환 및 컴퓨터 제어를 수행함.
Claude와 Codex를 활용하여 독립적인 AI 에이전트 기반의 트레이딩 포트폴리오를 구축하고 평균 회귀 전략을 자동화하는 방법.
Skydio CEO Adam Bry가 드론의 자율 비행 기술과 미국 내 제조 공급망 구축, 그리고 국방 및 공공 안전 분야에서의 AI 활용 전략을 논한다.
ChatGPT의 CSP 제한을 우회하지 않고 MCP 앱을 안전하게 렌더링하기 위한 이중 iframe 격리 패턴과 도메인 선언의 중요성.
주요 AI 기업들의 IPO와 산업의 표준화 속에서, 단순 토큰 판매를 넘어 소프트웨어와 생태계 구축이 기업의 핵심 가치로 부상하고 있다.
Claude Code를 활용해 6가지 AI 비즈니스 자동화 도구를 직접 제작하고, 각 도구의 실용성을 평가하여 'Ship' 또는 'Skip'을 결정하는 과정을 담았다.
단순 문서 검색은 LlamaIndex가, 복잡한 에이전트 워크플로는 LangGraph가 유리하며, 고도화된 시스템은 두 프레임워크를 결합하여 사용한다.
Manifest는 기존 AI 구독 서비스를 에이전트와 연결하고, 모델 라우팅 및 폴백 기능을 통해 API 비용을 제어할 수 있는 오픈소스 LLM 라우터이다.
Windows 환경에서 Claude Code, Codex 등 여러 AI 에이전트를 통합 관리하고 재부팅 시에도 세션을 유지하는 도구 'wmux'를 개발했다.
도구 설명에 '직접 지식을 우선하라'는 문구를 추가하자 모델별로 도구 사용률이 극명하게 갈리는 현상이 관찰됨.
P-EAGLE은 speculative decoding의 순차적 병목을 해결하여 모든 draft 토큰을 단일 forward pass로 생성함으로써 추론 처리량을 최대 1.69배 개선한다.
퀄컴이 XR 기기용 신형 칩 'Snapdragon Reality Elite'를 공개하며 GPU, CPU, NPU 성능을 대폭 강화하고 발열과 배터리 효율을 개선했다.
애플이 Siri의 시각적 맥락 이해를 돕기 위한 카메라 탑재 AirPods와 차세대 폴더블 아이폰 등 2027년 출시 예정인 하드웨어 로드맵을 준비 중이다.
WordPress VIP 보고서에 따르면, 소비자는 AI 생성 답변에 대한 신뢰도가 낮으며 브랜드가 AI를 마케팅에 활용하는 것을 부정적으로 인식하는 경향이 있다.
Roboflow의 RF-DETR 모델과 워크플로를 사용하여 콘택트렌즈의 균열과 기포를 자동으로 탐지하고, 신뢰도에 따라 pass, review, fail로 분류하는 시스템을 구축한다.
LLM 에이전트가 상호작용을 통해 숨겨진 환경을 학습하는 능력을 결정적 유한 오토마타(DFA) 기반 테스트베드로 평가한 연구.
Memento는 이메일 아카이브를 SQLite, FTS, 벡터 임베딩으로 인덱싱하여 에이전트 기반의 개인 위키와 검색 기능을 제공하는 오픈소스 도구이다.
LLM이 생성하는 UI 코드의 스타일 일관성을 보장하기 위해, 디자인 의도를 토큰화하고 ESLint로 제약을 강제하는 디자인 시스템 'Orbit' 구축 사례.
Databricks Marketplace에서 서드파티 데이터 및 AI 애플리케이션을 워크스페이스 내에 직접 설치하고 실행하는 기능을 공개했다.
Databricks가 데이터와 AI 에이전트를 클라우드 및 조직 경계 없이 공유할 수 있는 오픈 프로토콜 OpenSharing을 발표했다.
로빈후드가 AI를 직접적인 해고 사유로 언급하지 않고 정리해고를 단행하며, AI 생산성 향상을 명분으로 내세우는 최근 기술 업계의 해고 트렌드와 차별화된 행보를 보였다.
AI 기반 녹음기 제조사 Plaud가 200만 대 이상의 기기 판매와 1억 달러 이상의 연간 반복 매출을 기록하며 AI 하드웨어 시장에서 입지를 굳혔다.
Microsoft는 기업이 AI를 안전하게 도입하고 비용을 최적화할 수 있도록 Intelligence와 Trust를 결합한 플랫폼 전략과 Agent 365 제어 평면을 제시한다.
LLM 컨텍스트를 OS 가상 메모리처럼 처리하여 VRAM 제약을 극복하는 Rust 기반 페이징 엔진 ICPE의 기술적 특징과 성능 지표.
Databricks가 데이터 레이크하우스 내부에 통합된 에이전트 기반의 고객 데이터 플랫폼(CDP)인 CustomerLake를 발표했다.
Lakebase Search는 계층형 스토리지와 Postgres 네이티브 확장을 통해 에이전트 워크플로에 최적화된 대규모 하이브리드 검색 기능을 제공한다.
Databricks가 기업 데이터 맥락을 이해하고 자동화된 업무를 수행하는 AI 에이전트 플랫폼 Genie One을 출시했다.
Databricks가 페타바이트 규모 테이블의 부분 문자열 및 키워드 검색을 100배 이상 가속하는 풀텍스트 검색 인덱스를 베타로 공개했다.
Databricks 플랫폼 내에서 데이터 파이프라인과 ML 모델의 장애를 탐지, 분석, 검증하여 자동으로 해결하는 자율 운영 에이전트 Genie ZeroOps를 소개한다.
기업들이 비용 절감, 데이터 보안, 통제권 확보를 위해 단일 벤더 의존에서 벗어나 오픈 웨이트 모델과 상용 모델을 혼합한 하이브리드 AI 스택으로 전환하고 있다.
LLM 기반 AI 에이전트가 행동의 결과를 예측하지 못해 발생하는 위험성과 이를 해결하기 위한 월드 모델의 중요성을 분석한다.
Microsoft가 M365 Copilot에서 사용자 이메일 등 민감 정보를 탈취할 수 있는 치명적 보안 취약점을 패치했다.
SpaceX가 AI 역량 강화를 위해 AI 코딩 스타트업 Cursor를 600억 달러 규모의 주식 거래로 인수하기로 합의했다.
MCPize는 1,000개 이상의 검증된 Model Context Protocol 서버를 제공하고 통합 관리 기능을 지원하는 개발자 플랫폼이다.
LLM을 활용해 볼록 다면체 충돌 감지 알고리즘을 최적화하여 기존 대비 100배의 성능 향상을 달성한 사례 연구.
Kitchen Rush는 LLM의 도구 호출 정확도와 추론 지연 시간을 동시에 측정하여 실시간 환경에서의 성능을 평가하는 벤치마크이다.
말레이시아의 고객 대화 관리 플랫폼 Respond.io가 시리즈 B 라운드에서 6,250만 달러를 조달하며 연간 반복 매출 3,500만 달러를 기록했다.
SAMF는 MoSCoW 우선순위 기법을 활용하여 LLM 출력의 결정론적 검증과 에이전트 워크플로의 안정성을 보장하는 Python 프레임워크이다.
보안 전문가 Katie Moussouris는 백악관 보고서에서 제기된 Anthropic Fable 모델의 '탈옥' 사례가 실제로는 사이버 방어를 위한 의도된 기능이라고 평가했다.
기업은 외부 요인에 의한 AI 중단 리스크를 방지하기 위해, 핵심 프로덕션 워크로드에는 통제 가능한 오픈 소스 모델을 도입해야 한다.
Absa는 Salesforce Agentforce를 도입하여 수동 온보딩 프로세스를 자동화하고 운영 효율성을 85% 향상시켰다.
파인튜닝 데이터의 일관된 프레이밍(신중함 vs 열망)이 학습하지 않은 주제에 대해서도 모델의 의견을 변화시키는 잠재적 편향 전이 현상을 분석했다.
Google DeepMind의 Gemma 4 모델군이 Amazon Bedrock에 출시되어, 추론 최적화와 멀티모달 기능을 프로덕션 환경에서 활용할 수 있다.
Strands Evals SDK의 Detectors 기능을 사용하여 AI 에이전트 실행 트레이스에서 장애를 자동으로 식별하고 근거를 분석하여 해결책을 제시하는 방법.
LLM의 반복적이고 기계적인 텍스트 패턴인 'Slop'을 추론 단계의 샘플러와 학습 단계의 FTPO 기법으로 90%까지 억제한다.
Augment Code의 통합 에이전트 플랫폼 Cosmos는 코드 리뷰와 사고 대응 등 SDLC 전반의 기계적 작업을 자동화하여 엔지니어링 생산성을 획기적으로 높인다.
인도 AI 스타트업 Sarvam이 2.34억 달러 규모의 투자를 유치하며 기업 가치 15억 달러의 유니콘 기업으로 성장했다.
Salesforce가 고객 서비스 자동화 AI 에이전트 플랫폼 Fin을 36억 달러에 인수하여 Agentforce 역량을 강화한다.
DeepL이 초저지연 오디오 스트리밍 기술 기업 Mixhalo를 인수하여 DeepL Voice의 실시간 음성 번역 성능과 처리 속도를 강화합니다.
Amazon Bedrock AgentCore와 LangChain Deep Agents를 활용해 격리된 MicroVM 환경에서 병렬 연구 작업을 수행하는 멀티 에이전트 시스템 구축 방법을 다룬다.
Claude Code 스킬 팩의 시스템 프롬프트가 의도대로 작동하는지 검증하기 위해, adversarial 테스트와 LLM 기반 평가를 포함한 2계층 테스트 하네스를 구축하고 운영한 사례.
Claude Code에 Z3, SymPy 등 정형 검증 엔진을 통합하여 복잡한 로직의 오류를 사전에 방지하는 도구 Touchstone을 소개함.
GitHub 데이터를 AI 에이전트용 지식 베이스로 변환하고, 작업 충돌을 방지하는 오케스트레이션 계층을 통해 개발 워크플로를 자동화하는 오픈소스 도구 ForgeDock.