총 69건
Warp가 Oz라는 에이전트 오케스트레이션 플랫폼을 내세워 로컬과 클라우드 샌드박스에서 모델과 코딩 하네스를 연결해 연속적 소프트웨어 변경 워크플로를 자동화하려 한다.
Genesis의 PEARL은 확산 모델을 활용해 단백질 유연성을 함께 모델링하며 소분자 신약 설계에 필요한 예측 정확도에 도달했다고 보도되었다.
작성자는 단일 ReAct 루프와 작업 분해 후 독립 검증을 수행하는 팀 기반 아키텍처를 비교하며 독립 검증 도입이 장기 연구 작업의 신뢰성을 크게 개선한다고 결론지었다.
정규표현식 기반 청킹·메타데이터 필터링·해시 기반 이던포턴시로 헌법 문서의 RAG 환각을 제거한 실무 사례이다.
Thrift는 에이전트의 메모리 파일을 토큰 예산 기준으로 선별 복원하여 메모리 관련 토큰 사용을 크게 줄이는 MCP 도구이다.
Hermes Agent를 OpenRouter와 연동하여 배경 작업 및 컨텍스트 비대화 문제를 해결하고, 모델 선택과 압축 기술을 통해 운영 비용을 획기적으로 줄이는 방법을 다룹니다.
영상을 WebSocket으로 스트리밍해 Inter-1에서 자신감·망설임·에너지 같은 전달 신호와 콘텐츠 점수를 실시간으로 반환하는 데모이다.
스크린샷은 ANTHROPIC_BASE_URL에서 프록시 호스트를 판별하고 시스템 프롬프트용 날짜 문자열을 스테가노그래픽 표식과 함께 생성하는 JavaScript 코드를 담고 있다.
이미지로 공개된 A-CODE-LLM Bench의 Overall Score 그래프에서 모델 간 점수 차이가 뚜렷하게 나타났다.
Sentinel Gateway는 에이전트와 툴 사이에 신뢰 채널과 비신뢰 채널을 분리하고 런타임 서명 토큰으로 실행을 제한하는 미들웨어이다.
자연어 명령으로 테스트 코드를 생성하고 UI 변경 시 스스로 코드를 수정하는 Kane AI의 성능과 실전 활용 사례를 다룹니다.
AWS는 Amazon Bedrock에서 Anthropic의 Claude Fable 5 모델을 다시 제공하며 강화된 가드레일과 문제가 발생할 때 Opus 4.8로 자동 폴백하는 보안 조치를 적용한다고 밝혔다.
LLM이 텍스트를 토큰으로 처리하고 트랜스포머 아키텍처를 통해 다음 토큰을 예측하며 응답을 생성하는 기본 원리와 추론 과정의 공학적 과제를 다룬다.
ARIA는 가설 수립부터 실험, 평가까지의 전 과정을 자동화하여 모델과 에이전트의 성능을 지속적으로 개선하는 자율 연구 에이전트이다.
LlamaParse Index가 에이전트 루프에서 직접 호출 가능한 시맨틱 검색, 서버사이드 grep, 파일 리스팅 등 강력한 네이티브 검색 도구들을 지원한다.
중국 Yueban사가 개발한 자율 주행 변기 Xiaoban은 거동 불편자를 위해 스스로 이동, 오물 배출, 세척 및 충전을 수행한다.
Managed entitlements를 사용하면 중앙 계정에서 AWS Marketplace 모델을 한 번 구독하고 AWS License Manager로 조직 전체에 모델 접근 권한을 배포할 수 있다.
Gemini Live의 실시간 음성 반응성과 LangChain Deep Agents의 심층 추론을 비동기 방식으로 결합하여 지연 시간 문제를 해결한 음성 에이전트 아키텍처를 소개한다.
SkillOpt은 스킬 파일을 모델 외부의 학습 가능한 매개변수로 취급해 한정된 텍스트 편집과 검증 게이트 등으로 모델 가중치를 바꾸지 않고 6개 벤치·7개 모델·3개 실행 모드의 52개 평가 셀에서 최상위 성능을 달성했다.
이미지 실험에서 self-agreement와 실제 프롬프트 유출 사이의 상관이 모델별로 반대 방향으로 나타났고 4개 모델을 대상으로 2,592회 호출로 평가가 이루어졌다.
Anthropic이 기업 가치와 매출에서 OpenAI를 앞서며 기업용 시장을 장악하고 있는 반면, OpenAI는 압도적인 소비자 기반을 유지하고 있다.
SentinelOne의 성숙도 모델은 SOC 자동화를 0에서 4단계로 구분하여 조직의 현재 상태와 다음 단계로의 실무적 요건을 진단하도록 설계되었다.
여러 오픈소스 prompt injection 탐지기를 TPR 대 FPR 운영곡선으로 비교한 공개 벤치마크와 소스를 공유하고 커뮤니티 피드백을 바랐다.
모델 라우팅, 임베딩 기반 캐시, 롤링 요약, 문서 전처리와 출력 제약을 병행해 요청당 비용을 약 40% 낮췄다.
단일 통합 메모리와 MCP 도구를 통해 컨텍스트를 소유하면 하네스 교체 시에도 문맥과 스킬을 신속히 이전할 수 있다.
양자 컴퓨팅이 기존 암호 체계를 무력화하는 Q-Day의 위협과 이를 대비하기 위한 포스트 퀀텀 암호화(PQC) 및 국가적 대응 전략을 다룬다.
Event Storming 보드를 LLM 기반 코딩 에이전트가 원인-결과 그래프 검사로 반복 검증해 기계적 누락은 자동 수정하고 미결정 비즈니스 쟁점은 표면에 남긴다.
차트 비교에서 Sonnet 5가 높은 비용 구간에서 가장 높은 성공률을 보였고 Opus 4.8이 근소하게 뒤쫓는 반면 Sonnet 4.6은 전반적으로 낮게 머물렀다.
CogniCore 팀이 다양한 메모리 백엔드와 평가법을 적용해 '기억이 실제로 도움이 되는지'를 검증하려고 한다.
안전 분류기는 보수적 임계값으로 동작해 일부 합법적 요청을 거부하는 '안전 여유'를 도입함으로써 위험 출력을 줄이는 대신 사용자 불편을 수반했다.
UiPath for Coding Agents는 코딩 에이전트가 생성한 코드의 검증·테스트·배포·가버넌스를 UiPath 플랫폼과 연계해 엔터프라이즈 자동화의 신뢰성을 높인다.
Modelglass 비교표가 Claude Sonnet 계열의 컨텍스트 윈도우, 가격, 추론·코딩·다국어 능력을 토큰 단위와 평점으로 제시하고 있다.
AI 산업이 연간 매출 1,750억 달러를 기록하며 실질적 가치를 입증하는 가운데 규제와 하드웨어 공급망 등 주요 업계 이슈를 분석합니다.
측정 시퀀스를 9클래스 하모닉 공간으로 접어 557차원 기술자를 만든 뒤 ExtraTrees와 XGBoost로 학습해 Severson 데이터에서 MAE 0.0114를 달성했다.
Claude Sonnet 5는 Opus 4.8과 비슷한 성능을 유지하면서 1,000,000 토큰 컨텍스트와 128,000 토큰 출력 한도를 제공하지만 새로운 토크나이저로 입력당 약 30% 더 많은 토큰이 발생해 실질 비용이 상승한다.
AI 모델이 데이터를 통해 가중치를 학습하는 원리와 실제 서비스 단계인 추론이 왜 기술적으로 더 어려운지 설명한다.
LLM 추론 시 토큰 생성 과정을 데이터플로우 그래프의 노드와 의존성 관계로 정의하고 병렬 실행이 성능에 미치는 영향을 설명한다.
작성자는 스키마 직렬화에 의존하면 생산 환경에서 텍스트-투-SQL이 잘못된 테이블·조인·비즈니스 용어 매핑을 반복한다고 보고, 테이블·칼럼 설명과 예제 SQL, 비즈니스 용어 정의 및 런타임 거버넌스가 신뢰성을 높였다고 밝혔다.
프롬프트에서 고정된 부분을 앞에 두고 동적 입력을 뒤로 배치하면 캐시 적중률이 올라 대규모 운영에서 비용을 크게 낮출 수 있다.
작성자는 Databricks Lakebase의 synced tables와 PgBouncer를 활용해 reverse-ETL 부담을 줄이고 온라인 피처 서빙을 단순화하는 방안을 공유했다.
자연어 정책을 Soufflé Datalog 규칙으로 컴파일해 세션 이력을 근거로 도구 호출을 판정하는 Sasy-Guard 플러그인이 공개되었다.
Anthropic 문서와 사용자 사례에서 추려진 여섯 가지 프롬프트 패턴이 구체적 템플릿과 함께 제시되어 출력 품질·일관성·불확실성 표시에 영향을 준다.
Nano Banana 2 Lite는 Gemini 3.1 계열의 경량 이미지 모델로 짧은 시간 내 이미지 생성에 최적화되며 Arena.ai의 Elo 평점에서 비-Lite 모델과 거의 동등한 평가를 받았다.
Minimi는 화면과 통화 컨텍스트를 수동으로 캡처해 MCP를 통해 Claude에 전달하며 2주 만에 50명의 유료 사용자를 확보했다.
Miles는 SGLang, Megatron-LM, Ray, PyTorch를 결합해 MoE와 저정밀도 환경에서 대규모 LLM의 RL 포스트트레이닝을 분산 시스템 수준에서 재현 가능하고 확장성 있게 운영할 수 있게 한다.
AG-UI 프로토콜을 통해 AgentCore 위에서 에이전트와 프런트엔드를 분리하여 대화형 UI, 공유 상태, 인간 승인 흐름을 지원한다.
shot-scraper 1.10에 shot-scraper video 명령이 추가되어 storyboard.yml로 정의한 웹 루틴을 Playwright로 실행해 인증 쿠키를 사용한 세션을 녹화하고 MP4로 출력할 수 있다.
추론 시 은닉 상태에 미세한 '압력'을 주는 커널이 출력 형식과 코드 실행 가능성에 영향을 주었으며 두 테스트 간 총압력은 약 53% 차이를 보였다.
Mighty Camera는 소형 온보드 컴퓨트에서 단안 SLAM을 수행하며 하드웨어 동기화를 통해 SGBM 기반 깊이와 VIO 포즈를 동시에 생성한다.
Weights & Biases에 내장된 AI 에이전트 ARIA는 실험 자동화, 프로젝트 요약, 패턴 분석 등 ML 워크플로 전반을 지원하는 클라우드 기반 도구이다.
보도된 링크는 Claude Sonnet 5의 유출을 알리며 1M 토큰 컨텍스트와 가격 정보를 포함한다.
Parcel Perform은 SageMaker AI로 Amazon Nova 모델을 PEFT(LoRA) 기반으로 파인튜닝해 이메일 엔티티 추출에서 최대 94.77% 정확도와 비용 50% 절감을 달성했다.
IBS Software는 Amazon Bedrock의 토큰 기반 지식 증류로 영어·일본어 화물 이메일에서 23개 엔티티를 실시간으로 추출하며 95.085% F1과 운영비용 14배 절감을 달성했다.
Outpost VFX는 Amazon EC2 P5 인스턴스로 분산 학습 파이프라인을 도입해 얼굴 교체 모델의 훈련 속도를 기존 대비 8배로 단축하고 온셋 워크플로 병목을 해소했다.
에이전트형 AI는 생성 모델에 도구와 기억을 결합해 행동을 수행하며, 데이터 부족과 시도·오류 학습이 핵심 과제이다.
모델 업그레이드보다 프롬프트 설계, 문맥 누적, 출력 형식 명시, 반복 개선이 더 큰 성능 차이를 만들었다.
1인 개발자가 생산성 앱 'Amy'를 MCP와 Siri에 연동하며 겪은 기술적 도전과 AI 에이전트 최적화 전략을 공유한다.
Etched는 칩·랙·소프트웨어를 수직 통합해 추론용 클러스터를 만들고 A0 테이프아웃과 대규모 자금·수주로 빠르게 생산 단계에 진입하고 있다.
NVIDIA의 Isaac ROS는 ROS 2와 CUDA 기반 가속을 결합해 Jetson부터 DGX Spark까지 모듈형 로보틱스 패키지를 제공한다.
NVIDIA의 Blackwell 전체 스택 소프트웨어는 DeepSeek V4에서 토큰 비용을 최대 5배 낮추었고 TensorRT-LLM 적용 사례에서는 초당 토큰을 최대 50% 더 확보했다.