같은 JSON 스키마가 모델마다 다르게 동작하나?
동일한 프롬프트와 JSON Schema로 5개 LLM을 테스트한 결과 공급자별로 스키마 준수 일관성이 달라 다운스트림 파서가 깨질 수 있다는 관찰과 경험 공유 요청이다.
총 85건
동일한 프롬프트와 JSON Schema로 5개 LLM을 테스트한 결과 공급자별로 스키마 준수 일관성이 달라 다운스트림 파서가 깨질 수 있다는 관찰과 경험 공유 요청이다.
GLM-5.2의 1M 컨텍스트로 200k줄 코드베이스 리팩터링을 시도하자 긴 세션을 유지하고 종속성 충돌을 자체 발견했으나 응답 속도는 느려졌다.
Netris는 네트워크 스위치에서 동작하는 소프트웨어와 네오클라우드 운영자가 빠르게 서비스 가동할 수 있도록 지원하는 플랫폼을 제공한다.
대규모 도구 카탈로그에서 도구 설명이 짧고 구조화되어 특정 토큰이 판별자인 경우 BM25 같은 키워드 기반 검색이 의미 임베딩(cosine)보다 더 정확하다는 실험 결과와 43,000개 도구 벤치 링크를 제시한다.
Orchid는 에이전트와 API 사이에 가볍게 끼워 로컬에 모든 요청·응답·토큰을 기록하고 웹 UI·플레이백·비용 집계를 제공하는 오픈소스 디버깅/테스트 도구이다.
약 209억 토큰 사용 중 95.41%가 캐시 읽기로 집계되며 총 비용 $17,222.27의 과반이 캐시 읽기에 할당됐다.
Deck은 repo>worktree>terminal 트리에서 tmux-backed 터미널을 에디터 탭으로 관리하고 Claude Code 연동으로 재부팅 시 세션을 자동 복구하는 VS Code 확장이다.
사용자는 지식집약적 작업에서 LLM 성능만큼 검색 파이프라인(검색·문맥유지·잡음감소·응답신뢰도)이 중요하다고 지적하며, RAG·임베딩 기반 시스템에서 검색 품질을 높이는 효과적인 접근법을 묻고 있다.
모델별 대화 상태가 흩어지며 컨텍스트가 소실되므로 단일 소스에 모든 프로젝트 컨텍스트를 모으고 주 모델+보조 모델 하이브리드를 쓰는 방식이 실무에서 가장 실용적이다.
Claude Code 스킬로 동작하는 dcode-agent-kit는 인터뷰형 위자드로 agent.py·model.py·README를 생성해 LangChain deepagents 반복 작업을 자동화하고 안전 장치를 기본 포함한다.
Meta가 2023년 중단했던 Facebook Creator Studio를 AI 기반의 독립형 크리에이터 앱으로 재출시하고, Creator Assistant가 성과 인사이트 제공과 댓글 우선순위·응답 초안 생성을 지원한다.
Gravity는 자연어로 작업을 적으면 별도 설정·프롬프트 엔지니어링·모니터링 없이 에이전트가 끝까지 수행하는 알파 버전으로, 현재 실사용 워크플로를 맡길 테스터를 모집하고 있다.
Self‑Improving Loop는 에이전트가 작업 결과를 학습해 반복 실수를 줄이고 시간이 지남에 따라 성능을 개선하는 순환적 설계이다.
비디오 VLM 평가에서 프레임 샘플링 밀도·장면 분할 전략·해상도·프롬프트 구조 같은 파이프라인 요소가 모델 교체보다 성능 변화에 더 큰 영향을 미쳤다.
기초 AI/ML 수업과 KNN·Louvain 프로젝트 경험을 가진 컴공/응수 전공 학생이 ML 인턴십 경쟁력을 높이기 위해 권장되는 프로젝트·역량·학습 우선순위를 묻는다.
에이전트형 시스템의 등장과 에이전트 행동 설계, 멀티에이전트 오케스트레이션을 중심으로 AI가 제품의 행동·신뢰·워크플로우를 어떻게 변화시키는지 정리했다.
공개 라벨 데이터로 RF-DETR Small을 학습해 강판 표면 결함을 검출하고 Roboflow Workflow로 pass/review/fail 삼단 분류를 자동화한다.
작성자는 전형적 momentum 업데이트와 Adam의 지수이동평균 기반 업데이트 두 수식의 직관적 차이를 묻고 있다.
LangSmith Engine과 Context Hub를 사용하여 에이전트의 추적 데이터를 영구적인 메모리로 변환하고 지속적으로 성능을 개선하는 방법을 다룬다.
NeMo AutoModel은 Transformers v5 위에서 Expert Parallelism, DeepEP, TransformerEngine을 결합해 MoE 파인튜닝을 API 변경 없이 3.4~3.7배 가속하고 GPU 메모리를 29~32% 절감한다.
소수의 '슈퍼 웨이트'와 대응하는 '슈퍼 액티베이션'이 LLM의 생성 품질을 결정하며 이를 보존하면 단순 양자화로도 높은 압축 품질을 유지할 수 있다.
Anthropic의 IPO 이후 90일 시장가치를 Fable 거래 정지 전·후 예측 범위와 중앙값으로 비교한 예측 차트이다.
자동 크롤링·대규모 인덱스 환경에서 Top‑K 의미 검색이 정확한 청크를 놓쳐 비용·지연·임베딩 희석이 발생해 이를 해결할 아키텍처 조언을 구함.
동일 가중치·동일 온도로 레이어별 히든스테이트에 총 +0.034953만큼 미세 주입하자 bfloat16으로는 검출 불가하지만 출력 품질과 코드 실행 가능성이 달라졌다는 재현 가능한 실험 로그이다.
340회 반복 실험에서 샘플링 온도가 높아질수록 JSON 스키마 기반 출력의 무결성이 떨어지고 이스케이프·손상·필드 누락 오류가 늘어났다.
작성자는 Codex의 Image Gen으로 웹 UI에 바로 쓸 수 있는 이미지를 생성해 가시성이 좋아졌다고 전하며, Claude Tag, Gemini 3.5 Flash의 컴퓨터 제어 기능, Figma·Notion 업데이트, OpenAI의 Jalapeño 칩 등 최신 AI 도구·플랫폼 소식을 모아 전한다.
Z.ai는 자사 신형 GLM-5.2가 코딩 및 AI 에이전트 벤치마크에서 OpenAI·Anthropic과 유사한 성능을 낸다고 밝히며 화웨이 칩에 최적화해 저비용 운영을 내세웠다.
작성자는 장시간 실행하고 웹과 상호작용하며 감사 가능한 멀티에이전트 워크플로를 구축하면서 CrewAI·LangGraph·Temporal·Browserbase·Langfuse 같은 여러 플랫폼을 연결해야 하는지 묻고 있다.
벤더·공개 벤치마크는 배포 결정에 한계가 있어, 고정된 생산 트래픽 샘플로 구성한 평가셋과 동일한 입력·로그 조건을 통해 모델을 비교해야 한다.
Claude Code 슬라이드 다이어그램으로 훅 이벤트(세션 시작→프리툴→권한 요청→툴 실행→포스트툴→세션 종료)와 실패/컴팩트·서브에이전트 흐름을 시각화했다.
M3 논문은 Minimax Sparse Attention으로 블록 선택 기반 희소 어텐션을 도입해 MoE와 결합하여 1M 토큰급 장문 처리 확장성을 목표로 한다.
I-Lang v5.0은 9차원 연속 벡터 평가와 행동 최적화로 이진 차단의 기본 한계를 극복하고 LLM 기반 스트레스 테스트에서 0.92의 강건성 점수를 얻었다.
작성자는 프롬프트에 리뷰 규칙을 넣을 때 판정이 들쭉날쭉해 스킬 파일로 분리해 버전 관리하니 일관성이 개선됐다며, 다른 팀들의 실무 방식을 묻고 있다.
코딩 에이전트가 작업 전에 'debug, fix, review' 등 모드를 선택하고 모드별 체크리스트로 실제 검사·비파괴 규칙을 강제하는 SKILL.md 기반 프로젝트
Legion LegalTech가 미국 상무부 조치에 맞서 제기한 소송이 진행 중이며, 핵심 쟁점은 서버에 남는 호스티드 추론 출력이 수출통제의 적용 대상인지 여부다.
작성자는 2대의 NVIDIA DGX Spark로 오픈소스 LLM 인퍼런스와 프로덕션 운영을 수행하며 모델별 토큰 처리속도, 노드 확장 효율, 전력·네트워크 이슈 등을 수치와 함께 보고했다.
Apple Vision으로 468개 얼굴 키포인트를 추출해 15개 기하학적 특징을 계산하고 CNN과 Random Forest의 하이브리드 모델로 iOS 기기 내에서 12개 차원 예측을 수행하는 개발 일지이자 피드백 요청글이다.
저장된 confidence 값은 시간이 지나면 부정확해지므로 그래프 기반 'Recall'이 읽을 때마다 stated·calibration·support·challenge를 결합해 확신을 재계산해 모순을 즉시 반영한다.
nudii라는 온디바이스 AI 기반 'sea companion' 앱의 TestFlight 초대 광고 이미지로 서버·계정·추적이 없다고 표기되어 있음.
Sakana Fugu 모델로 생성한 모듈 1–8을 검열 저항 목적으로 이더리움에서 라이브로 읽을 수 있게 하고 topoglyph.net에 라이브러리를 공개했다.
MDN의 browser-compat-data를 sqlite-utils와 AI 생성 스크립트로 약 66MB SQLite DB로 만들고 GitHub 레포지토리에 공개 CORS로 호스팅해 Datasette Lite로 탐색 가능하게 함.
실시간 보조 AI 사용이 숙련 의료진과 소프트웨어 엔지니어의 현장 수행 능력과 개념 학습을 약화시킨다는 무작위실험·현장관찰 증거가 제시됐다.
LangGraphics가 서브그래프를 그래프 내부에 중첩 렌더링하고 완료된 실행을 단계별로 재생해 각 노드의 입력·출력·상태·비용을 조사할 수 있게 했다.
OpenAI와 Broadcom이 데이터센터에서 LLM 추론을 목표로 하는 신규 칩 'Jalapeño'를 공동 발표했으며 이번 공개는 장기 프로젝트의 첫 세대다.
dspyer는 LLM 호출을 Pydantic 스키마로 래핑해 출력 검증·재요청 루프를 자동화하고, 해당 단계를 DSPy 모듈로 컴파일해 optimizer로 프롬프트를 튜닝·저장해 재사용하는 도구다.
자작 Spiking Neural Network가 NARMA-10에서는 기억 깊이가 부족했으나 입력에 이산 지연을 추가해 메모리 깊이를 3배로 늘리고 기본 선형 기준과 유사한 정확도를 만들며 512셀 과제에서 내부 연산량을 15배 줄였다.
작성자는 에이전트 성능 최적화에서 프롬프트·컨텍스트·검색·개별 툴 같은 구성요소를 따로 튜닝할지, 아니면 로직과 컨텍스트를 포함한 전체 하네스를 통합 최적화할지를 묻고 실무에서 쓰는 평가 방법·플레이북·오픈소스 사례를 구한다.
GLM-5.2는 Claude Opus와 같은 25/45 통과율을 보였고, 프롬프트 캐싱 적용 시 비용은 약 46% 수준이었다.
ActPass는 AI 에이전트와 도구/API 사이에 위치해 각 액션에 대해 허용·거부·승인 필요 여부를 결정하고 서명된 증거를 저장하는 런타임 권한 솔루션으로, 게시자는 제품 포지셔닝·신뢰도·초기 통합 우선순위에 대한 피드백을 요청했다.
Slack과 Salesforce 연결에서는 연결 앱·통합 사용자·아이덴티티 매핑·Slack의 레코드 노출 설정이 보안성과 유지보수성, Agentforce 준비성에 결정적 영향을 준다.
Vision 모델을 체인이나 에이전트에 넣을 때는 공개 벤치보다 자체 입력으로 소규모 평가셋을 만들고 실행 추적을 통해 설정(프롬프트·샘플링·후처리)별 성능을 비교해야 한다.
Roboflow의 청사진은 실험실 정확도가 현장으로 이전되지 않는 문제를 지적하며, 다섯 단계의 Vision AI Maturity Model로 재사용 가능한 생산 역량으로 전환하는 방법을 제시한다.
153일간 Gemini로 진행한 대화형 플레이에서 모델은 창의적·출현적 이벤트를 자주 만들어냈지만 인벤토리·지리·퀘스트·레벨 추적에서 반복적 일관성 실패를 보였다.
Snowflake 시멘틱 뷰를 사용해 S3에서 불러온 데이터에 비즈니스 정의를 부여하고 Cortex Analyst와 Amazon QuickSight에서 동일한 의미로 쿼리해 신뢰 가능한 AI·BI 결과를 제공한다.
Amazon Nova 2 Sonic의 speech-to-speech 처리와 Bedrock AgentCore 오케스트레이션을 이용해 환자 인증·예약 관리·사전 건강정보 수집·인력 에스컬레이션을 수행하는 서버리스 음성 에이전트를 구현한다.
Huntington 은행은 Amazon Textract·SageMaker·Step Functions·Lambda와 DataSync/Direct Connect를 조합해 4억 건 이상의 문서를 수개월 내에 95% 이상 정확도로 식별·마스킹하고 온프레미스로 결과를 동기화했다.
Databricks가 Omnigent 오픈소스 하니스와 LTAP·Lakebase 등으로 데이터 스토리지와 에이전트 운영을 통합하는 '데이터·AI 운영체제' 비전을 제시했다.
누적 행렬곱을 위치 임베딩으로 재해석한 HDD-RoPE는 토큰 표현을 4차원 이상 청크로 쪼개어 다축 회전을 적용하고 각 축의 회전량을 데이터 종속적으로 학습해 TinyStories에서 xPos 대비 검증 손실의 수렴을 앞당겼다.
Roboflow와 Standard Bots가 파트너십을 맺어 Roboflow에서 학습한 비전 모델을 엔지니어의 수동 전송 없이 Standard Bots 로봇의 스킬 라이브러리에 바로 배포해 실시간 시각 기반 작업을 수행할 수 있게 했다.
작성자는 기존 dense attention을 대체하는 자체 어텐션을 만들어 128k–1M 컨텍스트에서 6x–40x 속도 향상과 42x 적은 FLOPs를 보고하며 추가 평가·검증 조언을 요청합니다.
같은 프롬프트로 2주간 테스트한 결과 Midjourney가 사진 실사에 강하고 Ideogram은 이미지 내 텍스트, Stable Diffusion은 파인튜닝 시 스타일 일관성, DALL·E 3은 사용성 우수, Firefly는 상업적 라이선스 안전성이 돋보였다.
Papers with Code가 OCR 벤치마크·모델·논문·코드 링크를 정리한 페이지를 공개했으며 Baidu의 Unlimited OCR(3B, R-SWA)과 Mistral의 OCR 4 등 최신 릴리스를 소개하고 있다.
AI가 생성한 코드에서 허구의 API 제안, 일반화된 패턴의 부적합성, 디버깅 능력 저하, 민감 정보 노출이라는 네 가지 위험이 발생하며 각각에 대한 검증·문맥 보강·수동 연습·권한 제한 대응이 필요하다.
Loka는 Amazon Nova 2 Sonic 기반의 speech-to-speech 파이프라인으로 Big Bench Audio 87.0 점수와 1.39초의 응답 지연, 시간당 약 0.27달러 비용을 달성해 차량 딜러 상담용 음성 에이전트의 자연스러움과 경제성을 개선했다.
로컬 AI 모델의 성능과 하드웨어 최적화, 그리고 AI 기술의 탈중앙화와 오픈소스의 중요성에 대해 심도 있게 논의합니다.
OpenAI의 추론 전용 ASIC 공개와 Anthropic의 Slack 내 상시 에이전트 출시 등 주요 AI 신기술·제품 소식을 정리했다.
Gemini 3.5 Flash는 computer use를 메인 모델에 통합해 브라우저·데스크탑·모바일에서 직접 보고 조작하는 에이전트를 API로 제공하며 안전 장치를 선택적으로 제공한다.
ModelFit은 대상 리포지토리에서 생성한 프로브와 블라인드 루브릭 채점을 통해 모델의 정답률을 우선으로 비교하고 비용과 지연을 부차적으로 보고하는 오픈소스 벤치마킹 도구이다.
Figma가 코드 레이어와 모션·셰이더 지원, AI로 생성 가능한 커스텀 플러그인 및 스킬 통합을 통해 캔버스 내 프로토타이핑과 협업 흐름을 강화했다.
Sakana Fugu Ultra와 Claude Opus 4.8을 6가지 복잡한 프롬프트로 비교하여 성능, 비용, 속도를 분석한 결과입니다.
Databricks가 Gartner의 2026 Magic Quadrant에서 리더로 평가되었으며 Lakehouse와 Unity AI Gateway 등으로 데이터·AI·거버넌스를 통합해 agentic 애플리케이션의 신뢰성과 운영을 지원한다.