인도식 영어 인식에서 강점을 보인 Parakeet TDT 0.6B v2
작성자는 Parakeet TDT 0.6B v2가 인도식 영어 인식에서 우수하고 Hugging Face에서 사용 가능하다고 보고했다.
총 100건
작성자는 Parakeet TDT 0.6B v2가 인도식 영어 인식에서 우수하고 Hugging Face에서 사용 가능하다고 보고했다.
긴 비디오 이해에서 도구 호출은 증거를 빠르게 모으는 핵심 방법이지만, 프리트레인 도구 priors가 RL 초기에 포맷 불안정과 도구 탐색의 급진적 증가를 유발한다. ParaVT는 단일 턴에 여러 창을 병렬로 평가하는 구조로 맥락 손실을 줄이고, 프레이밍 문제를 안정화하며, 도구 사용의 실제 가치가 충분히 보상되도록 설계된다. 이로써 긴 비디오 기반 추론에서의 효율성과 정확성을 함께 높인다.
저전력 및 저해상도 하드웨어에서도 신뢰 가능한 로봇 주행 추정이 가능함을 보인다. 네 개의 광 검출기에서 얻은 신호를 Gabor 마스크로 필터링하고 Temporal Convolutional Network로 속도를 추정한 뒤 IMU yaw와 결합하여 평면 경로를 얻는다. 시뮬레이터에서 학습된 파라미터를 실제 프로토타입에 적용해 87분간 920m의 주행에서 강건한 성능을 보여준다.
비동의 성적 이미지(NCII) 삭제를 의무화하는 'Take It Down Act'가 시행되었으나, 실효성 부족과 정치적 검열 악용 가능성이 제기된다.
Claude Code와 자동화 도구를 사용하여 트렌드 분석부터 iOS 앱 개발 및 배포까지의 전 과정을 자동화하는 실전 사례를 다룬다.
Claude Desktop 내 자율 에이전트인 Claude Cowork의 기능, 설정법, 그리고 업무 효율을 극대화하는 프롬프트 활용 전략을 다룬다.
SentinelOne이 에이전트 AI의 자율적 실행으로 인한 보안 위험을 관리하고 실시간 거버넌스를 제공하는 'Prompt for Agentic AI Security'를 출시했다.
엔터프라이즈 솔루션 설계 작업에서 멀티 에이전트보다 도구를 잘 갖춘 싱글 에이전트가 더 높은 정확도와 효율을 보였다.
단일 RAG의 한계를 극복하기 위해 LangGraph와 Groq를 활용한 4단계 멀티 에이전트 연구 시스템을 구축하고 오픈소스로 공개함.
ECHOFORM은 FHRR 하이퍼벡터를 활용하여 컨텍스트 토큰 소모 없이 AI 에이전트의 장기 기억을 구현하고, 암호화된 삭제 증명으로 GDPR 규정을 준수하는 메모리 기판이다.
Laravel 애플리케이션 데이터베이스를 기반으로 작동하며, MCP를 통해 AI 에이전트가 노트를 읽고 쓸 수 있게 지원하는 개인 지식 관리 도구입니다.
Claude Code를 활용해 개발한 로컬 기반의 오픈소스 오디오 스템 분리 도구 StemDeck을 소개한다.
Claude Code의 세션 간 학습을 지원하는 MCP 서버 도구 'claude-soul'을 통해 관찰된 AI의 자율적 메모리 생성 및 성찰 행동에 대한 분석과 토론.
DataRobot이 IDE 통합, MCP 지원, LLM Gateway를 통해 AI 에이전트의 개발부터 배포, 거버넌스까지의 과정을 간소화한다.
LLM 에이전트 개발 시 컨텍스트 윈도우를 단순히 늘리는 것은 성능 저하를 초래하므로, 상태 기반의 '예산, 압축, 재구성' 패턴을 적용해야 한다.
기업용 AI 에이전트 도입 실패는 모델 성능 문제가 아니라 레거시 시스템 통합, 데이터 품질, 조직적 변화 관리의 부재에서 기인한다.
Kimi WebBridge는 로컬 브라우저 세션을 활용해 AI 에이전트가 웹 페이지를 직접 조작하고 데이터를 추출하도록 돕는 브라우저 확장 프로그램이다.
Indeed는 대규모 운영 환경에서 에이전트의 신뢰성을 높이기 위해 LLM 프롬프트 기반 로직을 결정론적 코드 경로로 전환하고 API 기반 개발 워크플로를 구축했다.
SharkNinja는 Agentforce를 활용해 QR 코드로 접근 가능한 AI 언박싱 에이전트를 구축하여 고객에게 맞춤형 제품 설정 가이드를 제공한다.
AI는 특정 직무를 직접 대체하기보다 정보 전달, 조율, 검증 등 조직 내 마찰을 줄임으로써 주니어 채용 감소와 팀 규모 축소라는 간접적인 고용 변화를 유발한다.
2026년 AI 산업은 Anthropic과 OpenAI 중심의 자본 집중과 IPO 열풍 속에 있으며, 금융권 자동화와 에너지 비용 상승 등 사회적 파장을 야기하고 있다.
ETL부터 모델 배포까지 자동화된 MLOps 파이프라인을 구축하며 얻은 데이터 검증, 리소스 관리, 학습-서빙 편향 방지 및 모니터링에 관한 실무 경험 공유.
모호한 질문을 구체화하여 RAG 검색 정확도를 높이는 Multi-query, HyDE, Decomposition, Step-back 기법을 소개한다.
분산 컴퓨팅 환경에서 에이전트 작업을 병렬화하고 관리하는 오픈소스 플랫폼 agentfab을 소개한다.
AI 에이전트가 생성한 무분별한 PR 스팸을 Git의 --author 플래그와 작성자 검증 로직을 통해 CI 파이프라인에서 효과적으로 차단하는 방법.
Meta와 Anduril의 군용 AI 안경 협력, AI 데이터센터 전력 수요 급증, 그리고 AI 기반 버그 바운티의 변화를 다룹니다.
2025년 11월 변곡점 이후 코딩 에이전트의 실용화와 주요 모델 간 성능 경쟁, 그리고 로컬 모델의 비약적 발전을 다룬다.
의료 영상 세그먼테이션에서 클래스 불균형은 작은 근육·지방 구조의 정확도에 큰 영향을 준다. 기존의 손실 가중치나 이미지 샘플링은 배치 내 클래스 구성을 명시적으로 제어하지 못한다. 본 연구는 episodic sampling을 도입해 배치 구성에서 클래스 균형을 확보하고 학습 예산과의 연관성(반복 횟수)에 따른 confound를 분리함으로써 샘플링 전략의 효과를 재평가한다.
개별 뇌에서 학습된 fMRI 임베딩을 서로 다른 사람의 뇌로 옮겨 같은 좌표계에 배치할 수 있는지 탐구한다. 교차 피험자 조회를 위해 paired inputs 없이도 자가-supervised 방식으로 공간 정렬이 가능하다는 점을 제시하며, 신경생물학과 인공지능 모델 간의 표현 기하를 연결하는 새로운 가능성을 보여준다. 이를 통해 데이터가 서로 다른 사람 간에 재사용 가능하다는 실용적인 시사점을 제공한다.
현실 세계의 임상 워크플로우는 고정된 증거 패키지가 아닌, 다양한 소스에서 동적으로 증거를 탐색하고 융합하는 에이전트를 필요로 한다. ClinSeekAgent는 EHR, 의료 영상, 외부 지식 소스를 통합적으로 탐색하는 자동화된 에이전트 파이프라인을 제시하며, 강력한 인퍼런스 모델의 성능을 개선하고 오픈 소스 모델 학습에도 활용 가능하다.
리소스 제약 환경에서 MoE-dLLM의 대용량 파라미터를 효율적으로 운용하려면 GPU-CPU 간의 I/O 비용과 CPU 계산 병목을 줄여야 한다. TIDE는 expert activations의 시간적 안정성을 이용해 interval-based refresh를 도입하고, 모델 정확도에 영향을 주지 않으면서 추론 속도를 높인다. LLaDA2.0-mini와 LLaDA2.0-flash에서 최대 1.4×, 1.5×의 처리량 개선이 보고된다.
대형 Vision-Language 모델(LVLM)은 의료 분야에서 활용도가 높아졌지만 입력 영상의 시각적 증거에 대한 Grounding이 불충분하여 임상 신뢰에 위험이 있다. 기존 Attribution 방법은 내부 추론과 실제 근거가 일치하는지 확인하기 어렵고 Ground-Truth가 제한적이다. 이 연구는 Chest X-ray(CXR) 데이터에 대해 Ground-truth Attribution의 인과적 타당성을 검증하는 MedGround-Bench를 제시하고, 지역적 임상 개념에 기반한 MedFocus를 통해 시각적 근거를 공간-개념-토큰 차원에서 인과적으로 측정한다. 실험은 11개 Attribution 방법, 6개 LVLM, 3개 CXR 데이터셋, 2가지 출력 모드에서 수행되며, MedGround-Bench를 통해 기존 방법의 한계를 확인하고 MedFocus의 향상을 보여준다.
실세계 에이전트는 정보가 시간이 지남에 따라 지속적으로 업데이트되며 간섭이 발생한다. 기존 벤치마크는 독립적 기억과 단기적 재현에 집중해 장기 맥락의 상호작용과 기억 구성의 한계를 포착하지 못한다. MINTEVAL은 four domains에서의 지속적 업데이트와 간섭으로 인해 메모리 관리가 어려운 환경에서 기억의 검색, 구성, 집계 추론의 강건성을 평가한다.
다룸 규모의 파노라마 합성은 방·문·복도 간의 기하학적 일관성과 재질 일치를 동시에 보장해야 한다. 기존 2D diffusion은 공간 기억이 없어 뷰가 바뀌면 동일 요소의 형상·재질이 달라 보일 수 있고, 단일 3D 자원은 비용 증가와 텍스처 손실이 있다. PanoWorld는 floorplan을 글로벌 기하학적 프록시로 활용하고, 3DGS 캐시를 통한 렌더able 공간 기억으로 다룸 간 크로스-뷰 일관성을 유지한다. 이는 다룸 규모의 VR 투어에서 고해상도 질감과 일관된 구조를 동시에 달성하는 새로운 프레임워크를 제시한다.
에이전트의 스킬은 description, body, metadata 등 다중 필드로 구성되며, 각 필드의 플랫폼 제약이 존재한다. 단일 목표로 최적화를 시도하는 기존 방법은 이러한 다중 제약 하에서 발생하는 trade-off를 놓치기 쉽다. MOCHA는 Chebyshev 스칼라화와 하이퍼볼륨 기반의 탐색, 그리고 탐색-활용 전환을 통해 비선형(non-convex) 영역까지 포괄하는 Pareto front를 발견하고, 6개 스킬에서 일관된 성능 향상을 달성한다.
diffusion/flow 기반 생성모델은 프롬프트 적합성이나 미적 선호도 같은 보상에 맞춰 조정되기 어렵다. 보상은 일반적으로 깨끗한 이미지에 대해 정의되고, 노이즈가 있는 latent에서의 가치 평가가 필요하다. Tweedie 또는 Monte Carlo 접근은 편향 혹은 비용 이슈를 동반한다. StitchVM은 pixel-space reward models를 노이즈 latent으로 이식해, 고정된 head와 작은 finetuning으로 보상 모델의 강점을 그대로 유지하면서 latent 공간에서의 정렬을 가능하게 한다.
대형언어모델의 논리추론은 주어진 전제에서 결론이 반드시 도출되어야 하는 규칙적 추론이다. 기존 벤치마크는 템플릿 의존성이나 불충분한 형식 주석으로 인해 실제 추론 능력을 왜곡할 수 있다. LLMEval-Logic은 현실적 시나리오를 기반으로 forward authoring과 Z3 검증, 전문가 루브릭을 결합하고, 5단계의 adversarial hardening 워크플로우를 통해 frontier 모델의 한계를 보다 명확하게 구분한다.
전문적 미디어 편집은 인터페이스 밀집성과 장기간 실행 흐름으로 인해 일반 GUI 에이전트의 한계를 넘어선다. CutVerse는 186개의 작업, 7개 애플리케이션, Windows VM 기반 실행환경, 멀티모달 로그를 구조화된 GUI Trajectory로 변환하고 Milestone 기반 자동 평가를 통해 실제 포스트프로덕션 워크플로우에서의 에이전트 성능을 체계적으로 비교한다.
에이전트형 LLM의 입력 컨텍스트가 길어지면서 프리필링이 주된 병목이 된다. 기존의 전체 파이프라인에 저비트 양자화를 적용하면 디코딩 품질이 악화될 수 있는데, Mix-Quant은 프리필링에만 NVFP4 양자화를 적용하고 디코딩은 BF16으로 유지해 계산 효율과 생성 품질의 균형을 달성한다. 이로써 긴 맥락과 다회 상호작용이 요구되는 에이전트형 인퍼런스의 효율을 크게 개선한다.
시계열 foundation model이 스케일링에 따라 예측 품질이 향상될 수 있음을 실증한다. Toto 2.0은 내부 observability 데이터와 합성 데이터를 혼합해 학습하고, CPM, quantile head, NorMuon, u-µP를 도입해 대규모에서도 안정적이고 빠른 추론을 보여주며 BOOM, GIFT-Eval, TIME에서 SOTA를 달성한다. 또한 u-µP를 통한 하이퍼파라미터 전이로 다중 규모 모델에서도 동일 구성을 재사용 가능하게 한다.
현실 세계 환경은 소음, 원거리 마이크, 에코, 전송 손실 등 다중 요인이 복합적으로 작용한다. 기존 모델은 단일 요인에 초점을 맞추거나 한정된 합성 조건에서 학습되어 일반화가 제한된다. VOICES-IN-THE-WILD-2M 데이터셋과 A2S-SFT, DG-WGPO를 결합해 음향-의미 간 연결을 단계적으로 강화하고, RL 기반의 동적 보상으로 복합 조건에서도 의미 재구성과 정확도 향상을 달성한다.
다양한 도메인에 걸친 텍스트 아티팩트를 최적화하는 단일 LLM 기반 시스템의 범용성을 보인다. 이 시스템은 단일-task, multi-task, generalization 모드를 하나의 API로 통합하고, 사이드 정보(SI)를 피드백으로 활용해 수렴 속도와 최종 성능을 크게 향상시킨다.
다차원 품질을 필요로 하는 RLVR에서 단일 스칼라 보상은 다양한 실패 모드를 은폐하고 특정 기준의 학습 가능성에 비례한 신호를 주지 못한다. 루브릭은 프롬프트별 여러 기준을 독립적으로 평가하지만, 전통적 합산 방식은 인간의 가중치가 최종 결과의 중요성과 현재 학습 신호의 유용성 둘 다를 나타낸다고 가정한다는 점에서 한계가 있다. POW3R은 루브릭 목표를 보존하면서 학습에 기여하는 기준에 집중하도록 within-category pressure를 재조정한다. 이를 통해 학습 신호의 분포를 넓히고, dead/saturated한 기준의 영향을 줄이며, 학습 효율과 최종 루브릭 점수를 함께 개선한다.
저자 식별은 프리트레이닝된 백본이 스타일 특성을 선형적으로 읽을 수 있게 구성되어 있음에도, 이를 해석하는 읽기 방식의 차이가 AA 성능 차이를 만들어낸다. 본 연구는 availability–use 이분화를 통해 encoder가 이미 정보를 보유하고 있지만, 어떤 스코어링이 이를 언제 어떤 깊이에서 활용하는지가 핵심 문제임을 보인다. LI/PLI 계열은 더 깊은 층에서 신호를 활용하도록 허용하여 mean pooling 대비 성능을 크게 끌어올리는 경향이 확인된다.
메시 데이터는 비정형 삼각분할로 구성되어 학습·생성 시 triangulation 의존성 문제가 제기된다. Matérn Noise를 삼각분할 불변 분포로 활용하고 Flow Matching 프레임워크에 적용하여 denoising을 수행함으로써 다양한 변형을 고해상도 메시에 안정적으로 생성한다. 이를 통해 기존 방법 대비 삼각분할 변화에 대한 일반화 성능을 개선하고, 최대 수십만~백만 삼각Primitive를 가진 메시에 대해 실용적인 생성 가능성을 제시한다.
상업용 AI 탐지기가 포스트-트레이닝Artifacts와 로컬 컨텍스트에 크게 의존한다는 실증적 패턴을 보인다. HIP는 베이스 모델을 패러프레이션 학습으로 재정의하고 이를 반복 적용해, 의미 보존을 유지하면서 탐지기의 인간화 판단에 더 잘 맞는 출력을 만들어낸다. 이러한 현상은 탐지기 설계가 텍스트의 기저 분포 변화에 더 민감해질 필요가 있음을 시사한다.
om-LLMs는 영상 프레임과 오디오 토큰을 텍스트 토큰과 결합해 멀티모달 추론을 수행한다. 다수의 비텍스트 토큰이 LLM 전체에 걸쳐 처리되면 계산량과 메모리 사용이 급증한다. 기존 토큰 선택 방법은 단일 모달에 편향되거나 LLM 내부에서 고정 비율로 토큰을 제거해 교차모달 의존성의 진화를 포착하지 못한다. 제안은 층별 의존성 패턴에 기초해 단계적으로 토큰을 선택·삭제함으로써 성능 저하를 최소화하면서 FLOPs와 프리필 대기시간을 감소시킨다.
LLM의 Chain-of-Thought(COT) 추론은 정답 도출 전 사고를 요구해 응답 지연과 불필요한 토큰 비용을 야기한다. CopT는 draft-first 전략으로 먼저 답을 제시하고, continuous embeddings를 인퍼런스 시 verifiers로 활용하여 draft의 신뢰성을 판단한다. GSM8K, Math500, AIME24/AIME25, HumanEval 등에서 피크 정확도 최대 23% 향상과 토큰 사용량 최대 57% 절감으로 실험적으로 입증된다.
동적 깊이 prune은 드래프트 비용을 낮추지만 MAT를 떨어뜨려 Pareto frontier를 굳건히 만든다. Graft는 pruning으로 해방된 예산을 retrieval으로 보충해 동일 예산에서 후보 범위를 확장하고, lossless한 검증 경로를 유지하며 짧은 컨텍스트와 긴 컨텍스트 양쪽에서 실용적 속도 향상을 달성한다. 대형 모델에서의 평균 속도 up to 5.41×를 기록하고, Qwen3-235B에서 EAGLE-3 대비 평균 속도 향상을 최대 21.8% 달성했다. 또한 LLaMA3.1-8B의 장-context에서 3.22×의 평균 속도를 달성하고 Qwen3-14B에서 EAGLE3-64K 대비 16.6%를 넘었다. DFlash와의 확장 가능성에 대한 초기 탐색도 제시한다.
3D Gaussian Splatting(3DGS)의 학습은 각 프리미티브가 59차원 파라미터를 갖고 전체 파라미터 테이블이 VRAM 용량을 빠르게 소모한다. TideGS는 SSD–CPU–GPU 계층에서 파라미터를 관리하고, GPU에는 현재 카메라 배치에서 활성화된 working set만 materialize하여 메모리 바운드를 완화한다. 그 결과 단일 24 GB GPU에서 1.1B Gaussian으로 대규모 장면의 학습이 가능해졌으며, 대규모 도시 스케일 장면에서도 Native 3DGS 품질을 유지하거나 상향할 수 있다.
긴 컨텍스트에서 반복적으로 동일한 외부 컨텍스트를 다루는 상황에서, 에이전트는 외부 맥락의 구조와 가치 있는 엔터티를 재사용하는 지식을 필요로 한다. PEEK는 컨텍스트 맵이라는 작고 고정된 예산의 프롬프트 내 artefact를 도입해 외부 맥락에 대한 방향 지식을 지속적으로 축적·갱신하고, 반복 작업의 이해도와 추론 효율성을 높인다. 이를 통해 RAG, 컨텍스트 오프로깅, 프롬프트 학습 기반 방법의 한계를 보완한다.
동적 3D 장면의 고품질 4D 메시지 생성을 위한 학습 데이터 의존성을 낮추고, 프레임 간 일관성을 유지하면서도 수십 초 단위의 속도로 처리한다. backbone이 고정된 상태에서 어텐션 체인을 활용해 앵커 메시지와 프레임 간 매핑을 얻으므로 추가 학습 없이도 4D 추적과 카메라 추정 같은 다운스트림 작업에 활용 가능하다. 더 길어진 시퀀스에서도 correspondences를 보강해 드리프트를 줄이고 안정성 있는 롤아웃을 달성한다.
현존 벤치마크는 데이터 다양성·생성 설정의 확장성 면에서 한계가 있다. MSAVBench는 비디오, 오디오, 샷 수, 레퍼런스의 네 차원에 걸친 포괄적 커버리지를 제공하고, 샷 경계의 self-correction과 주관 지표의 인스턴스-루브릭 기반 평점, 외부 도구를 활용한 증거 기반 평가를 도입해 현대 MSAV 모델의 다면적 성능을 더 신뢰성 있게 측정한다. 또한 19개 모델에 대한 체계적 비교를 통해 공개형 파이프라인의 개선 가능성과 현행 시스템의 한계를 진단한다.
RLVR에서 모든 토큰에 동일한 보상 신호를 주는 문제를 해결한다. CEPO는 올바른 답(r+)과 잘못된 답(r−)를 구별해 토큰 단위의 대조 신호를 계산하고, 결정적인 토큰에만 큰 신호를 부여한다. 그 결과 학습 속도와 샘플 효율이 개선되며 정보 누수 문제를 방지한다.
다중 모달 입력의 추상적· sparse한 제어 신호를 이해하고 싶은 프로덕션 워크플로우에서 기존 모델은 의도와 출력의 불일치를 겪었다. CogOmniControl은 CogVLM으로 창의적 의도를 인지하고 CogOmniDiT로 해당 의도에 맞춘 비디오 출력을 생성하며, Best-of-N 선택과 evaluator-harness를 통해 클로즈드 루프를 구현한다.
연구는 아이디어에서 논문까지의 선형 경로가 아니라 다각적 검토와 실패로부터의 학습을 축적하는 순환 과정이다. AutoResearchClaw는 구조적 multi-agent debate, self-healing execution, verifiable result reporting, HITL 협업, cross-run evolution의 다섯 가지 메커니즘을 결합해 가설 품질, 실행 강건성, 과거 경험의 누적을 함께 향상시킨다. ARC-Bench에서 AI Scientist v2 대비 54.7%의 성능 차이를 보여주며, 인간의 판단을 보완하는 연구 확장자(리서치 어플리파이어)로 자리매김한다.
다양한 데스크탑 소프트웨어를 사용하는 에이전트의 평가와 학습은 화면 기반 신호에 의존하기 쉽다. OpenComputer는 앱별 상태 검증기, 실행 기반 피드백 루프, 검증-지향 태스크 생성, auditable 평가 해Harness를 결합해 실제 소프트웨어 상태를 기반으로 보상을 산출하고 재현 가능성을 확보한다. 이로써 LLM-judge에 의한 평가 편향을 줄이고, 복잡한 애플리케이션 상태의 정합성을 확보한다.
긴 문서 및 다중 문서 분석에 필요한 장문맥 이해 능력을 강화하기 위한 실용적 경로를 제시한다. 23K 샘플의 RLVR 데이터세트와 9개 태스크로 구성된 다중 보상 구조, 그리고 TMN-Reweight를 통해 cross-task 보상 스케일과 난이도 편향을 함께 조정한다. 이 조합은 기존 GRPO 기반 접근보다 장문맥 성능과 일반화 능력을 향상시키는 실질적 효과를 나타낸다.
LangGraph.js와 WebMCP를 활용해 브라우저 사이드패널에서 직접 실행되는 오픈소스 AI 에이전트 Brow를 소개한다.
LangChain의 LCEL과 같은 추상화가 에이전트 구현을 복잡하게 만든다는 비판과 함께, 에이전트를 단순 Python 함수로 정의하는 방식이 더 효율적이라는 주장을 담은 토론.
Anthropic의 Claude Code Desktop을 대체하는 오픈소스 프로젝트 cdesktop으로, 다양한 모델과 에이전트를 지원하며 로컬에서 실행 가능함.
Claude Code에서 MCP 서버를 과도하게 사용하면 컨텍스트 윈도우 낭비와 모델 성능 저하가 발생하며, 이를 해결하기 위해 BM25 기반 게이트웨이 패턴을 도입해야 한다.
모델 가중치에 접근하지 않고도 LLM의 행동을 외부에서 분석하여 위험을 탐지하는 블랙박스 행동 분석 프레임워크 PSA를 소개합니다.
기업은 기후 변화로 인한 물리적 리스크를 재무적 관점에서 평가하고, 데이터 인프라를 통해 적응 투자를 체계화한다.
버그, 보안, 성능을 담당하는 3개의 서브 에이전트와 자체 평가 루프를 통해 코드 수정안을 검증하는 에이전트 기반 PR 리뷰어 프로젝트.
챗봇을 넘어 업무를 자동화하고 데이터를 관리하는 개인용 AI 에이전트를 구축하기 위한 시스템 설계, 메모리 관리, 에이전트 운영 등 100가지 실전 가이드.
Claude CLI를 TMUX 세션에서 대화형으로 실행하고 MCP를 통해 함수 도구를 지원하는 ClaudeInteractiveClient가 공개되었습니다.
Claude Code의 슬래시 명령어를 활용하여 콘텐츠 생성부터 발행까지 자동화하는 SEO 파이프라인 구축 사례와 성과.
에이전트 AI는 자산 수명 주기 관리에서 단순 데이터 기록을 넘어 실시간 추론과 행동을 수행하여 운영 효율을 높인다.
구글이 Workspace 전반에 Gemini를 공격적으로 통합하면서 사용자 경험 저하와 AI 피로감을 유발하고 있다.
Tokoro는 LLM을 활용해 웹상의 이벤트 정보를 추출하고 지리적 위치 기반으로 통합 관리하는 오픈소스 이벤트 캘린더 플랫폼입니다.
Claude 플랫폼에서 에이전트를 제어 가능한 환경에서 실행하는 셀프 호스팅 샌드박스와 보안 연결을 위한 MCP 터널 기능이 추가되었다.
Claude Certified Architect – Foundations 시험은 단순 암기가 아닌 에이전트 설계, 최소 권한 원칙, 과잉 설계 방지 등 실무적 아키텍처 판단 능력을 평가한다.
AI 시스템의 부당한 거절 결정에 맞서 실제 법률 근거를 제시하며 설득하는 법을 연습하는 시뮬레이션 플랫폼 FixAI.
코딩 에이전트 간 파편화된 메모리 문제를 해결하기 위해 프로젝트 인프라로서의 공유 메모리 계층인 AgentMemory를 개발했다.
Claude Code 사용 중 작업 흐름을 방해하지 않고 아이디어를 별도로 기록할 수 있는 플러그인 'claude-stash'를 개발하여 공유함.
현재의 프로세스 종속적인 AI 에이전트 구조를 넘어, 세션과 기기를 초월해 의도와 맥락을 유지하는 오케스트레이터 계층의 필요성을 제안함.
롤플레잉 모델의 성격에 따라 프롬프트 인젝션 공격의 성공 여부가 크게 달라진다는 실험 결과와 '인질극' 기법에 대한 토론.
AI가 UI를 더 정확하게 생성하도록 돕는 200개 이상의 구조화된 디자인 명세 라이브러리를 공유하고 활용 방안을 논의함.
Chunker는 문서를 의미 단위로 분할하고 계층적 요약을 생성하여, AI 모델이 전체 문서를 로드하지 않고도 필요한 정보에 단계적으로 접근하게 돕는 도구입니다.
LLM 에이전트가 코드를 수정할 때 전체 텍스트를 다시 쓰지 않고, 라인 번호와 체크섬 태그를 활용해 토큰 사용량을 줄이는 효율적인 편집 도구를 제안한다.
프론티어 랩 취업을 위한 커널 튜닝 역량의 중요성과 에이전트 인프라, 최신 모델 및 추론 최적화 기술 동향을 정리함.
Glia는 SQLite와 Ollama를 기반으로 로컬에서 실행되는 RAG 및 메모리 레이어로, 다양한 AI 웹 채팅과 개발 도구를 통합하여 개인화된 지식 관리를 지원한다.
Claude Design, TTS, STT 모델을 결합하여 오디오와 영상이 정렬된 설명 영상을 제작하는 워크플로우를 소개한다.
멀티 테넌트 RAG 시스템에서 공유 인덱스 사용 시 발생하는 BM25 가중치 왜곡과 운영 병목 문제를 해결하기 위한 아키텍처 설계 고민.
AI 에이전트의 세션 컨텍스트를 Git Notes에 저장하여 PR 리뷰 시 코드 변경 의도와 추적성을 확보하는 접근 방식을 제안함.
AI 에이전트 간의 명시적 불일치와 명확화를 강제하여 코드 품질을 높이는 오픈소스 워크플로우 'Co-Evolution'을 소개합니다.
Databricks Apps로 구조를 자동 변환하고 Genie로 로직을 재구성하여, 복잡한 노트북 마이그레이션 시간을 수 시간에서 15분으로 단축했다.
Strava 활동 데이터와 Runna 훈련 일정을 연동하여 개인 맞춤형 영양 목표와 운동 계획을 제공하는 로컬 서버 기반 대시보드 구축 사례.
AI 에이전트가 매 실행마다 연구, 초안, 평가, 메모 등 검토 가능한 아티팩트를 생성하게 하여 워크플로의 투명성과 개선 가능성을 높이는 방법론.
Microsoft 365 Graph API 권한 없이 Power Automate 웹훅과 MCP 서버를 결합하여 Claude의 M365 자동화 기능을 구현함.
Fathom은 모든 상호작용을 '델타'로 저장하고 '아이덴티티 크리스탈'을 통해 사용자의 맥락을 기억하는 AI 메모리 및 정체성 시스템이다.
Claude Code를 단순한 채팅 인터페이스가 아닌, 템플릿 기반의 OS처럼 활용하여 18개 프로젝트를 동기화하고 관리하는 시스템 구축 전략.
Claude Code와 연동하여 개발 중 발견한 이슈를 티켓으로 생성하고, AI 에이전트가 코드를 수정, QA, PR까지 자동 수행하는 MCP 서버 'notesasm' 소개.
개별 터미널 세션 관리에서 벗어나, 컨텍스트와 도구를 갖춘 전담 에이전트를 오케스트레이션하는 미래 워크플로를 제안합니다.
LLM 추론 시 발생하는 메모리 및 PCIe 인터커넥트 병목 현상을 NVIDIA GH200과 같은 Superchip의 고속 NVLink-C2C로 해결하는 기술적 접근을 다룸.
Nitsum은 텐서 병렬 처리를 런타임에 동적으로 재구성하여, 다양한 SLO 요구사항을 가진 LLM 요청을 고정된 GPU 자원에서 효율적으로 처리하는 서빙 시스템이다.
로컬 AI 에이전트가 웹 데이터를 효율적으로 수집할 수 있도록 돕는 종량제 기반 Markdown 스크래퍼 MCP 서버를 개발하여 공유했다.
블랙스톤과 구글이 50억 달러 규모의 합작 투자를 통해 2027년까지 500MW 규모의 TPU 클라우드 인프라를 구축한다.