메타, 부모가 자녀의 AI 대화 주제를 확인하는 새로운 감독 기능 공개
메타가 부모가 자녀의 Meta AI 사용 주제를 모니터링하고 안전한 대화를 유도할 수 있는 인사이트 탭과 전문가 자문 위원회를 도입했다.
총 100건
메타가 부모가 자녀의 Meta AI 사용 주제를 모니터링하고 안전한 대화를 유도할 수 있는 인사이트 탭과 전문가 자문 위원회를 도입했다.
텐센트가 295B 전체 파라미터 중 21B만 활성화하여 효율성을 극대화하고 추론 및 코딩 성능을 대폭 개선한 MoE 기반 Hy3 Preview 모델을 발표했습니다.
Podman은 루트리스 실행과 데몬리스 구조를 바탕으로 systemd 통합, Kubernetes YAML 생성, 부팅 가능 컨테이너 등 개발 효율을 극대화하는 5가지 핵심 기능을 제공한다.
신발 브랜드 올버즈의 AI 컴퓨팅 인프라 기업 전환 사례를 통해 GPU 중심의 특화 클라우드인 네오클라우드 시장의 급성장과 업계 변화를 분석합니다.
SAP의 CTO Philipp Herzig가 엔터프라이즈 환경에서의 AI 도입 과제, 데이터 계층의 중요성, 그리고 AI 기반 비즈니스 프로세스 혁신 전략을 공유했다.
AI 에이전트가 코드의 숨은 의도를 잊지 않도록 소스 파일과 1:1로 대응하는 마크다운 문서 트리를 구축하여 컨텍스트 손실 문제를 해결한 사례이다.
오픈소스 프레임워크 ragbits 1.6은 AI 에이전트가 복잡한 과업을 스스로 분할하고 실행 과정을 실시간으로 공유하며 세션 간 정보를 기억하는 기능을 추가했다.
LLM 에이전트의 발전을 모델 내부 가중치가 아닌 메모리, 스킬, 프로토콜 등 외부 인프라로 기능을 전이하는 '외재화' 관점에서 분석한 연구입니다.
환경 간 시스템 프롬프트 불일치 문제를 해결하기 위해 버전 관리, 환경별 오버라이드, 롤백 기능을 포함한 구조적 관리 체계를 구축했다.
AI 활용 능력을 Sentinel, Architect 등 5가지 원형과 10개 클러스터로 분류하여 체계적인 학습 프레임워크를 제시했다.
8개의 설문 입력만으로 58가지 신체 파라미터를 정밀하게 예측하는 85KB 크기의 소형 MLP 모델과 물리 법칙을 통합한 손실 함수 설계 사례이다.
기업 내 AI 에이전트가 급증하며 관리 주체와 지침을 파악하지 못하는 '혼돈의 단계'에 진입함에 따라 운영 거버넌스 도구의 필요성이 대두되었다.
macOS의 pmset과 cron을 활용해 새벽에 Claude Code를 자동 실행하고 업무 컨텍스트를 미리 준비하는 워크플로이다.
선형 회귀 분석의 핵심인 모델 구조, 최소제곱법 학습 원리, 결정계수를 통한 성능 평가 방법을 구체적인 사례와 함께 설명한다.
자율 주행 시스템의 안전성을 높이기 위해 대규모 센서 데이터에서 희귀하고 복잡한 엣지 케이스를 효율적으로 탐지하고 주석을 달기 위한 4가지 핵심 방법론과 워크플로를 제시합니다.
115개 AI 코딩 도구의 무료 티어 지속 시간을 비교 분석한 웹사이트에 GLM 코딩 플랜과 교육용 기능 필터가 새롭게 추가됐다.
LLM 프롬프트를 통해 브라우저 로컬 스토리지를 활용한 데이터 영속성을 갖춘 스티키 메모 웹 UI를 구현했다.
K-최근접 이웃(KNN) 알고리즘의 거리 척도, K 선택, 정규화, 결정 경계 등 핵심 개념을 시각적으로 분석한 교육 자료이다.
작성자가 GPT-2 모델을 124M부터 1.5B 파라미터까지 직접 구현하고 학습하며 얻은 최적화 노하우와 스케일링 법칙 데이터를 공유했다.
MMLU 벤치마크를 기반으로 소형 모델 실행 여부를 결정하여 전체 토큰 비용과 페널티를 최소화하는 Kaggle 경진대회가 개최됐다.
모델의 내부 잔차 스트림을 분석하여 텍스트 분류 방식보다 높은 정확도로 프롬프트 주입을 탐지하는 Arc Sentry가 공개됐다.
후지쯔와 CMU가 실세계 상호작용을 위한 피지컬 AI 핵심 기술 연구 및 사회적 구현을 목표로 공동 연구 센터를 설립했다.
구글의 8세대 TPU 발표와 Qwen 3.6-27B 모델 출시를 중심으로, AI 에이전트 플랫폼 경쟁과 효율적인 토큰 사용 전략인 'Tokenmaxxing' 트렌드를 다룹니다.
Claude Code의 한계를 극복하기 위해 메모리, 스킬 라이브러리, 자동화 레이어, 대시보드 UI를 결합한 에이전트 OS 설계 방법론을 제시한다.
A40 GPU 환경에서 Qwen 모델을 기반으로 1M 컨텍스트 윈도우를 구현하고 도구 사용 기능을 71개로 확장하여 고성능 추론 시스템을 구축했다.
테슬라가 AI 인프라와 옵티머스 로봇 양산을 위해 2026년 자본 지출을 250억 달러로 대폭 늘리며 AI 기업으로의 전환을 가속화한다.
Augment Code 팀이 수십 개의 AGENTS.md 파일을 분석하여 코딩 에이전트의 성능을 극대화하는 문서화 패턴과 함정을 공개했다.
Transformer 아키텍처의 핵심 원리부터 사전 학습 전략, RAG, 에이전트 및 최신 연구 트렌드까지 포괄적으로 다루는 스탠포드 대학의 AI 세미나 강의이다.
Stanford CS25 세미나에서 발표된 이 영상은 픽셀 재구성 대신 잠재 공간에서의 예측을 통해 효율적이고 인과적인 세계 모델을 구축하는 JEPA 아키텍처와 최신 연구 사례를 다룬다.
X가 Grok AI를 활용해 75개 이상의 특정 주제를 실시간으로 분류하고 개인화된 피드로 제공하는 '맞춤형 타임라인' 기능을 프리미엄 사용자에게 출시했다.
게임 UI는 일반 앱과 달리 비정형적인 모양과 복잡한 계층 구조를 가져 자동화가 어려웠으나, SPRITE는 이를 해결하여 개발자가 수동으로 에셋을 자르고 배치하는 반복 작업을 획기적으로 줄여줍니다. 비전문가도 스케치만으로 실제 게임 엔진에서 작동하는 프로토타입을 즉시 생성할 수 있게 합니다.
현재의 멀티모달 AI 모델들이 단순히 이미지를 묘사하는 수준을 넘어, 인간처럼 머릿속으로 물체를 회전시키거나 복잡한 패턴을 추론하는 능력이 있는지를 엄격하게 검증합니다. 인간과 AI 사이의 거대한 인지적 격차를 수치로 증명하여, 차세대 AI가 나아가야 할 시공간 추론 연구 방향을 제시합니다.
수백~수천 개의 예시를 활용하는 Many-Shot ICL의 성능 특성과 최적의 예시 선택 전략을 실험을 통해 분석한 가이드입니다.
NVIDIA의 Parakeet-TDT 모델과 AWS Batch GPU 스팟 인스턴스를 결합하여 시간당 수 센트 수준의 비용으로 대규모 다국어 음성 전사 파이프라인을 구축하는 방법
OpenAI의 차세대 모델 유출 소식과 함께 구글과 OpenAI의 기업용 에이전트 플랫폼 경쟁, 그리고 앤스로픽의 요금제 변경 이슈를 다룹니다.
Databricks가 LLM 에이전트를 활용해 SQL 조인 순서를 최적화한 결과, 기존 옵티마이저 대비 80%의 케이스에서 성능을 개선하고 평균 지연 시간을 1.3배 단축했다.
엘리자베스 워런 상원의원은 AI 기업들의 과도한 지출과 불투명한 부채 구조가 2008년 금융 위기와 유사한 시스템적 리스크를 초래할 수 있다고 경고하며 규제 강화를 촉구했다.
OpenAI가 비즈니스 및 교육용 플랜 사용자를 대상으로 클라우드 기반의 자율형 워크스페이스 에이전트를 공개하며 기존 GPTs의 진화된 형태를 제시했다.
기술 문서 대신 전문가의 YouTube 강연 전사본을 프롬프트 컨텍스트로 활용하여 AI 출력의 구체성과 실용성을 높이는 방법론이다.
벤치마크 평가 전 모든 모델을 동일하게 파인튜닝하는 Train-before-Test 기법을 통해 벤치마크 간 순위 일관성을 획기적으로 높일 수 있다.
MacBook 노치 영역을 활용해 Claude Code의 세션 상태, 권한 승인, 활동 히트맵을 실시간으로 보여주는 오픈소스 도구 Notch Pilot이 공개됐다.
Gemini와 Claude 등 멀티 LLM을 활용하여 아이디어를 심층 조사하고, 세션 로그와 교차 검증을 통해 AI 코딩의 오류를 잡아내는 체계적인 개발 워크플로를 제안한다.
볼록 공액 쌍대성을 기반으로 딥러닝 모델의 학습 가능성과 일반화 오차를 수학적으로 규명하고 데이터가 학습의 근본 한계를 결정함을 증명한 연구이다.
생성형 AI 도구로 제작된 웹사이트들이 시각적으로 획일화되는 '디자인 슬롭' 현상을 분석하고, 이를 자동 평가 시스템으로 탐지한 실험 결과와 시사점을 공유한다.
에이전트 간 격리 없이 동일한 파일 시스템과 지속성 메모리를 공유하여 협업 효율을 극대화한 로컬 CLI 프레임워크 AIPass가 공개되었다.
5가지 모달리티를 통합하는 VATSA 프로젝트의 시각 모듈을 EfficientNet-B0와 PyTorch로 구현하여 96%의 정확도와 초당 1336개의 임베딩 처리 성능을 확보했다.
단순한 표현 재작성을 넘어 지속적인 상태 전이와 재진입 메모리를 활용하는 새로운 AI 아키텍처 CTNet이 제안되었다.
미국 연방법원은 AI와의 대화가 변호사-의뢰인 특권 보호를 받지 못하며 법정에서 증거로 사용될 수 있다고 판결했다.
구글이 Gemini를 활용해 구글 시트 자동 완성 및 문서 작성 스타일 매칭 기능을 포함한 워크스페이스 AI 업데이트를 발표했다.
수학이나 논리 영역에서 혁신을 일으킨 Chain-of-Thought(CoT) 기법이 시각적 공간 추론에서는 오히려 성능을 떨어뜨린다는 사실을 발견했습니다. 모델이 이미지의 실제 기하학적 구조를 파악하기보다 텍스트 정보에만 의존해 환각을 일으키는 '지름길 학습' 문제를 지적하며, 진정한 시각 지능을 위한 새로운 학습 패러다임의 필요성을 제시합니다.
최근 LLM의 추론 시간(Inference-time compute)을 늘려 성능을 높이려는 시도가 많지만, 탈중앙화 자율 조직(DAO)과 같은 적대적 환경에서는 오히려 성능이 급격히 저하되는 '연산-정확도 역전' 현상이 발생함을 입증했습니다. 특히 9B 이하의 소형 언어 모델(SLM)이 복잡한 법률적 판단을 내릴 때, 과도한 추론 과정이 모델을 혼란에 빠뜨려 합의 시스템의 안정성을 해칠 수 있음을 경고합니다.
기존의 회귀 분석은 정수 레이블을 연속적인 값으로 간주하고 반올림하는 방식에 의존해 데이터의 이산적 특성을 무시하는 한계가 있었다. 이 논문은 역전파가 가능한 연속적인 파라미터를 유지하면서도 정수 공간에서 직접 확률을 정의하는 새로운 이산 분포들을 제안하여 예측의 정확도와 해석력을 동시에 높였다.
대형 시각-언어 모델(LVLM)이 이미지와 무관한 답변을 생성하는 환각 현상은 신뢰성을 저해하는 고질적인 문제입니다. 이 논문은 추가적인 데이터 학습이나 외부 감독 없이 추론 단계에서 환각을 실시간으로 감지하고 수정하는 PSRD 프레임워크를 제안하여 모델의 정확도를 획기적으로 높였습니다.
스마트워치나 스마트 글래스 같은 저전력 기기에서 클라우드 AI를 사용할 때 발생하는 수 초간의 응답 지연 문제를 해결합니다. 기기 내부의 초소형 모델이 응답의 첫 마디를 즉시 생성하고 클라우드가 이를 이어받는 협업 방식을 통해 사용자에게 끊김 없는 대화 경험을 제공합니다.
LLM이 단순히 텍스트를 생성하는 것을 넘어 양자 컴퓨팅, 알고리즘 공학, 수학적 난제 해결 등 실제 과학적 발견의 도구로 활용될 수 있음을 증명했다. 특히 모델 자체의 크기를 키우는 것보다 '평가 피드백 루프'를 체계적으로 확장하는 것이 복잡한 최적화 문제 해결에 더 결정적일 수 있다는 새로운 연구 방향을 제시한다.
기존 멀티 에이전트 시스템은 단일 사용자의 목표를 수행하는 데 국한되어 서로 다른 이해관계를 가진 사용자 간의 협업을 지원하지 못했다. ClawNet은 신원 바인딩과 권한 제어 메커니즘을 도입하여 에이전트가 실제 인간 사용자를 대리해 안전하고 책임감 있게 협업할 수 있는 인프라를 제공한다.
대형 언어 모델(LLM)이 실제 환경에서 왜 오답을 내는지 내부 메커니즘을 통해 분석하는 연구이다. 기존의 단순 결과 비교를 넘어 모델 내부의 정보 흐름을 추적함으로써, 모델 크기 확장이나 추가 학습이 실제로 문제를 해결하는지 아니면 겉모습만 바꾸는지 진단할 수 있는 도구를 제공한다.
화학 및 재료 과학의 핵심 도구인 DFT는 정확도와 계산 비용 사이의 고질적인 트레이드오프 문제를 안고 있었다. Skala는 딥러닝을 통해 저렴한 계산 비용을 유지하면서도 고비용 하이브리드 범함수를 능가하는 정확도를 달성하여, 실험실 수준의 예측을 컴퓨터 시뮬레이션으로 대체할 수 있는 길을 열었다.
LLM이 최적화 시스템의 핵심 엔진으로 사용되고 있지만 그 작동 원리에 대한 이해는 부족했다. 이 논문은 단순히 똑똑한 모델보다 해결책을 미세하게 조정하는 능력이 뛰어난 모델이 실제 최적화 작업에서 더 높은 성과를 낸다는 사실을 밝혀내어 효율적인 AI 시스템 설계 방향을 제시한다.
이산 확산 모델(UDM)에 강화학습을 직접 적용할 때 발생하는 학습 불안정성과 성능 저하 문제를 해결한 최초의 프레임워크입니다. 정확한 액션 정의와 궤적 재구성을 통해 텍스트-이미지 생성 및 OCR 성능을 획기적으로 개선하여 이산 도메인 생성 모델의 새로운 학습 표준을 제시합니다.
최근 AI 모델의 성능을 AI가 직접 평가하는 'AI 판사' 방식이 확산되고 있으나, 이들이 시각 정보를 무시하거나 텍스트에만 의존하는 심각한 편향이 있음이 밝혀졌다. 본 논문은 이러한 '구성적 편향'을 체계적으로 측정할 수 있는 벤치마크를 제시하여 더 공정하고 신뢰할 수 있는 AI 평가 시스템 구축의 기반을 마련했다.
기존의 클릭률(CTR) 예측 모델은 성능을 높이기 위해 파라미터 수를 늘려야 했고, 이는 산업 현장의 엄격한 지연 시간 제약과 충돌했다. LoopCTR은 동일한 모델 레이어를 반복 재사용하는 루프 스케일링 방식을 통해 파라미터 증가 없이도 연산량을 조절하며 성능을 극대화한다. 특히 학습 시에는 여러 번 반복하지만 추론 시에는 단 한 번의 연산만으로도 기존 모델들을 압도하는 효율성을 보여준다.
LLM의 모든 레이어를 균일하게 학습시키는 기존 LoRA 방식의 비효율성을 해결하기 위해, 기하학적 궤적 분석을 통해 학습이 꼭 필요한 핵심 레이어만 골라내는 새로운 방법론을 제시한다. 이를 통해 연산 자원을 대폭 절감하면서도 수학 추론 등 복잡한 작업에서 더 높은 성능을 달성할 수 있음을 입증했다.
기존의 사진 편집 AI는 사용자가 구체적으로 무엇을 고칠지 명령해야 했으나, 이 논문은 AI가 직접 이미지의 심미적 결함을 분석하고 보정 전략을 세우는 자동화 프레임워크를 제안한다. 이는 전문 지식이 없는 일반 사용자도 고품질의 사진 보정 결과물을 얻을 수 있게 하며, 복합적인 보정 작업을 단일 모델 내에서 해결한다.
기존 3D 비전 모델들이 생성이나 이해 중 한 가지 작업에만 특화되어 파편화되어 있던 한계를 극복했다. 단일 아키텍처 내에서 생성과 이해가 서로 정보를 주고받으며 성능을 높이는 시너지를 창출하고, 재학습 없이 텍스트만으로 정밀한 3D 편집이 가능하다.
LLM의 내부 뉴런 활성화 패턴을 분석하여 특정 타겟 작업에 가장 적합한 학습 데이터를 선별하는 새로운 프레임워크를 제안한다. 기존의 블랙박스 방식과 달리 모델의 '기능적 중추'를 직접 활용함으로써 학습 효율을 극대화하고 데이터 선택 과정의 투명성을 확보한다.
대규모 비디오 생성 모델의 추론 속도를 획기적으로 개선하면서도 고품질 결과물을 유지할 수 있는 새로운 프레임워크를 제시합니다. 기존 LLM에서 사용되던 Speculative Decoding 기법을 연속적인 데이터인 비디오 영역에 성공적으로 이식하여 실시간 스트리밍 비디오 서비스의 가능성을 열었습니다.
기존 비디오 생성 모델은 시각적으로는 그럴듯하지만 실제 세계의 지리적 구조를 정확히 반영하지 못하는 한계가 있었다. CityRAG는 대규모 지리 정보 데이터셋을 활용하여 실제 도시의 건물과 도로 구조를 유지하면서도 날씨나 조명 같은 가변적 요소만 자유롭게 조절할 수 있는 기술적 토대를 마련했다.
태스크 산술이 왜 성공하는지에 대한 근본적인 이론적 설명을 제공하고, 이를 바탕으로 모델 병합 시 발생하는 태스크 간 간섭 문제를 해결하는 새로운 정규화 기법을 제시한다. OrthoReg를 통해 추가 학습 없이도 여러 모델의 능력을 더 정교하게 결합하거나 특정 능력을 깨끗하게 제거할 수 있다.
전 세계 인구의 70%가 두 개 이상의 언어를 섞어 쓰는 '코드 스위칭' 환경에 살고 있음에도 불구하고, 현재의 AI 검색 시스템은 단일 언어 처리에만 최적화되어 있습니다. 이 논문은 최신 다국어 모델조차 혼합 언어 쿼리에서 심각한 성능 저하를 겪는다는 사실을 입증하며, 향후 RAG 및 검색 시스템이 해결해야 할 새로운 기술적 경계를 제시합니다.
기존 검색 시스템은 단순히 주제가 비슷한 문서를 찾는 데 집중하여 사용자의 구체적인 제약 조건을 무시하는 경우가 많습니다. 이 논문은 동일한 문서 쌍에 대해 정반대의 지시어를 생성하여 학습시키는 기법을 통해 검색 모델이 지시어의 미세한 차이를 정확히 구분하도록 만듭니다.
기존의 LLM-as-a-Judge 방식은 텍스트 표면의 정보에만 의존하여 복잡한 환경에서 동작하는 에이전트를 평가하는 데 한계가 있었다. 이 논문은 에이전트가 직접 도구를 사용하고 환경을 탐색하며 증거를 수집해 평가하는 Agent-as-a-Judge 패러다임을 제안하고 이를 위한 체계적인 벤치마크를 구축했다.
현재 산업 현장에서 신뢰성 있는 AI 서비스를 위해 Dify나 Coze 같은 워크플로 플랫폼이 널리 쓰이지만, 복잡한 로직을 수동으로 설계하는 데 많은 비용이 듭니다. 이 논문은 자연어 지시사항을 실제 실행 가능한 시각적 워크플로로 자동 변환하는 기술의 가능성과 한계를 체계적으로 평가할 수 있는 벤치마크를 제공합니다.
기존 LoRA 방식은 모델의 각 가중치 층에 파편화된 수정을 가해 구조적으로 종속되는 한계가 있었다. ShadowPEFT는 별도의 경량화된 섀도우 모델을 통해 층 단위의 정교한 보정을 수행하며, 이를 통해 성능 향상은 물론 모델을 뗐다 붙였다 할 수 있는 모듈식 배포가 가능해졌다.
기존의 AI 코드 생성 모델들은 텍스트 기반의 정답 확인에는 능숙하지만, 게임이나 앱처럼 사용자와 상호작용하는 화면(GUI)을 만드는 데는 큰 한계를 보였다. 이 논문은 AI가 직접 화면을 조작하고 시각적 피드백을 받아 코드를 스스로 고치는 기술을 통해, 실제로 '플레이 가능한' 수준의 복잡한 소프트웨어를 만들 수 있는 길을 열었다.
기존의 테스트 시간 학습(TTT)은 추론 과정에서 모델을 업데이트할 때 정답 레이블이 없어 성능이 정체되거나 답변의 다양성이 급격히 떨어지는 한계가 있었다. TEMPO는 레이블이 있는 데이터로 비판 모델(Critic)을 주기적으로 재보정하는 방식을 도입해 추론 단계에서도 모델 성능이 지속적으로 우상향할 수 있음을 증명했다.
기존 LLM 에이전트는 프롬프트에만 의존해 복잡한 제어가 어렵거나 Python 코드와 강하게 결합되어 유지보수가 힘들었다. AgentSPEX는 이를 해결하기 위해 YAML 기반의 선언적 언어를 도입하여 비개발자도 복잡한 에이전트 워크플로를 설계하고 정밀하게 제어할 수 있는 환경을 제공한다.
기존 비디오 생성 모델은 손가락이 뭉개지거나 물체가 몸을 뚫고 지나가는 등 물리적 일관성이 부족한 문제가 있었다. CoInteract는 Diffusion Transformer 내부에 인간의 구조적 정보와 상호작용 기하학 제약 조건을 직접 통합하여, 추가적인 연산 비용 없이도 매우 사실적인 상호작용 비디오를 생성한다.
실제 서빙 환경의 제약을 고려하여 Hadamard 회전과 INT4 양자화를 결합해 성능 저하 없이 KV 캐시 메모리를 효율적으로 압축하는 SAW-INT4 기법이 제안됐다.
U-Net과 ResNet50V2 백본을 결합하여 초음파 영상 내 병변 부위를 정밀하게 분할하는 딥러닝 모델을 구축하고 Gradio로 배포했다.
한 학생 개발자가 LSTM과 Dense 레이어를 결합한 경량 모델을 구축하고 Int-8 양자화를 통해 성능 저하 없이 모델 크기를 35KB까지 줄인 사례이다.
로봇의 물리적 구조와 피드백 제어의 결합인 체화된 지능을 통해 복잡한 지형에서 다각 로봇의 이동 성능을 극대화하는 방법론을 제시한다.
여러 Claude Code 세션의 도구 활동, 컨텍스트 압박, 캐시 상태를 실시간으로 감시하는 Rust 기반 로컬 모니터링 도구 Clauditor가 공개됐다.
Claude Opus가 전문적인 비판 맥락을 오해하여 발생한 부적절한 거부 사례를 분석하고, 안전 필터링이 초래하는 시스템적 비효율성과 인식적 한계를 자가 보고했다.
Claude Code와 OpenClaw 등 서로 다른 AI 에이전트들이 MCP를 통해 메시지를 주고받으며 협업할 수 있게 해주는 통신 브로커 Swarmbus가 공개됐다.
Codex 5.5의 성능 향상과 OpenAI의 공격적인 사용량 정책으로 인해 Claude Code의 상대적 경쟁력이 약화되고 있다는 분석이 제기됐다.
Claude Code와 같은 코딩 에이전트를 활용해 프롬프트로 정밀한 3D CAD 모델을 생성하고 편집할 수 있는 오픈소스 도구 text-to-cad가 출시됐다.
Claude Code를 Architect부터 Documenter까지 5가지 역할로 나누어 자율적으로 실행하는 Python 기반 오케스트레이션 도구 Huragok이 공개됐다.
HydraLM은 100만 토큰의 긴 문맥에서 100%의 검색 정확도와 99.8%의 연산량 절감을 달성하며 추론 효율성을 입증했다.
25,000번의 실험 결과, AI 과학자 에이전트가 수집된 증거를 무시하고 모순된 데이터 앞에서도 가설을 수정하지 않는 등 과학적 추론 능력이 결여되었음이 확인됐다.
단순 시맨틱 검색 기반 RAG의 한계를 극복하기 위해 의사결정을 구조화된 이벤트로 저장하고 인과관계를 따라 추론하는 Core Memory 기법을 제안한다.
비전공자 사용자가 Cursor, Claude, ChatGPT를 활용해 iOS 앱의 다국어 통화 지원 및 세금 추적 기능을 성공적으로 구현하고 유지보수한 경험을 공유했다.
20개 이상의 클라우드 제공업체로부터 7시간마다 GPU 가격 데이터를 자동 수집하여 최적의 학습 및 추론 자원을 비교할 수 있는 오픈소스 도구이다.
Claude와 GPT-4를 활용해 주제 선정부터 대본 작성, 토론까지 자율적으로 수행하는 멀티 에이전트 팟캐스트 파이프라인을 구축한 사례이다.
Intercom이 Claude Code를 활용해 전체 코드의 95% 이상을 생성하며 AI 우선 개발 환경으로 전환한 사례를 공유했다.
Go 언어와 Bubble Tea 프레임워크를 사용하여 AI 에이전트와의 협업으로 개발된 스타워즈 테마의 Windows 시스템 모니터링 TUI 도구입니다.
Claude Code가 CLAUDE.md의 지침을 무시하는 문제를 해결하기 위해 Haiku 모델을 비평가로 활용한 가중치 루브릭 검증 및 자동 재시도 시스템을 구축했다.
웹 앱의 내부 함수를 Claude Code와 직접 연결하여 DOM 스크래핑 없이 상태를 제어할 수 있게 해주는 MCP 기반 도구 Tesseron이 공개됐다.