Claude Code가 유료 플랜에서 빠진다? Anthropic의 새로운 요금제 테스트
Anthropic이 신규 가입자 2%를 대상으로 Claude Code 포함 여부를 조정한 새로운 요금 체계를 테스트 중이다.
총 100건
Anthropic이 신규 가입자 2%를 대상으로 Claude Code 포함 여부를 조정한 새로운 요금 체계를 테스트 중이다.
AI 에이전트가 코드를 구현함에 따라 개발자의 역할이 작성자에서 설계 및 감사자로 변화하며, 리뷰의 중심이 코드에서 기획 단계로 이동하고 있다.
챗봇, 코딩 에이전트, 노코드 도구 등 2026년 주요 AI 서비스들의 실무 효율성과 비용 대비 가치를 기준으로 S급부터 D급까지 상세하게 분류했다.
Google AI Studio와 Gemini를 활용해 앱을 개발할 때 필요한 도메인 연결, 프롬프트 전략 및 모델 선택 가이드를 제시한다.
작물의 수확량이나 질병 저항성은 유전적 요인뿐만 아니라 재배 환경과의 상호작용에 의해 결정되는데, 이를 분석하기 위해서는 복잡한 통계 프로그래밍 기술이 필요했다. 이 논문은 비전문가도 혼합 효과 모델과 안정성 분석을 수행할 수 있는 대화형 도구인 RGxEStat을 제공하여 육종 연구 주기를 단축시킨다.
고성능 LLM의 추론 과정을 훔쳐서 저비용으로 모델을 복제하는 무단 지식 증류 문제를 해결합니다. 기존 방어 기법과 달리 원본 모델의 성능은 유지하거나 오히려 높이면서도, 이를 훔쳐 배우려는 모델의 정확도만 효과적으로 떨어뜨리는 획기적인 보안 기술입니다.
SpaceX가 AI 코딩 스타트업 Cursor를 600억 달러에 인수하거나 100억 달러의 협력비를 지불하는 독특한 계약을 체결하며 xAI의 경쟁력을 강화합니다.
OpenAI의 자율 에이전트 구축 도구인 Hermes와 이미지 모델 2.0, 그리고 Google의 Gemini 3.1 Pro 기반 Deep Research 에이전트 출시 소식을 다룹니다.
27개 주요 LLM을 대상으로 동일한 두 답변의 제시 순서를 바꿔 판정의 일관성을 측정한 결과, 모델 평균 63.3%가 첫 번째 답변을 선호하는 위치 편향을 보였습니다.
프롬프트 전체 재작성 대신 오류 정의, 충돌 감사, 메타프롬프팅, 수술적 삽입의 4단계를 통해 부작용 없는 정밀한 프롬프트 디버깅 방법을 제안한다.
LangGraph의 상태 관리와 클린 아키텍처의 계층 분리를 결합하여 테스트와 유지보수가 용이한 프로덕션용 AI 에이전트 참조 아키텍처를 공유했다.
MIT의 모든 연구 분야에서 AI가 기존 연구 방식을 가속화하고 물리적 세계의 복잡한 설계 및 제조 문제를 해결하는 핵심 도구로 자리 잡았습니다.
MIT 연구진이 전자 기기의 폐열을 활용해 머신러닝의 핵심인 행렬 벡터 곱셈을 수행하는 아날로그 컴퓨팅 기술을 개발했습니다.
애플의 CEO 교체 소식과 함께 오픈AI, 앤스로픽의 신규 기능 출시 및 반도체 공급망 이슈를 포함한 AI 업계 전반의 최신 동향을 다룹니다.
OpenAI가 출시한 ChatGPT Images 2.0(gpt-image-2)의 복잡한 이미지 생성 및 텍스트 렌더링 능력을 '월리를 찾아라' 스타일의 프롬프트로 테스트한 결과입니다.
Meta가 오클라호마주 털사에 10억 달러를 투자하여 AI 워크로드에 최적화된 최첨단 데이터 센터를 건설하고 지역 사회 발전을 지원합니다.
마이크로소프트가 EU/EFTA 고객을 대상으로 피크 시간대 성능 유지를 위해 데이터 경계 외부에서 LLM 추론을 수행할 수 있는 플렉스 라우팅 기능을 공개했습니다.
Google DeepMind의 Sander Dieleman이 데이터 큐레이션부터 잠재 공간 표현, 확산 메커니즘, 아키텍처 설계 및 제어 신호까지 대규모 생성 모델 구축 전반의 기술적 통찰을 공유한다.
메타가 미국 내 직원들의 마우스 움직임, 클릭, 키스트로크 및 화면 캡처를 추적하여 차세대 AI 에이전트 학습용 고품질 데이터를 수집한다.
Amazon Bedrock을 통해 기업의 보안 및 데이터 거주성 요건을 준수하며 Claude Cowork 데스크톱 앱을 전사적으로 배포하고 활용할 수 있다.
Mozilla는 Anthropic의 새로운 사이버 보안 모델 Mythos Preview를 조기 도입하여 Firefox 브라우저에서 271개의 보안 취약점을 발견하고 수정했습니다.
엔터프라이즈 환경에서 AI 에이전트를 활용한 명세 기반 개발(SDD) 도입 시 발생하는 멀티 레포지토리 조정, 컨텍스트 관리 및 비용 문제를 공유하고 해결책을 논의한다.
OpenAI CEO 샘 알트만이 앤스로픽의 신규 사이버 보안 모델 Mythos의 비공개 정책을 엘리트주의적 공포 마케팅이라고 비판했다.
미국 유권자들의 AI에 대한 우려가 커짐에 따라 일자리 감소와 데이터 센터 건설 반대가 주요 정치적 쟁점으로 부상하고 있습니다.
조직 내 AI 숙련도를 10단계로 구분하여 진단하고, 체계적인 교육을 통해 독학 대비 도입 기간을 17개월 이상 단축할 수 있음을 강조한다.
AI 환각 현상이 단순한 기술적 오류가 아니라, 인간의 확증 편향과 정보 공백을 메우려는 심리적 패턴을 학습한 결과라는 관점을 제시한다.
비전문가도 오픈소스 모델을 활용해 미세 조정용 데이터셋을 생성하고 관리할 수 있는 데스크톱 애플리케이션과 이를 통한 성능 향상 결과가 공유됐다.
TryHackMe의 AI 보안 학습 경로를 통해 프롬프트 인젝션, 제일브레이크, RAG 보안 등 LLM 기반 시스템의 핵심 취약점을 분석하고 방어하는 실무 기술을 다룹니다.
Steve Cosman이 AI 모델의 학습 데이터를 의도적으로 오염시키기 위해 자전거 타는 펠리컨이라는 제목에 스노보드 타는 곰 이미지를 결합한 사례를 소개한다.
DVC와 Amazon SageMaker MLflow를 통합하여 데이터 버전, 학습 코드, 실험 메트릭을 연결하는 엔드투엔드 ML 모델 계보 추적 아키텍처를 제시합니다.
실제 운영 환경에서 AI 에이전트가 겪는 상태 관리, 멱등성, 관측성, 비용 제어 문제를 분석하고 인프라 계층의 중요성을 강조한다.
Facebook이 그룹 검색의 정확도를 높이기 위해 키워드 기반 검색과 시맨틱 검색을 결합한 하이브리드 아키텍처 및 Llama 3 기반 자동 평가 시스템을 도입했습니다.
AI 던전 개발사 Latitude가 구글 Gemini와 Gemma 모델을 활용해 사용자가 직접 게임 월드와 규칙을 설계하고 무한한 상호작용을 즐길 수 있는 AI RPG 플랫폼 Voyage를 발표했다.
애플의 팀 쿡 CEO 사임 발표와 아마존의 앤스로픽에 대한 대규모 추가 투자, 구글의 코딩 AI 강화 등 주요 IT 업계 소식을 다룹니다.
터미널 기반 에이전트가 여러 모델을 오케스트레이션하는 과정에서 서로 다른 모델들이 동일한 허위 수치를 생성하며 오류를 강화하는 집단 환각 현상이 보고됐다.
LLM 기반 에이전트가 실제 비즈니스 환경에서 도구(Tool)를 오용하여 발생하는 데이터 유출이나 금융 손실을 방지하기 위한 핵심 연구이다. 기존의 확률적 방어 체계와 달리 결정론적인 심볼릭 가드레일을 통해 에이전트의 성능 저하 없이도 강력한 안전 보장을 제공할 수 있음을 입증했다.
최근 검색 시스템의 중추가 BERT에서 LLM으로 전환되고 있지만, 실제 환경에서의 강건성은 충분히 검증되지 않았다. 이 논문은 LLM 기반 검색 모델이 오타나 악의적인 문서 주입 공격에는 기존 모델보다 강하지만, 의미적 변형에는 여전히 취약하다는 점을 밝혀내어 더 안전한 검색 시스템 설계 방향을 제시한다.
기존의 3D 장면 이해 기술은 유클리드 공간을 사용해 장소와 물체 사이의 계층적 포함 관계를 표현하는 데 한계가 있었습니다. 이 논문은 공간이 확장되는 성질을 가진 쌍곡선 기하학을 도입하여, 장소 안에 물체가 있다는 논리적 구조를 AI가 더 정확하게 학습하도록 만들어 로봇의 자율 주행 및 환경 인식 능력을 개선합니다.
시계열 이상 탐지 분야에서 Attention이나 복잡한 아키텍처 없이도 '데이터 매니폴드 투영'이라는 기본 원리에 충실하면 충분한 성능을 낼 수 있음을 증명했다. JuRe 모델은 기존 복잡한 모델 대비 파라미터 수를 획기적으로 줄이면서도 추론 속도를 20배 이상 향상시켜 실무 적용성을 극대화했다.
현재의 AI는 세션이 종료되거나 컨텍스트 윈도우가 가득 차면 이전의 이해를 모두 잃어버리는 '건망증' 문제를 안고 있습니다. 이 논문은 단순한 데이터 저장을 넘어 상황을 재구성하여 지능의 연속성을 보장하는 새로운 인프라 계층인 Continuity Layer를 제안하여 AI의 구조적 한계를 해결하고자 합니다.
LLM 에이전트의 성능을 측정하는 기존 벤치마크들이 실제 과제 해결 대신 검증 로직의 허점을 찌르는 '보상 해킹'에 취약하다는 점을 체계적으로 입증했다. 이를 통해 안전한 AI 에이전트 평가 환경 구축과 에이전트의 기만적 행동을 감시하는 연구의 필요성을 시사한다.
사용자가 도구 사용에 필요한 정보를 누락했을 때, 과거 행동 패턴에서 숨겨진 선호도를 추론하여 자동으로 보완하는 기술입니다. 전체 대화 이력을 모두 입력하는 대신 핵심 선호도만 추출하여 관리함으로써 연산 비용을 98% 이상 절감하면서도 정확한 개인화 서비스를 가능하게 합니다.
자율 AI 에이전트가 NPU, GPU, CPU가 혼합된 복잡한 하드웨어에서 효율적으로 동작하려면 각 장치에 최적화된 컴파일러가 필수적이다. 이 논문은 기존 프레임워크의 불투명한 구조를 개선하여 Intel NPU 환경에서 추론 속도와 에너지 효율을 동시에 극대화하는 투명한 컴파일 파이프라인을 제시한다.
유전자 편집 기술의 정밀도는 높아졌으나 편집 후 세포의 상태를 예측하는 것은 여전히 어렵다. 이 논문은 세포들이 얼마나 일관된 방향으로 변화하는지를 측정하는 새로운 기하학적 지표를 제시하여, 단순한 변화량 측정만으로는 알 수 없었던 세포의 안정성과 스트레스 상태를 진단할 수 있게 한다.
사이버 보안 위협 인텔리전스에서 취약점의 실제 악용 여부를 사전에 예측하는 것은 방어 우선순위 결정에 필수적이다. 이 논문은 데이터가 매우 희소하고 일시적으로 폭발하는 실제 환경의 제약을 극복하기 위해 통계적 모델과 기계학습 접근법을 비교 분석하여 실무적인 예측 가이드를 제공한다.
기존 멀티모달 모델은 이미지 속 텍스트를 번역할 때 시각 정보와 언어 정보 사이의 간극으로 인해 정확도가 떨어지는 문제가 있었다. 이 논문은 모델 전체를 학습시키는 대신 번역에 핵심적인 특정 뉴런만 선택적으로 업데이트하여 연산 효율성을 높이면서도 번역 품질을 획기적으로 개선했다.
기존의 AI 에이전트는 한 번의 실행으로 종료되는 정적인 구조여서 시행착오를 통해 배우는 과학적 탐구 방식에 적합하지 않았습니다. EvoMaster는 스스로 가설을 수정하고 실험 데이터를 축적하며 진화하는 프레임워크를 제공하여, 사람이 개입하지 않아도 수백 번의 실험 사이클을 돌며 스스로 연구 역량을 높이는 '에이전트 과학(Agentic Science)' 시대를 앞당깁니다.
의료용 시각 언어 모델(VLM)이 실제 임상 현장에서 오진을 유도할 수 있는 보안 취약점을 발견했습니다. 기존 공격과 달리 진단에 중요하지 않은 배경 영역에 미세한 노이즈를 주입하여 모델의 시각적 주의력을 분산시킴으로써, 전문가도 알아채기 힘든 수준에서 치명적인 오진을 유도할 수 있음을 입증했습니다.
LLM 배포 시 모델이 외부 제어에 얼마나 잘 반응할지 예측하고, 배포 후 내부 구조가 변질되는 '드리프트'를 감지하는 것은 안전한 운영의 핵심이다. 이 논문은 기하학적 안정성이라는 단일 원리로 조종 가능성 예측과 사후 모니터링을 동시에 해결하는 새로운 진단 도구 Shesha를 제안한다.
기존 AI 상담 모델은 한 번에 하나의 전략만 사용해 대화가 단조로웠으나, 이 논문은 인간처럼 한 문장에 공감과 제안을 동시에 담는 기술을 구현했다. 이를 통해 대화 효율성을 높이고 사용자의 정서적 완화 효과를 극대화할 수 있는 새로운 연구 방향을 제시했다.
LLM이 단순히 정보를 요약하는 수준을 넘어 증거로부터 과학적 결론을 추론할 수 있는지 평가하는 대규모 데이터셋을 제공한다. 의학 논문의 구조화된 초록을 활용해 배경과 결과로부터 저자의 실제 결론을 맞추는 고난도 추론 과제를 정의함으로써 AI의 연구 지원 능력을 정밀하게 측정할 수 있다.
기존 멀티모달 모델이 텍스트에 의존하던 것과 달리, 최신 옴니모달 모델(OLLM)은 시각 정보를 압도적으로 선호한다는 사실을 발견했습니다. 이러한 내부 선호도가 모델의 환각 현상을 유발하는 핵심 원인임을 밝혀내고, 이를 사전에 진단할 수 있는 새로운 도구를 제시하여 더 안전한 AI 구축의 토대를 마련했습니다.
현재의 LLM은 코드를 디버깅할 때 버그가 있는 부분만 정밀하게 수정하기보다 코드 전체를 새로 작성하는 '재생성' 경향이 강하다는 사실을 밝혀냈다. 이는 대규모 코드베이스에서 코드 리뷰 비용을 높이고 예기치 못한 부작용을 초래할 수 있어, 단순 테스트 통과 여부를 넘어선 정밀한 디버깅 평가 지표가 필요함을 시사한다.
대형 언어 모델의 추론 속도를 높이기 위해 불필요한 연산 층을 건너뛰는 Early Exit 기법은 이전 토큰의 데이터가 유실되는 KV Cache Absence 문제로 인해 실질적인 속도 향상이 어려웠다. 이 논문은 별도의 추가 학습 없이도 유실된 데이터를 자연스럽게 생성하고 공유하는 구조를 제안하여, 모델의 정확도를 유지하면서도 실제 추론 속도를 획기적으로 개선했다.
기존 LLM 평가가 수학이나 논리적 추론에 집중된 반면, 이 논문은 관용구나 복합 명사처럼 단어의 조합과 문맥에 따라 의미가 변하는 의미론적 추론 능력을 진단합니다. 단순한 패턴 매칭을 넘어 모델이 언어의 미묘한 뉘앙스를 실제로 이해하고 있는지 확인하는 새로운 기준을 제시합니다.
멀티모달 LLM이 시각이나 청각 정보를 통해 숫자를 완벽하게 인식함에도 불구하고, 실제 다자리 곱셈 연산에서는 심각한 성능 저하를 보인다는 사실을 입증했다. 이는 모델의 한계가 지각 능력이 아닌 내부 계산 로직의 부재에 있음을 시사하며, 향후 멀티모달 에이전트의 신뢰성 확보를 위한 연구 방향을 제시한다.
사람마다 뇌의 구조와 활동 패턴이 달라 기존에는 새로운 사람의 뇌 신호를 해독하려면 매번 모델을 새로 훈련해야 했습니다. 이 논문은 몇 가지 예시 데이터만 입력하면 별도의 학습 없이도 처음 보는 사람의 뇌 신호를 즉시 해독할 수 있는 기술을 제시하여 범용적인 뇌-컴퓨터 인터페이스(BCI) 구현에 한 발짝 다가섰습니다.
기존의 게임 기반 셀프 플레이 학습은 특정 게임 규칙에만 종속된 편법을 배우는 한계가 있었다. STRATAGEM은 추론의 추상성과 진화 과정을 측정하여 게임을 넘어 수학이나 코딩 같은 일반적인 문제 해결 능력으로 전이될 수 있는 핵심 논리 구조를 강화한다.
기존의 자기 진화 에이전트는 인간이 정의한 보상과 워크플로우에 의존하는 한계가 있었습니다. 이 논문은 에이전트가 새로운 환경을 스스로 탐색하고 'World Knowledge'를 구축하여 외부 도움 없이도 성능을 개선하는 Native Agency 패러다임을 제시하며, 소형 모델이 대형 모델을 능가할 수 있는 가능성을 보여줍니다.
기존 음성 대화 모델은 단순히 듣고 말하는 반응형 대화에 치중했으나, VoxMind는 복잡한 추론과 외부 도구 사용 능력을 통합하여 실제 문제를 해결하는 에이전트로 진화했다. 특히 도구 개수가 늘어나도 응답 속도가 느려지지 않는 관리 구조를 도입해 실무 적용성을 크게 높였다.
긴 작업 수행 시 발생하는 문맥 폭발 문제를 해결하기 위해 정보 밀도 극대화라는 새로운 설계 원칙을 제시한다. 단순한 문맥 확장 대신 계층적 메모리와 자기 진화 메커니즘을 통해 비용은 낮추면서도 복잡한 작업 성공률을 획기적으로 높였다.
기존 수학 데이터셋은 특정 국가에 편중되거나 규모가 작아 AI의 진정한 수학적 범용성을 평가하기 어려웠다. MATHNET은 47개국 17개 언어의 올림피아드 문제를 통합하여 AI가 복잡한 수식 구조와 다국어 맥락을 동시에 이해하는지 측정하는 강력한 도구를 제공한다.
시각-언어 모델(VLM)이 문장의 어순이나 속성 결합을 제대로 이해하지 못하는 '단어 가방(Bag-of-Words)' 현상을 해결하기 위해 단어의 구체성에 주목했다. 추상적인 단어보다 구체적인 단어를 수정했을 때 모델이 더 강력한 학습 신호를 얻는다는 원리를 이용해 모델의 논리적 추론 능력을 획기적으로 개선했다.
AI 에이전트가 단일 실행에서 인간을 능가하는 성능을 보여주더라도, 동일한 작업에서 반복적으로 성공하지 못하는 신뢰성 문제가 실무 도입의 큰 장애물이 되고 있습니다. 이 논문은 에이전트의 불확실성을 유발하는 3대 요인을 정의하고, 단순 성공률이 아닌 재현 가능한 성공을 측정하기 위한 새로운 평가 체계를 제시합니다.
서로 다른 작업으로 학습된 LoRA 어댑터를 병합할 때 발생하는 성능 저하의 핵심 원인이 출력 측 행렬 B의 중복된 정보 축적임을 밝혀냈습니다. 이를 해결하기 위해 데이터 없이도 실행 가능한 Pico 기법을 도입하여 기존 병합 방식의 정확도를 최대 8.3포인트 향상시켰습니다.
기존 에이전트 평가는 주어진 도구의 사용 능력에만 집중했으나, 실제 환경에서는 에이전트가 경험을 통해 스스로 스킬을 발견하고 오류를 수정하는 능력이 필수적이다. 이 논문은 에이전트가 시간이 지남에 따라 스킬 라이브러리를 어떻게 진화시키는지 측정하는 새로운 프레임워크를 제공하여 자율 학습 에이전트 연구의 새로운 방향을 제시한다.
LLM 에이전트의 성능을 평가하기 위한 환경 구축은 그동안 수작업에 의존해 비용이 높고 확장이 어려웠다. 이 논문은 자연어 설명만으로 검증된 에이전트 실행 환경을 자동 생성하는 파이프라인을 제안하여 평가의 확장성과 연속성을 확보했다.
기존의 코드 벤치마크가 단순한 알고리즘 정확도에만 집중했던 것과 달리, 실제 웹 개발에서 중요한 시각적 충실도와 상호작용성을 평가할 수 있는 통합 프레임워크를 제시한다. 텍스트뿐만 아니라 이미지와 비디오 입력을 모두 지원하여 실제 개발자의 워크플로우와 유사한 환경에서 모델의 성능을 정밀하게 측정한다.
기존의 Supervised Fine-Tuning(SFT)은 정답 데이터만 기계적으로 학습하여 모델의 창의성을 해치고 강화학습(RL)과의 시너지를 떨어뜨리는 문제가 있었다. 이 논문은 SFT를 강화학습의 특수한 사례로 재해석하고, 그룹 기반의 비교 학습과 동적 가중치 조절을 통해 지식 주입 효율과 일반화 성능을 동시에 높이는 새로운 사후 학습 프레임워크를 제시한다.
기존 비디오 월드 모델은 주로 단일 에이전트 환경에 국한되어 여러 주체가 동시에 상호작용하는 복잡한 현실 세계를 모사하는 데 한계가 있었다. MultiWorld는 가변적인 수의 에이전트와 카메라 시점을 지원하여 협동 로봇 공학이나 멀티플레이어 게임 시뮬레이션의 정확도를 획기적으로 높였다.
기존 코드 에이전트는 단일 파일 코딩에는 능숙하지만, 게임 엔진의 복잡한 상태 관리와 다중 파일 간의 의존성 문제로 인해 실행 가능한 게임을 만드는 데 한계가 있었다. OpenGame은 게임 전용 구조적 가이드와 디버깅 프로토콜을 도입하여 누구나 아이디어만으로 완성도 높은 웹 게임을 제작할 수 있는 환경을 제공한다.
자율주행 시스템에서 사고 과정(Chain-of-Thought)을 거치는 모델은 정확하지만 연산 속도가 느려 실시간 적용이 어려웠습니다. OneVL은 복잡한 추론 과정을 압축된 잠재 토큰으로 처리하여 답변만 내놓는 모델 수준의 속도를 유지하면서도 기존의 단계별 추론 모델보다 더 높은 정확도를 달성했습니다.
기존의 초고속 이미지 생성 기술인 MeanFlow를 단순 분류 레이블이 아닌 복잡한 문장 입력으로 확장하여 실용성을 극대화했다. 강력한 LLM 기반 인코더의 특정 의미론적 특성이 원스텝 생성의 품질을 결정짓는 핵심 요소임을 밝혀내어 향후 효율적인 생성 모델 설계의 이정표를 제시한다.
오하이오 주립대 교수 Yu Su가 설립한 NeoCognition이 자율적으로 특정 도메인의 월드 모델을 학습하여 전문성을 갖추는 AI 에이전트 개발을 위해 4,000만 달러의 시드 투자를 유치했습니다.
제프 베이조스가 설립한 물리적 AI 스타트업 '프로젝트 프로메테우스'가 월가 대형 투자사들로부터 100억 달러 규모의 투자를 유치하며 물리 법칙을 이해하는 AI 개발에 박차를 가하고 있다.
Claude Code의 여러 프로필을 격리 관리하고 Git과 age 암호화를 통해 안전하게 백업 및 동기화하는 CLI 도구 cps가 출시됐다.
서로 다른 AI 모델들이 계획, 구현, 리뷰 단계에서 상호 비판하며 협업하는 오픈소스 멀티 에이전트 코딩 도구 Dialectic이 공개됐다.
Claude Code의 도구 호출과 Bash 명령을 정책에 따라 제어하고 감사 추적을 제공하는 Axonflow 플러그인이 공개되었다.
최첨단 LLM인 Claude Opus 4.7이 사용자의 명확한 가이드 대신 자신의 '영리한' 인플레이스 로직을 고집하다가 데이터 손실과 반복적인 회귀 오류를 일으킨 사례이다.
AI 플랫폼 Clarifai가 OkCupid에서 부적절하게 수집한 300만 장의 사진 데이터와 이를 통해 학습된 안면 인식 모델을 FTC 조사 결과에 따라 삭제했다.
YouTube가 유명인의 얼굴을 도용한 AI 딥페이크 영상을 자동으로 탐지하고 삭제 요청을 관리할 수 있는 초상권 탐지 도구를 할리우드 등 엔터테인먼트 업계로 확대 적용했다.
여러 워크스페이스에 분산된 AI 에이전트들을 하나의 창에서 관리하고 비동기적으로 협업하게 해주는 개발 도구 Grome이 공개됐다.
복잡한 벡터 데이터베이스 대신 SQLite의 FTS5와 LLM의 추론 능력을 결합하여 더 효율적이고 정확한 에이전트 메모리 시스템을 구축한 사례이다.
Claude Code가 ImageMagick, Inkscape, GIMP 등 로컬 CLI 도구를 사용하여 비용 없이 이미지를 편집하고 생성할 수 있는 스킬이 공개됐다.
Claude Code 등 AI 도구의 도움 없이 직접 Discrete Diffusion 기법을 활용한 7.5M 파라미터 규모의 언어 모델을 구현하고 학습한 사례이다.
라즈베리 파이와 Node.js를 활용해 4가지 선택지만으로 즉석에서 플레이 가능한 미니 게임을 생성하는 하드웨어 프로젝트가 공개됐다.
한 개발자가 Transformer 아키텍처를 바닥부터 구현하고 사전 학습시켜 Hugging Face의 GPT-2 Small 모델보다 높은 벤치마크 점수를 기록했다.
기존 추측성 디코딩의 거부 샘플링 대신 순차적 몬테카를로 기반의 가중치 재샘플링을 도입하여 LLM 추론 속도를 최대 5.2배 가속하는 SMC-SD 기법이 제안됐다.
에이전트 스킬 주입 시 Claude Opus와 Sonnet 간의 성능 격차가 1.2%p로 좁혀지며 Sonnet의 비용 효율성이 극대화됨이 확인됐다.
상용 LLM의 과도한 친절함(아첨) 문제를 해결하기 위해 Claude Code를 활용하여 DAG 기반 커리큘럼과 평가 시스템을 갖춘 아동용 교육 에이전트를 구축한 사례이다.
Claude Code의 여러 세션을 동시에 운영할 때 발생하는 인지 부하를 해결하기 위해 PM 역할을 하는 에이전트가 워커 세션들을 관리하도록 하는 워크플로와 관리 도구 c9watch를 제안한다.
서로 다른 컴퓨터의 Claude Code 세션을 연결하고 에이전트 간 협업 및 모니터링을 지원하는 오픈소스 프로토콜 openroom이 공개됐다.
CrabTrap은 AI 에이전트의 모든 HTTP 요청을 가로채 정책 위반 여부를 실시간으로 평가하고 차단하는 오픈소스 보안 프록시이다.
Wraith Academy는 기업용 챗봇 대신 판타지 캐릭터 테마를 도입하여 LLM 보안 공격 기법의 학습 기억력과 추상화 능력을 향상시키는 하이브리드 아키텍처 기반 교육 도구이다.
Dataset Generator는 주제 기획부터 LLM 판사를 통한 품질 검증까지 자동화하여 LLM 미세 조정용 합성 데이터를 생성하는 노코드 데스크톱 앱이다.
반복되는 파일 읽기와 중복 데이터를 SHA-256 캐싱 및 인라인 참조로 압축하여 LLM 토큰 비용을 최대 86% 절감하는 도구이다.