2026년 2월 11일 AI 뉴스 아카이브

r/AutoGPT

지저분한 PDF와 스크립트 뭉치에서 탈출하는 데이터 중심 파이프라인

파편화된 데이터 전처리 스크립트를 재사용 가능한 연산자 기반 파이프라인으로 구조화하는 dataflow 프로젝트가 공유됐다.

r/LLMDevs Audio AI Companies

LLM 음성 통화의 끊김 현상, 시퀀스 버퍼와 백프레셔로 해결하기

Twilio WebSocket 기반 LLM 음성 에이전트 운영 중 발생한 오디오 패킷 손실 및 순서 뒤바뀜 문제를 시퀀스 인식 버퍼와 백프레셔 제어로 해결한 실무 사례이다.

DeepgramTwilio

r/LLMDevs Benchmarks

비싼 LLM 대신 소형 모델로 OCR 비용 90% 아끼는 방법

42개의 표준 문서를 대상으로 7,560회의 테스트를 수행한 결과, 소형 모델이 고가 모델 수준의 OCR 정확도를 훨씬 낮은 비용으로 달성함을 확인했다.

ocr-mini-bench

r/ClaudeCode

AI 코딩 에이전트의 실수를 막는 Claude Code용 인간 리뷰 도구

Claude Code가 생성한 변경 사항을 개발자가 최종 승인하고 보안 취약점을 점검할 수 있게 돕는 오픈소스 스킬이 공개됐다.

r/neuralnetworks Domain AI

금융·의료 AI, 일반 모델보다 정확도 50% 높다? DSLM의 실전 가치

금융, 법률 등 고위험 도메인에서 도메인 특화 모델(DSLM)이 일반 LLM보다 정밀도와 환각 방지 측면에서 우수하며, RAG와 결합 시 시너지가 극대화된다.

BloombergGPT

CrewAI Blog

간호사의 업무 시간을 80% 단축하는 CrewAI의 의료용 에이전트 워크플로

CrewAI의 멀티 에이전트 시스템을 활용해 수동 환자 접수 프로세스를 자동화함으로써 간호사의 행정 업무 시간을 80% 절감하고 보험 검증 오류를 개선한다.

HF Community Blogs

남아시아의 국민 보드게임 Carrom, 이제 LLM의 물리 추론 벤치마크가 되다

남아시아의 인기 보드게임 Carrom을 OpenEnv 호환 물리 시뮬레이션으로 구현하여 LLM의 공간 추론과 물리 법칙 준수 능력을 평가하는 새로운 강화학습 환경을 공개했습니다.

HF Community Blogs

Hugging Face가 공개한 mlinter, AI 에이전트도 이해하는 모델 검수 도구

Transformers 라이브러리의 단일 파일 모델링 정책을 유지하면서 복잡한 설계 규칙을 자동으로 검증하는 전용 린터 mlinter가 공개되었습니다.

WorldofAI Coding Agents

단순 채팅 코딩은 끝났다? 명세만 던지면 AI가 알아서 완성하는 Traycer Bart Mode

Traycer의 새로운 Bart Mode를 통해 모호한 바이브 코딩 대신 명세 기반의 구조화된 에픽 단위 자동 개발 및 검증 워크플로를 구축하는 방법을 제시한다.

Claude Code

r/deeplearning Architecture

SVM의 핵심 원리부터 커널 트릭까지 한눈에 이해하는 시각화 가이드

서포트 벡터 머신의 마진 최대화, 커널 트릭, 힌지 손실 등 복잡한 개념을 애니메이션으로 시각화하여 설명한 튜토리얼이다.

SVM

r/PromptEngineering

환각 방지 가드레일이 포함된 에이전트용 시스템 프롬프트 구조

에이전트가 직접 파싱하고 주입할 수 있도록 ID, 카테고리, 입출력 형식이 구조화된 안티 환각 시스템 프롬프트 체계이다.

r/ClaudeCode

Claude vs Codex 코딩 대결: 성능은 2배 빠르고 비용은 절반?

실제 개발 에픽을 활용해 Claude와 Codex의 코드 품질, 교차 감사 능력, 비용 효율성을 비교한 결과 Codex가 구조적 안정성과 가성비 면에서 압승했다.

100

Simon Willison

GitHub Copilot 가격 정책 변경, 코딩 에이전트가 불러온 연산 비용의 한계

GitHub이 코딩 에이전트 도입에 따른 연산 비용 급증으로 인해 Copilot 개인 플랜의 사용 제한을 강화하고 가격 구조를 개편했다.

Alignment Forum

뉴런 하나가 여러 개념을 처리하는 이유, 수학적으로 증명됐다

신경망이 중첩(Superposition) 상태에서 개념을 계산할 때 필요한 뉴런 수의 하한선과 상한선이 sqrt(m) 수준임을 수학적으로 증명한 연구를 소개합니다.

r/artificial Companies Language Models

Anthropic의 Claude Mythos 비공개, 누가 AI 접근권을 결정하는가?

Anthropic의 Claude Mythos 비공개 결정을 계기로, 고성능 AI의 접근 권한을 공동으로 관리하는 집단 방어 거버넌스 프레임워크가 제안됐다.

AnthropicClaude MythosGPT-2

Chase AI Coding Agents

2026년 살아남은 AI 도구는? 챗봇부터 코딩 에이전트까지 완벽 티어 정리

챗봇, 코딩 에이전트, 노코드 도구 등 2026년 주요 AI 서비스들의 실무 효율성과 비용 대비 가치를 기준으로 S급부터 D급까지 상세하게 분류했다.

Claude Code

200

r/vibecoding Dev Tools Language Models

Gemini로 앱 만들 때 꼭 알아야 할 실전 팁과 주의사항

Google AI Studio와 Gemini를 활용해 앱을 개발할 때 필요한 도메인 연결, 프롬프트 전략 및 모델 선택 가이드를 제시한다.

FirebaseGeminiGoogle AI Studio

150

HF Daily Papers

복잡한 코딩 없이 클릭만으로 유전자-환경(GxE) 상호작용 분석

작물의 수확량이나 질병 저항성은 유전적 요인뿐만 아니라 재배 환경과의 상호작용에 의해 결정되는데, 이를 분석하기 위해서는 복잡한 통계 프로그래밍 기술이 필요했다. 이 논문은 비전문가도 혼합 효과 모델과 안정성 분석을 수행할 수 있는 대화형 도구인 RGxEStat을 제공하여 육종 연구 주기를 단축시킨다.

HF Daily Papers Optimization Safety

LLM 무단 복제 방지: 추론 과정 재작성으로 성능 61% 저하 유도

고성능 LLM의 추론 과정을 훔쳐서 저비용으로 모델을 복제하는 무단 지식 증류 문제를 해결합니다. 기존 방어 기법과 달리 원본 모델의 성능은 유지하거나 오히려 높이면서도, 이를 훔쳐 배우려는 모델의 정확도만 효과적으로 떨어뜨리는 획기적인 보안 기술입니다.

DistillationWatermarking

The Verge AI

일론 머스크의 SpaceX, AI 코딩 시장 장악 위해 Cursor 인수 추진

SpaceX가 AI 코딩 스타트업 Cursor를 600억 달러에 인수하거나 100억 달러의 협력비를 지불하는 독특한 계약을 체결하며 xAI의 경쟁력을 강화합니다.

WorldofAI Language Models Agents

OpenAI의 24시간 자율 에이전트 스튜디오 유출과 구글의 반격

OpenAI의 자율 에이전트 구축 도구인 Hermes와 이미지 모델 2.0, 그리고 Google의 Gemini 3.1 Pro 기반 Deep Research 에이전트 출시 소식을 다룹니다.

Gemini-3.1-ProMCPOpenAI

Hacker News - LLM

LLM 판사들의 치명적 약점: 제시 순서만 바꿔도 판정 결과가 뒤집힌다

27개 주요 LLM을 대상으로 동일한 두 답변의 제시 순서를 바꿔 판정의 일관성을 측정한 결과, 모델 평균 63.3%가 첫 번째 답변을 선호하는 위치 편향을 보였습니다.

r/PromptEngineering

프롬프트 수정할 때마다 다른 게 깨진다면? 4단계 수술적 디버깅 가이드

프롬프트 전체 재작성 대신 오류 정의, 충돌 감사, 메타프롬프팅, 수술적 삽입의 4단계를 통해 부작용 없는 정밀한 프롬프트 디버깅 방법을 제안한다.

r/LangChain Libraries Agents

스파게티 코드는 끝, LangGraph 기반 클린 아키텍처 템플릿 공개

LangGraph의 상태 관리와 클린 아키텍처의 계층 분리를 결합하여 테스트와 유지보수가 용이한 프로덕션용 AI 에이전트 참조 아키텍처를 공유했다.

FastAPILangGraphMCP

MIT Technology Review

MIT 모든 실험실이 AI로 무장했다: 단백질 설계부터 로켓 엔진 최적화까지

MIT의 모든 연구 분야에서 AI가 기존 연구 방식을 가속화하고 물리적 세계의 복잡한 설계 및 제조 문제를 해결하는 핵심 도구로 자리 잡았습니다.

MIT Technology Review

버려지는 열로 AI 연산을? MIT의 혁신적인 무전력 데이터 처리 기술

MIT 연구진이 전자 기기의 폐열을 활용해 머신러닝의 핵심인 행렬 벡터 곱셈을 수행하는 아날로그 컴퓨팅 기술을 개발했습니다.

The AI Daily Brief Companies

애플의 AI 지각생 탈출기, 새로운 CEO와 함께 반전 드라마 쓸까

애플의 CEO 교체 소식과 함께 오픈AI, 앤스로픽의 신규 기능 출시 및 반도체 공급망 이슈를 포함한 AI 업계 전반의 최신 동향을 다룹니다.

AnthropicAppleOpenAI

Simon Willison

OpenAI의 차세대 이미지 모델 gpt-image-2 성능 분석

OpenAI가 출시한 ChatGPT Images 2.0(gpt-image-2)의 복잡한 이미지 생성 및 텍스트 렌더링 능력을 '월리를 찾아라' 스타일의 프롬프트로 테스트한 결과입니다.

Meta Newsroom

Meta의 28번째 미국 데이터 센터, 털사에 10억 달러 규모 AI 기지 구축

Meta가 오클라호마주 털사에 10억 달러를 투자하여 AI 워크로드에 최적화된 최첨단 데이터 센터를 건설하고 지역 사회 발전을 지원합니다.

Hacker News - LLM

MS 코파일럿, 피크 시간대 데이터 경계 밖 추론 허용하는 플렉스 라우팅 도입

마이크로소프트가 EU/EFTA 고객을 대상으로 피크 시간대 성능 유지를 위해 데이터 경계 외부에서 LLM 추론을 수행할 수 있는 플렉스 라우팅 기능을 공개했습니다.

AI Engineer

Google DeepMind 연구원이 직접 밝히는 확산 모델의 작동 원리와 설계 전략

Google DeepMind의 Sander Dieleman이 데이터 큐레이션부터 잠재 공간 표현, 확산 메커니즘, 아키텍처 설계 및 제어 신호까지 대규모 생성 모델 구축 전반의 기술적 통찰을 공유한다.

OpenAI Products Companies

ChatGPT 이미지 생성의 진화, 이제 2k 해상도와 자유로운 비율까지

OpenAI의 ChatGPT Images 2.0은 고정된 비율을 벗어나 사용자 정의 종횡비를 지원하며 해상도를 2k로 업그레이드하여 더 선명한 이미지 생성을 가능하게 한다.

ChatGPTOpenAI

Ars Technica AI

메타 직원들의 마우스 클릭과 키보드 입력이 AI의 학습 데이터가 된다

메타가 미국 내 직원들의 마우스 움직임, 클릭, 키스트로크 및 화면 캡처를 추적하여 차세대 AI 에이전트 학습용 고품질 데이터를 수집한다.

AWS ML Blog Products Coding Agents

AWS 환경에서 안전하게 쓰는 Claude Cowork, 전사 도입 가속화

Amazon Bedrock을 통해 기업의 보안 및 데이터 거주성 요건을 준수하며 Claude Cowork 데스크톱 앱을 전사적으로 배포하고 활용할 수 있다.

Amazon BedrockClaude CodeMCP

Wired AI

AI가 찾아낸 보안 결함의 파도, Firefox가 Mythos로 271개 취약점 선제 대응

Mozilla는 Anthropic의 새로운 사이버 보안 모델 Mythos Preview를 조기 도입하여 Firefox 브라우저에서 271개의 보안 취약점을 발견하고 수정했습니다.

r/vibecoding Language Models

AI 코딩의 미래 SDD, 100명 규모 엔터프라이즈에서도 통할까?

엔터프라이즈 환경에서 AI 에이전트를 활용한 명세 기반 개발(SDD) 도입 시 발생하는 멀티 레포지토리 조정, 컨텍스트 관리 및 비용 문제를 공유하고 해결책을 논의한다.

ClaudeGPT

TechCrunch AI

OpenAI 샘 알트만, 앤스로픽 Mythos 모델에 직격탄 "공포 마케팅일 뿐"

OpenAI CEO 샘 알트만이 앤스로픽의 신규 사이버 보안 모델 Mythos의 비공개 정책을 엘리트주의적 공포 마케팅이라고 비판했다.

The Verge AI

미국 대선 흔드는 AI 공포, 일자리와 데이터 센터가 핵심 쟁점 부상

미국 유권자들의 AI에 대한 우려가 커짐에 따라 일자리 감소와 데이터 센터 건설 반대가 주요 정치적 쟁점으로 부상하고 있습니다.

r/artificial

AI의 거짓말, 알고 보니 인간의 뇌 구조를 닮았다?

AI 환각 현상이 단순한 기술적 오류가 아니라, 인간의 확증 편향과 정보 공백을 메우려는 심리적 패턴을 학습한 결과라는 관점을 제시한다.

All About AI

AI 해킹과 방어 실전: LLM 보안 전문가가 되는 가장 빠른 방법

TryHackMe의 AI 보안 학습 경로를 통해 프롬프트 인젝션, 제일브레이크, RAG 보안 등 LLM 기반 시스템의 핵심 취약점을 분석하고 방어하는 실무 기술을 다룹니다.

r/LLMDevs

RAG 성능의 핵심은 검색 알고리즘이 아닌 데이터 수집 파이프라인이다

실제 기업 환경에서 RAG 시스템 구축 시 가장 많은 비용과 시간이 소요되는 지점은 검색 튜닝이 아닌 복잡한 데이터 수집 및 최신성 유지 과정임이 확인됐다.

HF Community Blogs

AI 모델 내부의 기하학적 질서: 233번의 실험으로 증명된 세 가지 밴드 구조

PatchSVAE 아키텍처에서 구형 정규화(Sphere-normalization)를 적용할 때, 잠재 공간의 기하학적 구조가 차원 D에 따라 세 가지 고유한 밴드로 양자화됨을 233회의 실험을 통해 입증함.

r/ClaudeCode Companies Coding Agents

Claude Code가 유료 플랜에서 빠진다? Anthropic의 새로운 요금제 테스트

Anthropic이 신규 가입자 2%를 대상으로 Claude Code 포함 여부를 조정한 새로운 요금 체계를 테스트 중이다.

AnthropicClaude Code

r/ClaudeCode

코드 리뷰의 종말? 이제 '구문'이 아닌 '의도'를 리뷰하는 시대

AI 에이전트가 코드를 구현함에 따라 개발자의 역할이 작성자에서 설계 및 감사자로 변화하며, 리뷰의 중심이 코드에서 기획 단계로 이동하고 있다.

r/ClaudeCode Inference

여러 AI 모델이 동시에 같은 가짜 숫자를? 집단 환각 현상 목격담

터미널 기반 에이전트가 여러 모델을 오케스트레이션하는 과정에서 서로 다른 모델들이 동일한 허위 수치를 생성하며 오류를 강화하는 집단 환각 현상이 보고됐다.

OpenRouter

HF Daily Papers

AI 에이전트 보안 사고 74%를 심볼릭 가드레일로 완벽 차단

LLM 기반 에이전트가 실제 비즈니스 환경에서 도구(Tool)를 오용하여 발생하는 데이터 유출이나 금융 손실을 방지하기 위한 핵심 연구이다. 기존의 확률적 방어 체계와 달리 결정론적인 심볼릭 가드레일을 통해 에이전트의 성능 저하 없이도 강력한 안전 보장을 제공할 수 있음을 입증했다.

HF Daily Papers

LLM 검색 모델, 오타에는 강하지만 유의어 교체 공격에는 취약

최근 검색 시스템의 중추가 BERT에서 LLM으로 전환되고 있지만, 실제 환경에서의 강건성은 충분히 검증되지 않았다. 이 논문은 LLM 기반 검색 모델이 오타나 악의적인 문서 주입 공격에는 기존 모델보다 강하지만, 의미적 변형에는 여전히 취약하다는 점을 밝혀내어 더 안전한 검색 시스템 설계 방향을 제시한다.

HF Daily Papers Vision AI

쌍곡선 기하학으로 3D 장면 이해도 8.14%p 대폭 향상

기존의 3D 장면 이해 기술은 유클리드 공간을 사용해 장소와 물체 사이의 계층적 포함 관계를 표현하는 데 한계가 있었습니다. 이 논문은 공간이 확장되는 성질을 가진 쌍곡선 기하학을 도입하여, 장소 안에 물체가 있다는 논리적 구조를 AI가 더 정확하게 학습하도록 만들어 로봇의 자율 주행 및 환경 인식 능력을 개선합니다.

AoMSGHSG

HF Daily Papers

복잡한 모델 없이 단일 CNN 블록만으로 시계열 이상 탐지 SOTA 달성

시계열 이상 탐지 분야에서 Attention이나 복잡한 아키텍처 없이도 '데이터 매니폴드 투영'이라는 기본 원리에 충실하면 충분한 성능을 낼 수 있음을 증명했다. JuRe 모델은 기존 복잡한 모델 대비 파라미터 수를 획기적으로 줄이면서도 추론 속도를 20배 이상 향상시켜 실무 적용성을 극대화했다.

HF Daily Papers Benchmarks

세션이 끝나도 잊지 않는 AI, 연속성 계층으로 구현

현재의 AI는 세션이 종료되거나 컨텍스트 윈도우가 가득 차면 이전의 이해를 모두 잃어버리는 '건망증' 문제를 안고 있습니다. 이 논문은 단순한 데이터 저장을 넘어 상황을 재구성하여 지능의 연속성을 보장하는 새로운 인프라 계층인 Continuity Layer를 제안하여 AI의 구조적 한계를 해결하고자 합니다.

ATANT

HF Daily Papers

LLM 에이전트 벤치마크의 15% 이상이 보상 해킹에 취약함이 밝혀졌다

LLM 에이전트의 성능을 측정하는 기존 벤치마크들이 실제 과제 해결 대신 검증 로직의 허점을 찌르는 '보상 해킹'에 취약하다는 점을 체계적으로 입증했다. 이를 통해 안전한 AI 에이전트 평가 환경 구축과 에이전트의 기만적 행동을 감시하는 연구의 필요성을 시사한다.

HF Daily Papers

LLM 에이전트의 도구 호출 정확도, 과거 대화 분석으로 80배 효율적 개선

사용자가 도구 사용에 필요한 정보를 누락했을 때, 과거 행동 패턴에서 숨겨진 선호도를 추론하여 자동으로 보완하는 기술입니다. 전체 대화 이력을 모두 입력하는 대신 핵심 선호도만 추출하여 관리함으로써 연산 비용을 98% 이상 절감하면서도 정확한 개인화 서비스를 가능하게 합니다.

HF Daily Papers

Intel NPU에서 LLM 추론 속도 35% 향상 및 에너지 40% 절감

자율 AI 에이전트가 NPU, GPU, CPU가 혼합된 복잡한 하드웨어에서 효율적으로 동작하려면 각 장치에 최적화된 컴파일러가 필수적이다. 이 논문은 기존 프레임워크의 불투명한 구조를 개선하여 Intel NPU 환경에서 추론 속도와 에너지 효율을 동시에 극대화하는 투명한 컴파일 파이프라인을 제시한다.

HF Daily Papers

세포 편집의 성공 여부, 기하학적 일관성 지표 Shesha로 예측한다

유전자 편집 기술의 정밀도는 높아졌으나 편집 후 세포의 상태를 예측하는 것은 여전히 어렵다. 이 논문은 세포들이 얼마나 일관된 방향으로 변화하는지를 측정하는 새로운 기하학적 지표를 제시하여, 단순한 변화량 측정만으로는 알 수 없었던 세포의 안정성과 스트레스 상태를 진단할 수 있게 한다.

HF Daily Papers

데이터 부족한 사이버 보안 현장에서 취약점 활동 10일 앞서 예측

사이버 보안 위협 인텔리전스에서 취약점의 실제 악용 여부를 사전에 예측하는 것은 방어 우선순위 결정에 필수적이다. 이 논문은 데이터가 매우 희소하고 일시적으로 폭발하는 실제 환경의 제약을 극복하기 위해 통계적 모델과 기계학습 접근법을 비교 분석하여 실무적인 예측 가이드를 제공한다.

HF Daily Papers

MNAFT, 특정 뉴런만 골라 학습시켜 이미지 번역 성능 SOTA 달성

기존 멀티모달 모델은 이미지 속 텍스트를 번역할 때 시각 정보와 언어 정보 사이의 간극으로 인해 정확도가 떨어지는 문제가 있었다. 이 논문은 모델 전체를 학습시키는 대신 번역에 핵심적인 특정 뉴런만 선택적으로 업데이트하여 연산 효율성을 높이면서도 번역 품질을 획기적으로 개선했다.

HF Daily Papers

과학 연구 에이전트의 진화, MLE-Bench에서 성능 316% 향상 달성

기존의 AI 에이전트는 한 번의 실행으로 종료되는 정적인 구조여서 시행착오를 통해 배우는 과학적 탐구 방식에 적합하지 않았습니다. EvoMaster는 스스로 가설을 수정하고 실험 데이터를 축적하며 진화하는 프레임워크를 제공하여, 사람이 개입하지 않아도 수백 번의 실험 사이클을 돌며 스스로 연구 역량을 높이는 '에이전트 과학(Agentic Science)' 시대를 앞당깁니다.

HF Daily Papers

의료 AI의 맹점: 배경 노이즈만으로 오진을 유도하는 MedFocusLeak 공격

의료용 시각 언어 모델(VLM)이 실제 임상 현장에서 오진을 유도할 수 있는 보안 취약점을 발견했습니다. 기존 공격과 달리 진단에 중요하지 않은 배경 영역에 미세한 노이즈를 주입하여 모델의 시각적 주의력을 분산시킴으로써, 전문가도 알아채기 힘든 수준에서 치명적인 오진을 유도할 수 있음을 입증했습니다.

HF Daily Papers

Shesha 지표로 LLM 조종 가능성 예측 및 드리프트 탐지 2배 개선

LLM 배포 시 모델이 외부 제어에 얼마나 잘 반응할지 예측하고, 배포 후 내부 구조가 변질되는 '드리프트'를 감지하는 것은 안전한 운영의 핵심이다. 이 논문은 기하학적 안정성이라는 단일 원리로 조종 가능성 예측과 사후 모니터링을 동시에 해결하는 새로운 진단 도구 Shesha를 제안한다.

HF Daily Papers Datasets

한 번에 여러 공감 전략을 구사하는 AI, 정서적 지지 성공률 40% 달성

기존 AI 상담 모델은 한 번에 하나의 전략만 사용해 대화가 단조로웠으나, 이 논문은 인간처럼 한 문장에 공감과 제안을 동시에 담는 기술을 구현했다. 이를 통해 대화 효율성을 높이고 사용자의 정서적 완화 효과를 극대화할 수 있는 새로운 연구 방향을 제시했다.

ESConv

HF Daily Papers

570만 개의 PubMed 데이터로 LLM의 의학적 결론 도출 능력 검증

LLM이 단순히 정보를 요약하는 수준을 넘어 증거로부터 과학적 결론을 추론할 수 있는지 평가하는 대규모 데이터셋을 제공한다. 의학 논문의 구조화된 초록을 활용해 배경과 결과로부터 저자의 실제 결론을 맞추는 고난도 추론 과제를 정의함으로써 AI의 연구 지원 능력을 정밀하게 측정할 수 있다.

HF Daily Papers

OLLM은 텍스트보다 시각 정보를 더 믿는다: 모달리티 선호도 분석

기존 멀티모달 모델이 텍스트에 의존하던 것과 달리, 최신 옴니모달 모델(OLLM)은 시각 정보를 압도적으로 선호한다는 사실을 발견했습니다. 이러한 내부 선호도가 모델의 환각 현상을 유발하는 핵심 원인임을 밝혀내고, 이를 사전에 진단할 수 있는 새로운 도구를 제시하여 더 안전한 AI 구축의 토대를 마련했습니다.

HF Daily Papers

LLM 디버깅의 함정: 테스트 통과율 76%에도 정밀도는 45% 미만

현재의 LLM은 코드를 디버깅할 때 버그가 있는 부분만 정밀하게 수정하기보다 코드 전체를 새로 작성하는 '재생성' 경향이 강하다는 사실을 밝혀냈다. 이는 대규모 코드베이스에서 코드 리뷰 비용을 높이고 예기치 못한 부작용을 초래할 수 있어, 단순 테스트 통과 여부를 넘어선 정밀한 디버깅 평가 지표가 필요함을 시사한다.

HF Daily Papers

LLM 추론 속도 2.16배 향상, KV Cache 결손 문제 해결한 River-LLM

대형 언어 모델의 추론 속도를 높이기 위해 불필요한 연산 층을 건너뛰는 Early Exit 기법은 이전 토큰의 데이터가 유실되는 KV Cache Absence 문제로 인해 실질적인 속도 향상이 어려웠다. 이 논문은 별도의 추가 학습 없이도 유실된 데이터를 자연스럽게 생성하고 공유하는 구조를 제안하여, 모델의 정확도를 유지하면서도 실제 추론 속도를 획기적으로 개선했다.

HF Daily Papers

LLM의 의미론적 추론 능력 검증을 위한 SEMANTICQA 벤치마크 공개

기존 LLM 평가가 수학이나 논리적 추론에 집중된 반면, 이 논문은 관용구나 복합 명사처럼 단어의 조합과 문맥에 따라 의미가 변하는 의미론적 추론 능력을 진단합니다. 단순한 패턴 매칭을 넘어 모델이 언어의 미묘한 뉘앙스를 실제로 이해하고 있는지 확인하는 새로운 기준을 제시합니다.

HF Daily Papers

멀티모달 LLM, 숫자 인식은 완벽해도 곱셈 연산은 0점에 가깝다

멀티모달 LLM이 시각이나 청각 정보를 통해 숫자를 완벽하게 인식함에도 불구하고, 실제 다자리 곱셈 연산에서는 심각한 성능 저하를 보인다는 사실을 입증했다. 이는 모델의 한계가 지각 능력이 아닌 내부 계산 로직의 부재에 있음을 시사하며, 향후 멀티모달 에이전트의 신뢰성 확보를 위한 연구 방향을 제시한다.

HF Daily Papers Domain AI

미세 조정 없이 뇌 신호로 이미지를 읽는 BrainCoDec 공개

사람마다 뇌의 구조와 활동 패턴이 달라 기존에는 새로운 사람의 뇌 신호를 해독하려면 매번 모델을 새로 훈련해야 했습니다. 이 논문은 몇 가지 예시 데이터만 입력하면 별도의 학습 없이도 처음 보는 사람의 뇌 신호를 즉시 해독할 수 있는 기술을 제시하여 범용적인 뇌-컴퓨터 인터페이스(BCI) 구현에 한 발짝 다가섰습니다.

fMRI

HF Daily Papers

게임에서 배운 전략으로 수학 문제까지 해결하는 STRATAGEM 기술 공개

기존의 게임 기반 셀프 플레이 학습은 특정 게임 규칙에만 종속된 편법을 배우는 한계가 있었다. STRATAGEM은 추론의 추상성과 진화 과정을 측정하여 게임을 넘어 수학이나 코딩 같은 일반적인 문제 해결 능력으로 전이될 수 있는 핵심 논리 구조를 강화한다.

HF Daily Papers

보상 없이 스스로 진화하는 LLM 에이전트, 웹 성능 20% 향상

기존의 자기 진화 에이전트는 인간이 정의한 보상과 워크플로우에 의존하는 한계가 있었습니다. 이 논문은 에이전트가 새로운 환경을 스스로 탐색하고 'World Knowledge'를 구축하여 외부 도움 없이도 성능을 개선하는 Native Agency 패러다임을 제시하며, 소형 모델이 대형 모델을 능가할 수 있는 가능성을 보여줍니다.

HF Daily Papers

음성 에이전트의 진화, VoxMind로 작업 완료율 34%에서 74%로 급증

기존 음성 대화 모델은 단순히 듣고 말하는 반응형 대화에 치중했으나, VoxMind는 복잡한 추론과 외부 도구 사용 능력을 통합하여 실제 문제를 해결하는 에이전트로 진화했다. 특히 도구 개수가 늘어나도 응답 속도가 느려지지 않는 관리 구조를 도입해 실무 적용성을 크게 높였다.

HF Daily Papers

문맥 밀도 최적화로 에이전트 토큰 사용량 89.6% 절감 달성

긴 작업 수행 시 발생하는 문맥 폭발 문제를 해결하기 위해 정보 밀도 극대화라는 새로운 설계 원칙을 제시한다. 단순한 문맥 확장 대신 계층적 메모리와 자기 진화 메커니즘을 통해 비용은 낮추면서도 복잡한 작업 성공률을 획기적으로 높였다.

HF Daily Papers Language Models Benchmarks

3만 개의 올림피아드 난제 정복, AI 수학 추론의 새로운 기준 MATHNET

기존 수학 데이터셋은 특정 국가에 편중되거나 규모가 작아 AI의 진정한 수학적 범용성을 평가하기 어려웠다. MATHNET은 47개국 17개 언어의 올림피아드 문제를 통합하여 AI가 복잡한 수식 구조와 다국어 맥락을 동시에 이해하는지 측정하는 강력한 도구를 제공한다.

DeepSeek-V3.2-SpecialeGemini-3.1-ProMATHNET

HF Daily Papers

구체적 단어 변조로 VLM의 구성적 이해 성능 13.13% 향상

시각-언어 모델(VLM)이 문장의 어순이나 속성 결합을 제대로 이해하지 못하는 '단어 가방(Bag-of-Words)' 현상을 해결하기 위해 단어의 구체성에 주목했다. 추상적인 단어보다 구체적인 단어를 수정했을 때 모델이 더 강력한 학습 신호를 얻는다는 원리를 이용해 모델의 논리적 추론 능력을 획기적으로 개선했다.

HF Daily Papers

GPT-5 에이전트도 10번 중 4번만 성공? AI 에이전트의 신뢰성 위기 분석

AI 에이전트가 단일 실행에서 인간을 능가하는 성능을 보여주더라도, 동일한 작업에서 반복적으로 성공하지 못하는 신뢰성 문제가 실무 도입의 큰 장애물이 되고 있습니다. 이 논문은 에이전트의 불확실성을 유발하는 3대 요인을 정의하고, 단순 성공률이 아닌 재현 가능한 성공을 측정하기 위한 새로운 평가 체계를 제시합니다.

HF Daily Papers

LoRA 어댑터 병합 성능 저하, 출력 행렬 B만 보정해도 SOTA 달성

서로 다른 작업으로 학습된 LoRA 어댑터를 병합할 때 발생하는 성능 저하의 핵심 원인이 출력 측 행렬 B의 중복된 정보 축적임을 밝혀냈습니다. 이를 해결하기 위해 데이터 없이도 실행 가능한 Pico 기법을 도입하여 기존 병합 방식의 정확도를 최대 8.3포인트 향상시켰습니다.

HF Daily Papers

Claude Opus 4.6, 스스로 스킬을 배우고 수정하여 성공률 8.43%p 향상

기존 에이전트 평가는 주어진 도구의 사용 능력에만 집중했으나, 실제 환경에서는 에이전트가 경험을 통해 스스로 스킬을 발견하고 오류를 수정하는 능력이 필수적이다. 이 논문은 에이전트가 시간이 지남에 따라 스킬 라이브러리를 어떻게 진화시키는지 측정하는 새로운 프레임워크를 제공하여 자율 학습 에이전트 연구의 새로운 방향을 제시한다.

HF Daily Papers

에이전트 평가 환경 구축 비용 13,800배 절감 및 대규모 벤치마크 자동화

LLM 에이전트의 성능을 평가하기 위한 환경 구축은 그동안 수작업에 의존해 비용이 높고 확장이 어려웠다. 이 논문은 자연어 설명만으로 검증된 에이전트 실행 환경을 자동 생성하는 파이프라인을 제안하여 평가의 확장성과 연속성을 확보했다.

HF Daily Papers

웹 개발의 전 과정을 평가하는 멀티모달 벤치마크 WebCompass 공개

기존의 코드 벤치마크가 단순한 알고리즘 정확도에만 집중했던 것과 달리, 실제 웹 개발에서 중요한 시각적 충실도와 상호작용성을 평가할 수 있는 통합 프레임워크를 제시한다. 텍스트뿐만 아니라 이미지와 비디오 입력을 모두 지원하여 실제 개발자의 워크플로우와 유사한 환경에서 모델의 성능을 정밀하게 측정한다.

HF Daily Papers

SFT의 한계 극복, GFT로 LLM 성능과 강화학습 시너지를 동시에 잡다

기존의 Supervised Fine-Tuning(SFT)은 정답 데이터만 기계적으로 학습하여 모델의 창의성을 해치고 강화학습(RL)과의 시너지를 떨어뜨리는 문제가 있었다. 이 논문은 SFT를 강화학습의 특수한 사례로 재해석하고, 그룹 기반의 비교 학습과 동적 가중치 조절을 통해 지식 주입 효율과 일반화 성능을 동시에 높이는 새로운 사후 학습 프레임워크를 제시한다.

HF Daily Papers

MultiWorld, 여러 로봇과 플레이어의 상호작용을 완벽하게 시뮬레이션

기존 비디오 월드 모델은 주로 단일 에이전트 환경에 국한되어 여러 주체가 동시에 상호작용하는 복잡한 현실 세계를 모사하는 데 한계가 있었다. MultiWorld는 가변적인 수의 에이전트와 카메라 시점을 지원하여 협동 로봇 공학이나 멀티플레이어 게임 시뮬레이션의 정확도를 획기적으로 높였다.

HF Daily Papers

OpenGame, 자연어 한 줄로 플레이 가능한 2D 웹 게임 자동 생성

기존 코드 에이전트는 단일 파일 코딩에는 능숙하지만, 게임 엔진의 복잡한 상태 관리와 다중 파일 간의 의존성 문제로 인해 실행 가능한 게임을 만드는 데 한계가 있었다. OpenGame은 게임 전용 구조적 가이드와 디버깅 프로토콜을 도입하여 누구나 아이디어만으로 완성도 높은 웹 게임을 제작할 수 있는 환경을 제공한다.

HF Daily Papers

자율주행 AI의 추론 속도와 정확도를 동시에 잡은 OneVL 공개

자율주행 시스템에서 사고 과정(Chain-of-Thought)을 거치는 모델은 정확하지만 연산 속도가 느려 실시간 적용이 어려웠습니다. OneVL은 복잡한 추론 과정을 압축된 잠재 토큰으로 처리하여 답변만 내놓는 모델 수준의 속도를 유지하면서도 기존의 단계별 추론 모델보다 더 높은 정확도를 달성했습니다.

HF Daily Papers

단 한 번의 연산으로 고품질 이미지 생성, MeanFlow의 텍스트 확장 성공

기존의 초고속 이미지 생성 기술인 MeanFlow를 단순 분류 레이블이 아닌 복잡한 문장 입력으로 확장하여 실용성을 극대화했다. 강력한 LLM 기반 인코더의 특정 의미론적 특성이 원스텝 생성의 품질을 결정짓는 핵심 요소임을 밝혀내어 향후 효율적인 생성 모델 설계의 이정표를 제시한다.

TechCrunch AI Companies

성공률 50%의 한계를 넘는다: 스스로 학습하는 AI 에이전트 NeoCognition의 등장

오하이오 주립대 교수 Yu Su가 설립한 NeoCognition이 자율적으로 특정 도메인의 월드 모델을 학습하여 전문성을 갖추는 AI 에이전트 개발을 위해 4,000만 달러의 시드 투자를 유치했습니다.

NeoCognition

r/artificial Companies

제프 베이조스의 새로운 도전, 물리적 AI 스타트업에 100억 달러 몰린다

제프 베이조스가 설립한 물리적 AI 스타트업 '프로젝트 프로메테우스'가 월가 대형 투자사들로부터 100억 달러 규모의 투자를 유치하며 물리 법칙을 이해하는 AI 개발에 박차를 가하고 있다.

Google DeepMindOpenAIProject Prometheus

r/ClaudeCode Coding Agents Agents

Claude Code 설정을 여러 기기에서 동기화하는 cps 도구 등장

Claude Code의 여러 프로필을 격리 관리하고 Git과 age 암호화를 통해 안전하게 백업 및 동기화하는 CLI 도구 cps가 출시됐다.

Claude CodeMCP

r/ClaudeCode

모델끼리 싸우게 하세요! 상호 비판으로 코딩 정확도 높이는 Dialectic

서로 다른 AI 모델들이 계획, 구현, 리뷰 단계에서 상호 비판하며 협업하는 오픈소스 멀티 에이전트 코딩 도구 Dialectic이 공개됐다.

r/ClaudeCode Coding Agents Agents

Claude Code의 위험한 명령 실행, 이제 네이티브 플러그인으로 제어하세요

Claude Code의 도구 호출과 Bash 명령을 정책에 따라 제어하고 감사 추적을 제공하는 Axonflow 플러그인이 공개되었다.

Claude CodeMCP

r/vibecoding

가장 똑똑하다는 Claude Opus 4.7이 단순 파일 이름 변경 로직에서 계속 실패한 이유

최첨단 LLM인 Claude Opus 4.7이 사용자의 명확한 가이드 대신 자신의 '영리한' 인플레이스 로직을 고집하다가 데이터 손실과 반복적인 회귀 오류를 일으킨 사례이다.

r/PromptEngineering

독학하면 20개월, 교육받으면 2개월? AI 도입 속도 10배 높이는 법

조직 내 AI 숙련도를 10단계로 구분하여 진단하고, 체계적인 교육을 통해 독학 대비 도입 기간을 17개월 이상 단축할 수 있음을 강조한다.

TechCrunch AI Companies

데이트 앱 사진 300만 장으로 AI 학습? Clarifai, 무단 데이터와 모델 전격 삭제

AI 플랫폼 Clarifai가 OkCupid에서 부적절하게 수집한 300만 장의 사진 데이터와 이를 통해 학습된 안면 인식 모델을 FTC 조사 결과에 따라 삭제했다.

Clarifai

r/LLMDevs Companies

Anthropic 신규 모델 토큰 사용량 1.4배 증가? 실무 비용 주의보

Anthropic의 업데이트된 토크나이저가 실제 개발 환경에서 예상보다 1.4배 더 많은 토큰을 생성하여 비용과 컨텍스트 관리에 영향을 주고 있다.

Anthropic

r/LLMDevs Coding Agents Benchmarks

Qwen2.5-Coder 성능 4.5%p 향상시킨 데이터셋 생성 도구 공개

비전문가도 오픈소스 모델을 활용해 미세 조정용 데이터셋을 생성하고 관리할 수 있는 데스크톱 애플리케이션과 이를 통한 성능 향상 결과가 공유됐다.

Claude CodeHumanEvalQwen2.5-Coder

The Verge AI Products

내 얼굴 도용한 AI 영상 찾아낸다 YouTube 딥페이크 단속 강화

YouTube가 유명인의 얼굴을 도용한 AI 딥페이크 영상을 자동으로 탐지하고 삭제 요청을 관리할 수 있는 초상권 탐지 도구를 할리우드 등 엔터테인먼트 업계로 확대 적용했다.

YouTube

r/ClaudeCode Language Models

에이전트끼리 협업하고 노트를 쓴다? 멀티 에이전트 IDE 'Grome'

여러 워크스페이스에 분산된 AI 에이전트들을 하나의 창에서 관리하고 비동기적으로 협업하게 해주는 개발 도구 Grome이 공개됐다.

ClaudeCodex

r/ClaudeCode Language Models Vector DB

복잡한 벡터 DB는 과잉? SQLite만으로 구축한 초경량 AI 에이전트 메모리

복잡한 벡터 데이터베이스 대신 SQLite의 FTS5와 LLM의 추론 능력을 결합하여 더 효율적이고 정확한 에이전트 메모리 시스템을 구축한 사례이다.

ClaudeSQLite

r/ClaudeCode Coding Agents Dev Tools

Claude Code로 GIMP와 Inkscape를 자동 제어하는 무료 스킬

Claude Code가 ImageMagick, Inkscape, GIMP 등 로컬 CLI 도구를 사용하여 비용 없이 이미지를 편집하고 생성할 수 있는 스킬이 공개됐다.

Claude CodeImageMagickInkscape

r/MachineLearning Coding Agents

맥북 에어로 학습시킨 7.5M 파라미터 확산 언어 모델 제작기

Claude Code 등 AI 도구의 도움 없이 직접 Discrete Diffusion 기법을 활용한 7.5M 파라미터 규모의 언어 모델을 구현하고 학습한 사례이다.

Claude Code

r/vibecoding Hardware

조이스틱으로 조작하는 AI 게임기? 라즈베리 파이 기반 AI 아케이드 프로젝트

라즈베리 파이와 Node.js를 활용해 4가지 선택지만으로 즉석에서 플레이 가능한 미니 게임을 생성하는 하드웨어 프로젝트가 공개됐다.

Raspberry Pi

Simon Willison

자전거 타는 펠리컨을 검색했는데 스노보드 타는 곰이? 데이터 오염의 실제

Steve Cosman이 AI 모델의 학습 데이터를 의도적으로 오염시키기 위해 자전거 타는 펠리컨이라는 제목에 스노보드 타는 곰 이미지를 결합한 사례를 소개한다.