GPT-5.4를 꺾은 오픈소스 코딩 모델 Kimi K2.6과 OpenAI의 텔레파시 기능
Moonshot AI의 새로운 오픈소스 모델 Kimi K2.6의 벤치마크 성능과 OpenAI Codex의 화면 인식 기반 메모리 기능인 Chronicle을 소개합니다.
총 100건
Moonshot AI의 새로운 오픈소스 모델 Kimi K2.6의 벤치마크 성능과 OpenAI Codex의 화면 인식 기반 메모리 기능인 Chronicle을 소개합니다.
GPT-2 스타일 모델의 테스트 세트 손실과 지시어 파인튜닝(IFT) 점수 사이의 상관관계를 분석한 결과, 낮은 손실이 반드시 높은 실무 성능으로 이어지지는 않음을 확인했다.
긴 대화 세션에서 LLM의 논리적 일관성을 유지하고 환각을 줄이기 위해 세 가지 관점(긍정·부정·중립)을 내부적으로 검토하게 하는 AC Lite 프롬프트 기법이 공유됐다.
대규모 인간 행동 데이터를 활용해 로봇의 물리적 지능을 학습시키고 다양한 로봇 신체 구조에 적용하는 새로운 학습 프레임워크와 생태계를 소개합니다.
MCP의 프록시/검색 패턴이 컨텍스트 비대화를 해결했으나, 스킬 메타데이터는 여전히 시스템 프롬프트에 과도하게 노출되는 문제가 남아있다.
앤스로픽이 아마존으로부터 50억 달러를 추가 투자받는 대신, 향후 10년간 AWS 클라우드 인프라에 1,000억 달러를 지출하기로 합의했다.
스탠포드 대학교의 Afshine 및 Shervine Amidi 강사가 확산 모델과 점수 매칭을 넘어선 차세대 생성 패러다임인 Flow Matching의 수학적 원리와 학습 방법론을 상세히 강의한다.
스트리밍 플랫폼에 매일 5만 곡 이상의 AI 생성 음악이 업로드되는 상황에서, 기존의 대규모 모델 기반 탐지 방식은 학습하지 않은 생성 모델에 대해 취약한 한계를 보였다. 이 논문은 모든 AI 음악 생성기가 공통으로 사용하는 신경 오디오 코덱의 물리적 제약인 RVQ를 활용하여, 매우 가벼운 모델로도 미학습 생성 모델까지 정확하게 잡아내는 새로운 패러다임을 제시한다.
AI 아키텍처의 발전 과정이 단순한 공학적 개선을 넘어 생물학적 진화와 동일한 통계적 법칙을 따른다는 사실을 입증했다. 이는 AI의 발전 방향이 인간의 의도뿐만 아니라 '적합도 지형'이라는 수학적 구조에 의해 결정됨을 시사하며, 향후 더 효율적인 모델 설계 전략을 세우는 데 기여할 수 있다.
구글이 한국을 포함한 7개 신규 국가의 크롬 브라우저에 Gemini AI 기능을 공식 출시했다.
Claude Design의 웹 디자인 기능과 Seedance 2.0의 영상 생성 기술을 결합하여 고품질 애니메이션 랜딩 페이지를 구축하는 전체 워크플로를 제시합니다.
Apple의 MLX 프레임워크를 사용하여 iPhone 및 Apple Silicon 기기에서 Gemma 4 모델을 오프라인으로 고속 실행하는 방법과 성능을 제시한다.
Paper Lantern MCP 서버를 통해 최신 연구 논문의 기법을 실시간으로 검색하여 적용한 코딩 에이전트가 테스트 생성 및 데이터 추출 작업에서 성능을 대폭 개선했다.
구글이 AI 추론 비용 최적화와 공급망 다변화를 위해 마벨 테크놀로지와 커스텀 AI 추론 칩 설계를 논의 중이다.
Toby Ord의 분석에 따르면 고성능 AI 에이전트가 복잡한 과업을 수행할 때 발생하는 시간당 비용이 인간 소프트웨어 엔지니어의 인건비를 상회하는 것으로 나타났다.
명시적 규칙보다 구체적 예시를 활용한 프롬프트가 LLM의 특정 말투 재현에 훨씬 효과적임을 실험으로 입증했다.
Claude Code와 Codex의 세션 로그를 분석하여 익명화된 흥미로운 상호작용 사례를 추출하고 공유하는 오픈소스 프로젝트이다.
Qwen 35B 모델의 지원을 받아 pygame과 PyOpenGL로 구현한 3D 테트리스(Blockout 스타일) 게임 프로토타입이 공개되었다.
GPT-Rosalind는 생명과학 연구 데이터를 분석하고 에이전트 기반 워크플로를 통해 증거 기반의 가설을 생성한다.
NVIDIA Blackwell GPU를 탑재한 Amazon SageMaker AI G7e 인스턴스는 이전 세대 대비 2배의 메모리와 2.3배의 추론 성능을 제공하여 대규모 모델의 비용 효율적인 배포를 지원한다.
LLM 추론의 효율성을 높이기 위한 모델 로딩 방식(mmap)과 다양한 양자화 기법(GGUF, AWQ, EXL2 등)의 작동 원리 및 성능 차이를 상세히 설명합니다.
사용자의 대화 패턴을 학습하여 이미지 처리, 음성 인식, 웹 검색, 자동 응답 등을 수행하는 챗봇 V2를 구축하고 그 사회적 영향에 대해 질문함.
AI 추론 워크로드가 에이전트 기반으로 복잡해짐에 따라 CPU, GPU, RDU를 조합한 이기종 인프라가 추론 효율과 속도를 최적화한다.
전직 CPO가 ClaudeCode를 활용해 2개월 동안 1,000번 이상의 커밋으로 웹 리드 전환 에이전트 서비스를 개발 및 출시한 사례.
사이버 공격이 자동화됨에 따라 인간 중심의 방어 체계를 넘어 AI와 자동화를 결합한 머신 스피드 보안 운영 체계로 전환해야 한다.
중국 스마트폰 제조사 Honor의 휴머노이드 로봇이 하프마라톤에서 50분 26초를 기록하며 인간 세계 기록을 경신했다.
엔지니어가 Claude Code를 활용해 코드베이스 온보딩 시간을 단축하고 자율 테스트 루프를 실행하며 컨텍스트 스위칭을 줄이는 실무 사례를 다룬다.
멀티 에이전트 워크플로에서 발생하는 상태 불일치와 검증 누락 문제를 해결하기 위한 경량 일관성 검사 패키지 agent-consistency를 소개한다.
AI 모델의 성능을 단일 벤치마크 점수로 평가하는 방식은 실제 에이전트 환경에서의 실무 역량을 충분히 반영하지 못하며, 폐쇄형 모델과 오픈 모델 간의 격차를 왜곡할 수 있다.
구매 로그 대신 LLM이 평가한 고품질 라벨을 사용하여 크로스 인코더를 학습시킴으로써 패션 검색 엔진의 nDCG@10 성능을 31% 개선함.
IIT Delhi의 Mausam 교수가 인도의 AI 인재 유출 문제와 연구 인프라 부족, 그리고 중국과의 전략적 차이를 분석한다.
iPad에서 사진을 실시간으로 게임 환경으로 변환하고 사용자가 직접 그릴 수 있는 로컬 월드 모델 기반 드라이빙 게임을 개발했다.
에픽게임즈가 포트나이트 크리에이터를 위해 Gemini 3.1 Flash-Lite 기반의 대화형 AI NPC 생성 도구를 실험적으로 공개했다.
장문 컨텍스트 추론을 위한 KV-캐시 압축 기법인 Cartridges와 STILL의 오픈소스 구현체와 벤치마크 코드를 공개했다.
Deezer는 플랫폼 내 AI 생성 음악 비중이 44%에 달함에 따라, 이를 식별하고 레이블을 부착하는 탐지 기술을 도입했다.
ToolSimulator는 LLM 기반 시뮬레이션을 통해 외부 API 호출 없이 복잡하고 상태를 유지하는 AI 에이전트 워크플로를 안전하게 테스트하는 프레임워크입니다.
AI 인프라의 환경적 영향과 기후 위기 해결을 위한 AI 기반 최적화 기술 및 지속 가능한 미래 설계 방안을 논의한다.
Noetik은 대규모 공간 전사체 데이터를 학습한 TARIO-2 모델을 통해 암 환자별 최적의 치료법을 매칭하여 임상 시험 성공률을 높이는 기술을 개발했다.
MS/MS 스펙트럼 데이터로부터 화학 구조를 학습하는 엔드투엔드 트랜스포머 시스템을 구축하여, 구조 학습은 가능하나 순위 결정은 여전히 어렵다는 한계를 확인했습니다.
Neovim, Claude Code, Warp를 조합하여 기존 AI IDE보다 빠르고 유연한 에이전트 기반 코딩 워크플로를 구축하는 방법.
LLM 기반 합성 데이터 생성 시 외래 키 무결성과 필드 간 상관관계를 유지하기 위해 프롬프트 루프 대신 토폴로지 기반 생성 순서와 필드 의존성 설계를 제안함.
Google DeepMind의 오픈 모델 Gemma 생태계의 최신 기능과 fine-tuning 방법, 그리고 Sovereign AI를 활용한 애플리케이션 구축 전략을 다룬다.
Vercel 보안 침해 사고, Blue Origin의 위성 궤도 이탈, NSA의 Anthropic 모델 활용 등 최신 AI 및 기술 업계 주요 소식을 정리한다.
컴퓨터 비전 모델로 피사체 위치를 실시간 분석하고, 아두이노와 서보 모터를 연동해 카메라를 자동으로 제어하는 시스템 구축 방법을 설명합니다.
LLM의 사후 학습 과정에서 강화학습을 사용할 때 너무 쉽거나 어려운 샘플은 학습 신호를 주지 못하는 문제가 있다. 이 논문은 퍼플렉시티를 기준으로 샘플을 정밀하게 분류하고 보상을 재할당하여 모델의 추론 성능과 학습 안정성을 동시에 개선하는 방법론을 제시한다.
기존 AI 벤치마크가 단순 지식 암기나 단기 추론에 집중했다면, 이 논문은 실제 물리 연구처럼 긴 호흡의 탐색과 복잡한 계산이 필요한 환경에서 LLM의 한계를 측정한다. 이를 통해 자율적인 AI 과학자 시스템 구축을 위한 핵심 병목 지점이 도메인 지식 부족과 장기 추론의 불안정성임을 명확히 제시한다.
비디오 내에서 인간이 어디를 집중해서 보는지 예측하는 기술은 효율적인 영상 압축과 자율주행, 미디어 편집의 핵심 기술이다. 이 논문은 2,000개의 대규모 비디오 데이터셋을 기반으로 최신 VLM과 확산 모델을 활용한 시각적 주의 집중 예측의 최신 기술적 도약을 보여준다.
췌장암(PDAC) CT 영상 분할은 전문가들 사이에서도 의견이 갈릴 만큼 경계가 모호하여 단일 정답(Ground Truth)을 가정하는 기존 방식은 한계가 있다. TwinTrack은 여러 전문가의 의견 합의율을 직접 예측하도록 모델을 교정하여 진단의 불확실성을 수치화하고 신뢰도를 높인다.
새로운 AI 가속기가 등장할 때마다 전문가가 수동으로 커널을 최적화하는 데 수개월이 걸리는 병목 현상을 해결합니다. LLM 에이전트가 하드웨어 지식 없이도 스스로 학습하며 최적화 코드를 생성하여, 상용 모델 대비 26배 저렴한 비용으로 전문가 수준의 성능을 달성할 수 있음을 보여줍니다.
6G-IoT 환경에서 수천 개의 기기가 생성하는 데이터를 중앙 서버로 보내지 않고도 안전하게 사이버 위협을 탐지할 수 있는 기술이다. 그래디언트 압축을 통해 통신 비용을 32배 줄이면서도 동형 암호를 결합해 데이터 유출 위험을 원천 차단했다.
기존 시각-언어 모델들이 이미지의 세부 구역(패치)과 텍스트 개념을 연결하는 데 어려움을 겪던 문제를 해결했다. iBOT++라는 새로운 학습 목적 함수와 고도화된 캡션 생성 전략을 통해 이미지의 미세한 부분까지 정확히 이해하는 능력을 갖추게 되었으며, 이는 자율주행이나 정밀 의료 영상 분석 등 정교한 시각 이해가 필요한 분야에 큰 도움을 줄 수 있다.
최신 시각 추론 모델들이 간단한 질문에도 불필요하게 긴 추론 과정을 거치며 자원을 낭비하는 '과잉 사고' 문제를 해결한다. 문제의 난이도에 따라 추론의 깊이를 스스로 조절하게 함으로써 정확도는 유지하면서도 운영 비용을 획기적으로 줄일 수 있는 방향을 제시한다.
LLM의 코드 생성 능력이 비약적으로 발전했음에도 불구하고, 금융 도메인 특유의 복잡한 API 활용과 실행 가능한 트레이딩 로직 구현 능력은 여전히 검증되지 않은 영역이다. 이 논문은 단순한 문법 정확도를 넘어 실제 과거 데이터에서 거래가 발생하는지, 그리고 원래 의도한 전략과 일치하는지를 다단계로 평가하는 엄격한 기준을 제시한다.
기존의 3D 레이아웃 생성 방식은 텍스트를 JSON 형태의 좌표로 변환하는 데 그쳐 가구가 공중에 뜨거나 겹치는 물리적 오류가 잦았다. 이 논문은 3D 생성 모델의 공간 이해 능력을 직접 활용하여 물리적 정합성을 19% 향상시키고 연산 속도를 65% 개선했다.
언어 모델이 사후 학습(Post-training)을 거치며 출력이 획일화되는 '다양성 붕괴' 현상의 근본 원인을 분석한 논문입니다. 단순히 특정 알고리즘의 문제가 아니라 학습 데이터의 구성이 다양성 손실의 시점과 강도를 결정한다는 사실을 밝혀내어, 향후 더 창의적이고 유연한 AI 모델 개발을 위한 데이터 전략의 중요성을 시사합니다.
기존의 2D 그리드 방식 토큰 구조는 생성 중간 단계에서 전체적인 의미를 파악하기 어려워 추론 시점의 최적화가 힘들었다. 이 논문은 1D 순서화된 토큰 구조가 생성 과정에서 '거시적 의미에서 세부 묘사'로 이어지는 계층적 정보를 제공하여, 별도의 추가 학습 없이도 검색 알고리즘을 통해 생성 품질을 획기적으로 높일 수 있음을 증명했다.
대형 언어 모델이 복잡한 문제를 풀 때 여러 경로를 동시에 탐색하면 비용이 기하급수적으로 증가하는데, 이 논문은 틀린 경로를 초기에 잘라내어 비용을 70% 이상 아끼는 방법을 제시한다. 특히 모델 내부의 신호를 직접 활용하여 별도의 외부 모델 없이도 매우 빠르고 정확하게 오류를 잡아낸다.
기존의 LLM 기반 청킹 방식은 텍스트 전체를 다시 생성해야 하므로 비용이 많이 들고 할루시네이션 위험이 있었다. W-RAC은 웹 문서의 구조를 활용해 LLM을 '생성기'가 아닌 '계획기'로 사용하여 비용을 획기적으로 줄이면서도 검색 성능을 유지한다.
기존 멀티모달 모델은 단발성 대화에 치중해 사용자의 취향 변화나 고유한 성격을 장기적으로 기억하지 못하는 한계가 있었다. PersonaVLM은 대화 속에서 사용자의 성격 수치를 실시간으로 업데이트하고 전용 메모리 데이터베이스를 구축하여, 시간이 지나도 사용자에게 최적화된 맞춤형 답변을 제공한다.
딥러닝 모델이 단 몇 개의 가중치 비트 반전만으로도 완전히 붕괴될 수 있다는 치명적인 보안 취약점을 노출했다. 데이터나 복잡한 최적화 과정 없이 가중치 크기만 분석하여 공격 대상을 찾아내므로, 자율주행이나 금융 시스템 등 안전이 중요한 AI 서비스에 심각한 위협이 된다.
Diffusion 모델이 추론 시 훈련 때와 달리 신호 대 잡음비(SNR)와 타임스텝 간의 불일치를 겪는 SNR-t 편향 문제를 최초로 규명했다. 추가 학습 없이도 생성 품질을 획기적으로 개선할 수 있는 플러그앤플레이 방식의 보정 기법을 제시하여 실무적 가치가 높다.
OpenClaw 프레임워크가 급격히 성장했으나, 마켓플레이스 스킬의 20%가 악성으로 판명되는 등 심각한 보안 및 거버넌스 위기에 직면했다.
Figma의 폐쇄적인 파일 포맷이 AI 학습의 장애물이 되면서, 코드를 직접 다루는 Claude Design 같은 도구가 구조적 우위를 점하고 있다.
기존 GSD 프레임워크의 복잡성과 비용 문제를 해결하기 위해 장기적 일관성과 명세 기반 개발에 집중한 Workspine 프레임워크가 공개됐다.
BERT 모델을 활용해 LLM에 전달되는 불필요한 로그와 노이즈를 로컬에서 필터링하여 비용을 절감하고 모델 성능을 높이는 PandaFilter 프로젝트가 공개됐다.
오픈소스 프로젝트 OCODX가 Agent Gym, MCP 서버 통합, 병렬 실행 스웜 기능을 통해 복잡한 코드베이스를 자율적으로 관리하는 기술 리더 에이전트 아키텍처를 공개했다.
Anthropic의 Claude 해커톤에서 비전공자들이 AI 도구만을 활용해 주요 상을 휩쓸며 소프트웨어 개발의 민주화를 증명했다.
Roboflow는 컴퓨터 비전 모델의 예측 결과, 이미지, 메타데이터를 중앙에서 통합 관리하고 분석할 수 있는 Vision Events를 공개했다.
MCP(Model Context Protocol)를 활용하여 웹 검색과 유튜브 분석을 수행하는 자율적 리서치 에이전트와 이를 고품질 기술 포스팅으로 변환하는 글쓰기 워크플로의 설계 및 구현 방법을 다룹니다.
대규모 코드베이스에서 AST 기반 청킹과 코드 전용 임베딩 모델, 리랭킹을 조합하여 검색 정확도를 최적화한 사례 공유.
DeepSeek-R1-Distill-Qwen-32B 기반의 의료 특화 추론 모델로, 4-bit GPTQ와 QLoRA를 통해 단일 GPU에서 고성능 추론을 구현했다.
LLM이 스스로 프롬프트를 초안 작성, 비판, 재작성, 검증하는 4단계 자동화 메타 프롬프팅 파이프라인이 공개됐다.
자주 사용하는 7가지 글쓰기 프롬프트를 더블 복사만으로 즉시 실행할 수 있는 데스크톱 앱 Kalamy를 개발했다.
Opus 4.7의 프롬프트 반응성 변화로 인한 성능 저하 문제를 해결하기 위해 워크플로우 내 정량적 로깅과 벤치마킹 도입이 필수적이다.
Claude Code 세션을 자동화하고 여러 작업을 동시에 관리할 수 있는 오케스트레이션 레이어 CORE를 소개합니다.
Claude Code 터미널 출력 복사 시 발생하는 강제 줄바꿈 문제를 해결하고 텍스트를 깔끔하게 정리해주는 클립보드 유틸리티를 공유한다.
git push 명령어를 통해 코드를 자동으로 검토하고 PR을 생성해주는 AI 에이전트 기반 도구 'no-mistakes'를 소개한다.
기업 문서와 AI 생성 텍스트에서 'Not just a..., it's a...' 문장 구조가 2023년 대비 4배 이상 증가했다.
에빙하우스 망각 곡선과 그래프-벡터 하이브리드 구조를 도입하여 AI 에이전트의 기억 효율과 검색 정확도를 개선한 사례.
Claude의 API 요청 오류를 해결하기 위해 OpenAPI 스키마를 구조화하여 MCP로 검색 가능하게 만드는 도구인 api-ingest를 공유함.
여러 LLM 웹 UI에 프롬프트를 동시에 전송하고 결과를 나란히 비교할 수 있는 무료 크롬 확장 프로그램.
BI 도구를 AI로 대체했을 때 데이터 정의와 품질 관리가 부재하면 발생하는 데이터 불일치와 생산성 저하 문제를 다룬다.
120개 프롬프트 패턴을 3,600회 테스트하여 출력 형태만 바꾸는 플라세보 패턴과 실제 추론 능력을 향상시키는 실질적 패턴을 분류함.
LLM의 불확실성 회피성 말투를 제거하기 위해 'no hedge words'라는 부정 제약 프롬프트를 사용하여 구체적이고 인간적인 문체를 유도하는 방법.
Linux의 IP_TRANSPARENT 기술과 LLM을 결합하여, 유입되는 네트워크 트래픽에 실시간으로 대응하고 동적으로 플러그인을 생성하는 지능형 허니팟 시스템을 구현했다.
JSON 필드명을 단일 문자로 치환하고 사전 정보를 추가하는 무손실 압축 방식으로 MCP 도구 응답 토큰을 평균 42% 절감하는 도구이다.
Claude Code에 영구 메모리, 모델 라우팅, 사양 기반 개발 파이프라인을 추가하여 에이전트 워크플로를 최적화하는 도구 모음 Smith.
Claude Code 세션 캐시 만료 후 재접속 시 전체 컨텍스트가 다시 캐싱되면서 발생하는 비용 문제를 SQL 로그로 확인하고 주의를 당부함.
Claude Code의 상태 표시줄을 커스터마이징하고 실시간 세션 정보와 비용을 시각화하는 도구와 웹 기반 설정 환경을 개발했다.
Claude Code 4.7 버전에서 MCP 도구 호출이 정상적으로 작동하지 않아 4.6 버전으로 롤백한 사례.
Claude Code 세션 내 대화 내용을 키워드로 검색하고 미리 볼 수 있는 CLI 도구 ccsesh를 개발하여 공유함.
Claude Opus 4.7의 이미지 해상도 상향으로 비용이 3배 증가했으나, 일반적인 OCR 작업에서는 1568px로 충분하므로 비용 최적화를 위해 다운스케일링을 권장함.
Supergrok과 Flutter를 사용하여 24시간 내에 Pomodoro 타이머 앱 BloomFocus를 개발하고 Play Store에 출시한 경험과 기술적 해결 과정을 공유한다.
Claude Code를 활용해 블루투스 HCI 로그와 APK 소스를 분석하고, Web Serial API 기반의 웹 라벨 프린터 드라이버를 성공적으로 구축한 사례입니다.
Claude를 활용해 B2B 아웃바운드 이메일 시퀀스 최적화와 거절 데이터 분석을 수행하여 업무 시간을 획기적으로 단축한 사례.
Anthropic이 보안상의 이유로 공개를 제한한 사이버 보안 모델 Mythos를 NSA가 취약점 스캔 목적으로 활용하고 있다.
프롬프트 앞에 특정 억제 블록을 추가하여 모델이 놓치기 쉬운 논리적 오류와 제약 조건을 더 정확하게 처리하도록 유도하는 실험 결과 공유.
AI 에이전트의 자율 결제 시스템을 테스트하며 발견한 인프라 결함과 이를 해결하기 위한 커널 경계 설계 패턴을 공유한다.