구글의 자가 개선 AI AlphaEvolve, 과학과 비즈니스 난제 해결
Gemini 기반 진화 알고리즘 에이전트 AlphaEvolve가 출시 1년 만에 과학 연구 및 구글 클라우드 인프라 최적화에서 실질적인 성과를 거두었다.
총 100건
Gemini 기반 진화 알고리즘 에이전트 AlphaEvolve가 출시 1년 만에 과학 연구 및 구글 클라우드 인프라 최적화에서 실질적인 성과를 거두었다.
머신러닝 모델의 학습 안정성과 예측 신뢰성을 확보하기 위해 학습과 추론 파이프라인 간의 데이터 정규화 기법을 표준화하고 일관되게 적용해야 한다.
오로라 혁신(Aurora Innovation)의 CEO 크리스 엄슨이 자율주행 트럭의 상업적 운영 성과와 검증 가능한 AI 시스템의 중요성을 강조했다.
Effect 라이브러리 소스 코드를 프로젝트에 직접 포함시켜 코딩 에이전트가 정확한 패턴을 학습하고 신뢰할 수 있는 TypeScript 코드를 생성하게 만드는 실전 워크플로를 다룬다.
오픈 소스와 폐쇄형 AI 모델 간의 성능 격차 변화와 물리적 환경에 내장되는 임베디드 AI의 부상을 통해 향후 2년 내 AI 생태계의 변화를 전망합니다.
Ramp의 응용 연구 책임자 Alexander Shevchenko가 Ramp Sheets의 에이전트 아키텍처와 KV 캐시를 이용한 에이전트 간 통신 실험을 공유합니다.
전통적인 수동 피처 엔지니어링에서 벗어나 LLM의 시맨틱 이해 능력을 활용해 비정형 데이터에서 고차원 특징을 자동 추출하는 방법론과 실전 코드를 제시한다.
AI 모델의 성능 변화를 감지하는 드리프트 탐지 프레임워크와 평가 기준을 담은 PDF 문서가 공개됐다.
구글이 새로운 초소형 트래커 Fitbit Air를 공개하고, 기존 Fitbit 앱을 Google Health 앱으로 통합하며 Gemini 기반 AI 헬스 코치를 정식 출시했습니다.
IBM이 공개한 Granite Speech 4.1 모델의 3가지 변체(Base, Plus, NAR)를 통해 정확도, 화자 분리 기능, 초고속 추론 성능의 기술적 특징과 실무 적용 방법을 상세히 다룹니다.
Awesome Design MD 리포지토리의 57개 브랜드 디자인 시스템을 Claude Code에 학습시켜 전문적인 웹페이지, 슬라이드, 그래픽을 단일 프롬프트로 생성하는 워크플로를 제시한다.
OpenAI가 ChatGPT를 Excel과 Google Sheets 내부에 직접 통합하여 데이터 이동 없이 AI로 스프레드시트를 편집하고 분석할 수 있는 기능을 출시했다.
카네기 멜론 대학교 연구진이 텍스트 명령으로 의료 영상 내 장기를 자동으로 식별하고 라벨링하는 AI 도구 AutoMiSeg를 개발했습니다.
Amazon Bedrock AgentCore Payments는 AI 에이전트가 API, 유료 콘텐츠, MCP 서버 이용 시 실시간 마이크로페이먼트를 자동으로 수행할 수 있게 지원하는 관리형 서비스이다.
LLM을 활용한 보안 취약점 자동 탐지가 급증하면서, 기존의 비밀 유지(엠바고) 및 공동 공개 절차가 실효성을 잃고 보안 관리 체계의 근본적 변화를 요구하고 있다.
스포티파이가 AI DJ 기능의 지원 언어를 프랑스어, 독일어 등 4개국어로 확대하고 한국을 포함한 75개국으로 서비스 지역을 넓혔습니다.
AI 기술 확산에 대한 사회적 저항이 커지는 가운데 Anthropic과 SpaceX의 협력, OpenAI 내부의 신뢰 위기 등 업계 주요 변화를 다룹니다.
Moonshot AI가 출시한 1조 파라미터 규모의 MoE 모델 Kimi K2.6이 SWE-Bench Pro에서 GPT-5.4를 앞서며 오픈 웨이트 모델 중 세계 1위를 기록했다.
복잡한 수학 없이 일상 사례를 통해 정규 분포부터 멱법칙까지 데이터의 패턴을 결정하는 7가지 핵심 통계 분포를 설명합니다.
AI 도구로 생성된 무단 리믹스 곡들이 스트리밍 플랫폼에서 급증하며 원곡 아티스트의 수익을 가로채는 심각한 저작권 침해 문제를 야기하고 있다.
보안 전문가들이 Lovable, Replit 등 AI 코딩 도구로 만든 5,000개 이상의 앱을 분석한 결과, 상당수가 인증 없이 민감한 기업 및 개인 데이터를 노출하고 있음을 확인했다.
AIsecTest 방법론을 통해 Nemotron-3 Nano Omni 모델의 자기 인식 및 인지적 안정성을 평가한 결과, 선언적 자기 인식은 우수하나 불확실성 관리와 성찰적 깊이에는 한계가 있음이 확인됐다.
GoodBarber는 단일 백오피스에서 iOS, Android, PWA를 동시에 구축하며 RAG 챗봇과 AI 어시스턴트 기능을 통합할 수 있는 노코드 플랫폼이다.
CEAT 프레임워크를 통해 ChatGPT의 정서적 인지 및 담화 일관성을 분석한 결과, 88점의 높은 점수를 기록했으나 메타인지와 실제 공감 능력에는 한계가 있음이 확인됐다.
실제 서비스 환경에서 AI 에이전트의 오작동을 방지하기 위해 지침, 문맥, 검증의 3단계 계층 구조를 적용하여 안정성을 확보한 사례이다.
Unsloth Studio와 같은 도구로 인해 AI 엔지니어링의 핵심이 코드 작성에서 모델 선택과 데이터 반복 실험으로 이동하고 있다.
개인정보 보호로 확보가 어려운 의료 문서를 대체하기 위해 호주 병원 양식을 모방한 5,000건의 합성 PDF 데이터셋과 생성 파이프라인을 구축했다.
RIKEN AIP의 스즈키 타이지 팀장이 AISTATS 2026에서 딥 파운데이션 모델의 특징 학습과 최적성에 대해 기조연설을 수행했다.
MIT 경제학자들의 연구에 따르면 미국 기업들은 생산성 향상보다 고임금 노동자의 임금 프리미엄을 제거하기 위해 자동화를 도입하며, 이것이 소득 불평등 심화의 핵심 원인임이 밝혀졌다.
Claude의 세션 간 기억 상실 문제를 해결하기 위해 로컬 임베딩과 3단계 메모리 계층을 사용하는 오픈소스 MCP 서버 iai-mcp가 공개됐다.
LLM 에이전트의 워크플로 단계가 늘어날수록 문서 내용이 미세하게 변질되어 결국 데이터가 오염되는 현상이 확인됐다.
LangChain 1.0 정식 출시 이후 많은 개발팀이 업그레이드 비용과 프레임워크의 추상화 가치를 재평가하며 자체 SDK 기반 재작성을 고려하고 있다.
서버나 복잡한 MCP 설정 없이 AI 에이전트가 허용된 주소로만 안전하게 이메일을 보낼 수 있게 해주는 경량 도구이다.
Datadog이 Claude Code 도입 후 발생하는 일회성 도구 파편화 문제를 해결하기 위해 보안과 재사용성을 갖춘 Temper 프레임워크를 구축한 사례이다.
Coinbase의 14% 감원 사례를 통해 실리콘밸리 기업들이 어떻게 AI를 명분으로 조직을 슬림화하고 엔터프라이즈 중심 전략으로 선회하는지 분석합니다.
검증 가능한 보상(RLVR) 기반의 강화학습은 초기 성공 확률이 낮을 때 학습이 정체되는 '콜드 스타트' 문제를 겪는다. 이 논문은 Tsallis q-logarithm을 활용해 강화학습과 지도 학습 사이를 매끄럽게 연결함으로써, 초기 학습 속도를 획기적으로 높이고 노이즈에 강한 추론 모델을 만드는 새로운 방법론을 제시한다.
LLM 기반 에이전트의 기술들이 파편화되어 성능이 일정하지 않은 문제를 해결하기 위해, 에이전트가 스스로 기술의 한계를 탐색하고 개선하는 자동화 프레임워크를 제안한다. 특히 추가적인 모델 학습 없이도 기존 기술의 프롬프트와 코드를 최적화하여 실무 적용성을 극대화했다.
Augment Code는 AI 생성 코드로 인한 리뷰 병목을 해결하기 위해 Cosmos 플랫폼 기반의 멀티 에이전트 시스템을 구축하여 코드 출력량을 3배 늘리면서도 리뷰 시간을 66% 단축했습니다.
Scale AI가 미국 국방부 CDAO와의 계약 규모를 기존 1억 달러에서 5억 달러로 5배 확대하며 전 군에 걸친 AI 인프라 공급을 강화합니다.
구글이 웹 기반 자율 작업 수행 실험인 Project Mariner를 종료하고 관련 기술을 Gemini Agent와 AI Mode 등 주요 제품군으로 통합했다.
Atomic Chat은 Llama, Qwen 등 1,000개 이상의 모델을 로컬 환경에서 100% 오프라인으로 실행하고 에이전트 워크플로를 구축할 수 있는 무료 도구이다.
Anthropic의 공동 창업자인 다리오와 다니엘라 아모데이가 AI 안전성, 모델 확장 법칙, 그리고 인간과 AI의 협력적 미래에 대한 철학을 공유했다.
OpenAI가 무료 사용자를 위해 더 빠르고 똑똑해진 GPT-5.5 Instant 모델을 출시했으며, 비전 능력과 STEM 문제 해결 능력이 대폭 향상되었습니다.
Luma AI의 Amit Jain이 Apple에서의 LiDAR 경험을 바탕으로 3D 캡처에서 비디오 생성, 그리고 물리 법칙을 이해하는 통합 지능 시스템으로 진화하는 AI 팩토리의 아키텍처를 공유한다.
OpenAI와 Anthropic이 빅테크로부터 투자를 받고 그 자금을 다시 해당 기업의 클라우드 비용으로 지출하는 거대한 순환 구조의 위험성을 분석합니다.
보행 로봇 제어를 위한 DPPO, DSAC 등 분포 강화학습 알고리즘을 포함한 PyTorch 기반 라이브러리 e3rl이 공개됐다.
Sysdig의 창립자 Loris Degioanni가 AI로 인해 가속화된 사이버 공격 위협과 이에 대응하기 위한 클라우드 보안 아키텍처의 변화를 설명합니다.
중국의 AI 랩 문샷 AI가 메이투안 주도로 20억 달러 규모의 투자를 유치하며 기업가치 200억 달러를 기록했다.
Tether Data가 공개한 MedPsy는 1.7B 및 4B 규모의 소형 모델임에도 불구하고 특화된 학습 공정을 통해 7배 이상 큰 의료 모델의 성능을 능가하며 엣지 기기 최적화를 달성했습니다.
LLM 프롬프트와 도구 호출 시 발생하는 토큰 비용을 최소화하기 위해 토크나이저 친화적인 단어 조합으로 구성된 새로운 식별자 포맷입니다.
양자 컴퓨팅 위협에 대비하여 암호화 알고리즘을 중단 없이 신속하게 교체할 수 있는 암호화 민첩성의 개념과 구현 전략을 제시한다.
Qwen3.6-35B-A3B 모델은 CRS 프레임워크 평가에서 증거와 의견을 구분하는 우수한 비판적 추론 능력을 보였으나, 분석의 깊이와 구체성에서는 개선의 여지가 확인됐다.
LLM이 오류를 범했을 때 반복적으로 수정하려 논쟁하기보다, 새 대화를 시작하며 이전의 함정을 미리 지적하는 것이 더 효과적이다.
Claude Design을 몇 주간 사용하며 겪은 시행착오를 바탕으로 기획 확정, 디자인 시스템 설정, 참조 이미지 활용 등 실무 효율을 높이는 7가지 가이드를 공유했다.
실제 워크로드에서 전문가 함수 라이브러리를 구축하여 추론 오차 범위를 보장하고 효율성을 극대화하는 자기 인증 캐시 아키텍처 LAWS가 제안됐다.
Claude Code가 대규모 코드베이스를 분석할 때 발생하는 컨텍스트 낭비를 줄이기 위해 AST 파싱과 Git 이력을 활용해 사전 인덱싱을 수행하는 도구 Repowise가 공개됐다.
AI가 코드 작성부터 배포, 유지보수까지 자율적으로 수행함에 따라 개발 도구의 패러다임이 '어시스턴트'에서 '소프트웨어 프린터'로 진화하고 있다.
LLM의 불안정한 라우팅 대신 상태 머신과 Claude Code를 결합하여 안정적인 소프트웨어 개발 생명주기를 자동화하는 오픈소스 도구이다.
코드베이스를 그래프로 인덱싱하여 AI 에이전트의 불필요한 탐색을 줄이고 토큰 사용량을 54% 절감하면서도 품질을 높인 GrapeRoot 사례이다.
Claude Code v2.1.132 업데이트를 통해 관리형 에이전트의 멀티 에이전트 세션 관리, 웹훅 지원, 보안 모니터링 및 스케줄링 로직이 개선되었다.
코딩 경험이 전혀 없는 사용자가 Claude와 Cursor를 활용해 8,000라인의 단일 파일 게임에서 시작하여 일일 사용자 20만 명 규모의 상용 서비스로 성장시킨 실전 사례이다.
Nitro가 Claude AI에서 PDF 및 문서 워크플로를 직접 처리할 수 있는 MCP 커넥터를 출시하여 기업용 문서 자동화 시장에 진입했다.
단순 대화 대신 역할 기반의 시스템 프롬프트를 설정하여 Claude의 출력 품질과 일관성을 높이는 실전 워크플로 사례이다.
학생 모델의 샘플을 교사 모델이 토큰 단위로 평가하는 온-폴리시 증류 기법을 통해 강화학습 대비 최대 100배의 계산 효율로 고성능 소형 모델을 구축할 수 있다.
단순한 생성 속도(TPS) 대신 답변의 정확도와 수정 횟수를 반영한 '유효 초당 토큰 수(eTPS)'라는 새로운 성능 지표를 제안한다.
기존의 검색 증강 생성(RAG) 시스템은 텍스트 기반의 출처만 제공하여 복잡한 도표나 슬라이드 내의 구체적인 증거 위치를 찾기 어려웠습니다. 이 논문은 문서의 스크린샷에서 직접 증거를 찾아 바운딩 박스로 표시함으로써, 사용자가 AI의 답변 근거를 즉시 시각적으로 검증할 수 있게 합니다.
기존 의료 AI는 단발성 질문 답변에 치중되어 실제 진료 현장의 다단계 의사결정 과정을 반영하지 못했다. 이 논문은 135개의 전문 도구와 3,600개 이상의 작업을 포함한 강화학습 환경을 구축하여, 의료 AI가 실제 의사처럼 도구를 사용하고 추론하며 최적의 치료 경로를 찾을 수 있는 기반을 마련했다.
기존의 무인 항공기(UAV) 구조 방식은 단순한 경로 계획에 의존해 복잡한 환경에서의 추론 능력이 부족했다. 이 논문은 실제 지형 데이터를 기반으로 한 고정밀 시뮬레이션 환경을 제공하여, AI 에이전트가 시각적 단서를 찾고 조난자의 위치를 스스로 추론하는 능력을 평가할 수 있는 표준을 제시한다.
대화형 감성 분석에서 여러 대화가 섞일 때 발생하는 구조적 노이즈와 문장 간 거리가 멀어질 때 관계 파악이 어려워지는 문제를 해결했습니다. 스레드 단위의 제약을 둔 그래프 구조와 담화 맥락을 반영한 위치 임베딩을 통해 복잡한 다자간 대화에서도 정확한 감성 추출이 가능함을 입증했습니다.
전화번호, 주소, 코드믹스 등 엔티티가 밀집된 인도어 음성 인식은 기존 SOTA 모델과 상용 API에서도 성능이 매우 낮다. 이 논문은 저비용 TTS 시스템을 활용해 고품질 합성 데이터를 생성하고 이를 다시 ASR 학습에 사용하는 플라이휠 구조를 통해 이 격차를 획기적으로 줄이는 방법을 제시한다.
인공 일반 지능(AGI) 구현을 위해 에이전트가 환경과 상호작용하며 학습할 수 있는 세계 모델의 중요성이 커지고 있다. 이 논문은 기존 벤치마크의 한계인 장면의 다양성 부족과 액션 입력 정의의 불일치를 해결하기 위해 통합 프레임워크와 대규모 데이터셋을 제공하여 세계 모델 연구의 새로운 기준을 제시한다.
수억 개의 파라미터를 가진 거대 모델이나 GPU 없이도, 압축 과정 중에 실시간으로 학습하는 가벼운 Mamba 모델이 기존의 강력한 압축 도구인 xz보다 더 높은 압축률을 기록했습니다. 이는 특정 데이터에 즉각적으로 적응하는 온라인 학습 모델이 범용 압축 분야에서 실질적인 경쟁력을 가질 수 있음을 보여줍니다.
기존의 3D 포인트 클라우드 복원 방식은 성긴 데이터를 2D 평면에 투영할 때 정보가 소실되는 Cross-Modal Entropy Collapse 문제를 겪었다. 이 논문은 가우시안 스플래팅을 활용해 불연속적인 데이터를 연속적인 밀도 표현으로 변환함으로써 2D 이미지의 시각적 정보를 3D 복원에 효과적으로 결합하는 새로운 방법론을 제시한다.
기존 AI 에이전트 평가가 단일 파일이나 단순한 지시 이행에 그쳤던 것과 달리, 실제 사무 환경처럼 수만 개의 파일과 복잡한 의존성이 얽힌 환경에서 에이전트의 실질적인 업무 수행 능력을 평가합니다. 연구 결과 현재 가장 뛰어난 에이전트도 인간의 업무 완성도에 크게 못 미치는 것으로 나타나, 향후 에이전트 아키텍처가 나아가야 할 방향을 제시합니다.
LLM 에이전트가 단순한 도구 사용자를 넘어 팀 단위로 협업하는 시대로 진화함에 따라, 팀 전체의 효율성을 극대화하는 강화학습 방법론이 필수적이다. 이 논문은 산업계의 대규모 에이전트 시스템과 학계 연구 사이의 간극을 메우고, 에이전트 생성부터 결과 취합까지의 전 과정을 최적화하기 위한 기술적 프레임워크를 제공한다.
일상생활에서 발생하는 건강 증상을 AI가 전문 의료진 수준으로 정확하게 평가할 수 있음을 입증했다. 특히 사용자가 주도하는 대화보다 AI가 체계적으로 질문을 던지는 인터뷰 방식이 진단 정확도를 획기적으로 높인다는 점을 확인하여 미래 의료 AI의 방향성을 제시한다.
특허 심사는 고도의 기술적 전문성과 법적 논리가 결합된 복잡한 과정이지만, 기존 AI 연구는 단순 분류나 추출에 그쳤다. 이 논문은 심사관의 거절 이유 통지(Office Action)와 출원인의 반박(Rebuttal)이라는 상호작용적 전 과정을 모델링한 최초의 벤치마크를 제시하여 LLM의 실질적인 법적 추론 능력을 평가한다.
기존의 복잡한 에이전트 오케스트레이션 시스템 대신 LLM 자체의 내재적 기술로 '깊게 생각하기'를 구현할 수 있음을 입증했다. 병렬 추론과 순차적 숙의라는 두 단계 파이프라인을 통해 모델의 추론 능력을 테스트 타임에 확장할 수 있는 새로운 경로를 제시한다.
기존의 분할 모델들은 이미지나 비디오 중 하나에 특화되어 있거나 텍스트와 시각적 프롬프트를 동시에 처리하는 데 한계가 있었다. X2SAM은 이를 하나의 프레임워크로 통합하여 복잡한 대화형 지시문과 시각적 프롬프트를 모두 지원하며 비디오에서의 시간적 일관성까지 확보했다.
표준적인 멀티모달 모델 학습 과정에서 지도 학습(SFT)이 오히려 모델의 원래 능력을 해치거나 분포 불일치를 일으키는 문제를 해결한다. SFT와 강화학습 사이에 '사전 정렬' 단계를 추가하여 시각적 이해와 논리적 추론 능력을 동시에 개선함으로써 최종 성능을 극대화한다.
대규모 자본이 투입되는 복잡한 강화학습(RL) 파이프라인 없이도, 고품질의 데이터 설계만으로 세계 최고 수준의 검색 에이전트를 개발할 수 있음을 입증했다. 학계나 오픈소스 커뮤니티에서도 적은 비용으로 고성능 에이전트를 구축할 수 있는 새로운 방법론을 제시했다.
기존의 자율 연구 에이전트들이 동일 모델 계열 내에서 자기 수정을 반복하며 발생하는 상관 오류 문제를 해결하기 위해 서로 다른 모델 계열 간의 적대적 협업 구조를 도입했다. 이를 통해 실험 데이터의 무결성을 검증하고 논문의 논리적 허점을 찾아내는 강력한 보증 계층을 구축하여 신뢰할 수 있는 자율 연구 환경을 제공한다.
프롬프트나 모델 변경으로 인한 AI 에이전트의 동작 변화를 감지하고 원인을 분석하는 오픈소스 테스트 도구 Shadow가 공개됐다.
xAI가 Colossus 1 데이터센터의 연산 자원 전체를 Anthropic에 대여하기로 결정하면서, AI 모델 개발보다 인프라 제공 사업에 집중하는 전략적 변화를 보였다.
Snap이 1분기에 Perplexity와의 AI 검색 엔진 통합 파트너십을 종료했으며, 향후 매출 가이드라인에서도 관련 기여분을 제외했다.
Cognition, Gamma, Harvey 세 팀이 멀티 에이전트 오케스트레이션, MCP 도입 및 자율 에이전트 설계 시 직면한 기술적 트레이드오프와 아키텍처 결정을 공유했다.
초소형 모델 FANT와 Sparrow를 통해 SleepGate와 SpinorApollonian Memory 같은 독창적 아키텍처가 수학적 추론 성능을 극대화하는 과정을 다룹니다.
AGI 개발을 주도하는 리더들이 정렬 문제, 지능 폭발, 경제적 붕괴 위험을 경고하면서도 경쟁적으로 기술 개발에 박차를 가하는 모순적 상황과 그 위험성을 분석한다.
44만 라인의 C 코드로 구성된 NetHack 5.0을 LLM 에이전트 등을 활용해 브라우저용 JavaScript로 완벽하게 이식하는 기술 경진 대회가 열립니다.
아마존 가격 비교부터 레딧의 실사용자 불만까지 교차 분석하여 제품 구매 여부를 판단해주는 AI 에이전트 구현 사례이다.
TokenSpeed는 에이전트 워크로드에 최적화된 고성능 추론 엔진으로, NVIDIA Blackwell 환경에서 TensorRT-LLM 대비 높은 처리량과 낮은 지연 시간을 달성했습니다.
Claude Managed Agents를 통해 상태 관리, 세션 유지, 가드레일 등 복잡한 인프라를 자동화하여 확장 가능한 AI 에이전트를 구축하고 배포하는 실무 전략을 제시한다.
PRISM 논문이 주장하는 페르소나의 정렬 효과가 자기참조적 평가와 부실한 프롬프트 구조로 인해 왜곡되었음을 지적하고 대안적 프레임워크를 제시했다.
Anthropic이 SpaceX의 데이터 센터 인프라를 확보하며 Claude Code의 사용 제한을 2배로 늘리고 API 속도 제한을 완화했다.
텍사스의 한 비건 치즈 제조업체가 Claude와 Manus 같은 AI 도구를 활용해 대형 배송업체와의 분쟁 및 항소 절차를 성공적으로 관리했다.
Anthropic과 OpenAI가 AI를 바라보는 근본적인 시각 차이와 그로 인해 발생하는 안전성, 배포 전략, 기업 문화의 대조적인 모습을 심층 분석한다.