총 100건
AI 모델의 성능과 안전성을 높이기 위해 인간의 판단력을 제공하는 'AI 트레이닝' 분야의 직무 유형, 필수 역량 및 커리어 발전 단계를 상세히 설명한다.
Meta의 최신 세그멘테이션 모델인 SAM 3를 Roboflow Inference 패키지를 통해 복잡한 설정 없이 로컬 환경에서 실행하고 텍스트 및 클릭 기반으로 객체를 분할하는 방법을 설명한다.
Roboflow Workflows를 사용하여 객체 탐지, 추적, 구역 체류 시간 계산을 포함한 복잡한 비디오 AI 파이프라인을 코드 없이 구축하고 배포하는 방법을 제시한다.
모델의 사고 과정(CoT)을 정밀 분석하기 위해 고성능 LLM도 실패하는 9가지 태스크를 공개하고, 비-LLM 기반 해석 도구의 OOD 성능 우위를 입증했다.
조시 홀리와 엘리자베스 워런 상원의원이 EIA에 데이터 센터의 에너지 소비 데이터를 의무적으로 수집하고 AI 연산과 일반 클라우드 서비스를 구분해 보고할 것을 요청했다.
OpenAI가 에로틱 모드, 쇼핑 기능, 동영상 생성기 Sora를 잇달아 중단하며 기업용 서비스와 코딩 도구라는 핵심 비즈니스에 집중하기 위한 대대적인 전략 수정을 단행했다.
기존 AI 벤치마크의 성능 포화 문제를 해결하기 위한 ARC-AGI-3의 출시와 함께 애플의 제미나이 모델 증류, 구글의 새로운 양자화 기술인 TurboQuant 등 최신 기술 동향을 다룹니다.
스탠포드 교수 스테파노 에르몬이 기존 Autoregressive 방식의 한계를 극복하고 10배 더 빠른 추론 속도를 제공하는 Diffusion 기반 LLM Mercury 2의 기술적 원리와 상용화 가능성을 공유합니다.
구글이 낮은 지연 시간과 향상된 추론 능력을 갖춘 실시간 음성 AI 모델 Gemini 3.1 Flash Live를 출시하여 개발자와 기업에 더 자연스러운 대화 경험을 제공한다.
구글 번역의 헤드폰 실시간 번역 기능이 iOS로 확대 출시되었으며 70개 이상의 언어와 화자의 톤을 유지하는 자연스러운 통역을 지원한다.
MIT 연구진이 단백질의 정적 구조를 넘어 고유한 진동 패턴과 동적 움직임을 기반으로 새로운 단백질 서열을 생성하는 에이전트 기반 확산 모델 VibeGen을 개발했다.
MIT의 마리아노 살세도는 신경 세포 자동자(NCA)를 활용해 음악의 에너지를 실시간 시각적 퍼포먼스로 변환하는 AI 시스템을 개발했다.
Google Colab에서 Claude 스타일로 증류된 Qwen 3.5 추론 모델을 GGUF 및 4비트 양자화 방식으로 구현하고 테스트하는 파이프라인 구축 가이드이다.
AI가 생성한 텍스트에 대한 거부감으로 탄생한 'AI;DR' 현상을 통해 인간의 의도와 노력이 사라진 시대의 읽기 및 쓰기 윤리를 고찰한다.
LiteLLM 패키지의 악성 버전 배포 사건을 계기로, Sourcegraph의 Deep Search와 Code Search를 활용해 코드베이스 전반의 취약한 의존성 설정을 탐지하고 해결하는 실전 방법론을 제시한다.
복잡한 지식 노동 워크플로우에 AI 에이전트를 효과적으로 통합하기 위한 다중 에이전트 협업 및 인간 참여형 아키텍처 설계 패턴을 제시한다.
OpenAI가 Codex를 위해 기술, 앱 통합, MCP 설정을 번들로 제공하는 플러그인 시스템과 마켓플레이스를 출시하여 에이전트 배포 생태계를 구축한다.
구글이 지연 시간을 줄이고 자연스러운 억양을 구현하여 실시간 대화에 최적화된 새로운 AI 오디오 모델 Gemini 3.1 Flash Live를 공개했다.
Reco 팀이 LLM을 활용해 JSONata 라이브러리를 Go 언어로 하루 만에 재작성하고 연간 50만 달러의 운영 비용을 절감한 사례이다.
NVIDIA는 GTC 2026에서 물리적 AI 모델, 데이터 생성 및 시뮬레이션용 블루프린트, 오픈소스 프레임워크를 발표하며 로봇과 공장의 디지털 트윈 생태계를 확장했다.
LangChain의 Deep Agents 팀이 제안하는 정확도와 효율성을 동시에 측정하고 에이전트의 행동을 원하는 방향으로 유도하는 타겟팅된 평가 방법론.
구글이 실시간 대화에 최적화된 고품질 오디오 모델 Gemini 3.1 Flash Live를 출시하여 지연 시간을 단축하고 복잡한 작업 수행 능력을 강화했다.
Amazon SageMaker Unified Studio와 S3의 통합 기능을 통해 비정형 데이터를 효율적으로 관리하고 Llama 3.2 11B 모델을 파인튜닝하여 시각적 질의응답 성능을 4.9% 개선하는 워크플로우를 제시한다.
Amazon Bedrock Guardrails를 사용하여 사용자의 연령과 역할에 따라 AI 응답의 안전성 및 복잡도를 동적으로 조정하는 서버리스 아키텍처 구현 가이드이다.
메타가 FCC 인증을 통해 차세대 AI 안경인 'Scriber'와 'Blazer'의 출시를 예고하며, 웨어러블 AI 시장으로의 전략적 집중을 가속화하고 있다.
애플 뮤직이 텍스트 프롬프트로 플레이리스트를 만드는 AI 기능을 베타 출시했으나 장르, 시대, 지리 및 가사 필터링에서 심각한 오류를 드러냈다.
Opik은 OpenClaw 에이전트 관측성 플러그인, 프롬프트 최적화 비교 도구, 사용자 정의 대시보드를 출시하여 AI 개발 전반의 가시성을 높였다.
AI 에이전트가 CLI를 통해 실무를 수행하는 메커니즘을 상세히 설명하고, Claude Code 업데이트 및 OpenAI의 Sora 프로젝트 중단 등 주요 기술 뉴스를 요약합니다.
Runway가 Modal의 서버리스 GPU 인프라를 활용해 지연 시간을 최소화한 실시간 비디오 에이전트 서비스 'Runway Characters'를 전 세계에 배포했다.
대형 언어 모델(LLM)을 복잡한 사회적·계약적 관계를 단순화하여 은폐하는 '관료적 기술'이자 '조립된 추상화(coarse graining)'로 정의하고 그 위험성을 분석한다.
UiPath는 2026 에이전틱 AI 서밋에서 복잡한 비즈니스 프로세스를 자동화하고 관리하기 위해 AI 에이전트와 오케스트레이션을 결합한 산업별 맞춤형 'UiPath Solutions'를 발표했다.
웹사이트의 인터랙티브 컴포넌트를 애니메이션과 상태를 포함한 AI 프롬프트로 추출하여 Cursor나 Claude Code에서 즉시 사용할 수 있게 돕는 도구이다.
Zeus는 소프트웨어 접근 권한을 가지고 스스로 의사결정을 내려 복잡한 워크플로를 완수하는 자율형 AI 직원 솔루션입니다.
Grab은 LangGraph 기반의 5개 특화 에이전트를 구축하여 데이터 웨어하우스 운영에 소요되는 엔지니어링 시간의 40%를 절감했다.
LangChain은 에이전트 루프의 각 단계에 커스텀 로직을 삽입할 수 있는 '에이전트 미들웨어' 아키텍처를 통해 PII 제거, 동적 도구 선택, 컨텍스트 요약 등 복잡한 프로덕션 요구사항을 해결한다.
Grove는 Apple Silicon 기반 MacBook들을 별도 설정 없이 연결하여 MLX 프레임워크 기반의 분산 ML 학습을 가능하게 하는 라이브러리이다.
OpenSnow는 수십 년간의 기상 데이터를 학습한 AI 모델 PEAKS를 통해 저해상도 기상 정보를 3km 격자의 초정밀 설상 예측으로 변환하여 제공한다.
AI 코딩 에이전트가 생성하는 코드의 일관성을 확보하기 위해 암묵적 지식을 명시적 규칙과 패턴 예시로 변환하고 피드백 루프를 통해 개선하는 전략을 제시한다.
생성형 AI 에이전트부터 고전적 머신러닝까지, 실무 역량을 증명할 수 있는 21가지 단계별 AI 프로젝트와 활용 도구를 정리한 가이드이다.
구글 딥마인드가 AI의 유해한 조작 능력을 정밀하게 측정하기 위해 1만 명 이상의 참가자를 대상으로 한 연구 결과와 평가 툴킷을 발표했다.
Partnership on AI는 글래스고 서밋에서 AI 시스템의 안전성 보장을 위한 독립적 어슈어런스 인프라 구축과 배포 후 모니터링 체계의 시급성을 확인했다.
바이트댄스가 텍스트와 이미지를 고품질 영상으로 변환하고 편집할 수 있는 AI 모델 '드리미나 시댄스 2.0'을 글로벌 영상 편집 플랫폼 캡컷에 단계적으로 도입한다.
위키백과가 문서의 신뢰성과 정확성을 유지하기 위해 LLM을 이용한 본문 생성 및 재작성을 금지하는 새로운 편집 정책을 도입했다.
구글이 타사 AI 챗봇의 개인 설정과 대화 기록을 제미나이로 손쉽게 이전할 수 있는 '전환 도구'를 출시하여 사용자 유입 장벽을 낮췄다.
미국 연방 법원이 Anthropic을 '공급망 위험'으로 지정하고 연방 기관과의 거래를 중단시킨 트럼프 행정부의 조치에 대해 표현의 자유 침해를 근거로 가처분 신청을 인용했다.
Cohere가 Conformer와 Transformer 하이브리드 아키텍처를 채택하여 Whisper Large v3보다 낮은 5.42%의 단어 오류율(WER)을 기록한 고성능 음성 인식 모델 'Cohere Transcribe'를 공개했다.
OpenAI가 성인용 챗봇 계획을 중단한 가운데, 구글은 AI 메모리를 6배 절감하는 TurboQuant를 발표했고 애플은 Gemini를 활용한 온디바이스 모델 개발에 착수했습니다.
Folio는 데이터를 로컬에 저장하고 API 전송 시에만 경유하며, Modal을 통해 보안이 강화된 파일 파싱을 수행한다.
Edgee는 LLM API 호출의 신뢰성을 높이기 위해 에러 분류, 실시간 성능 기반 프로바이더 스코어링, 그리고 스트리밍 제약을 고려한 지능형 재시도 및 폴백 시스템을 제공한다.
OpenAI가 사용자 정신 건강 위해 및 부적절한 애착 형성 우려로 인해 검토 중이던 ChatGPT의 성인용 콘텐츠 허용 계획을 무기한 중단했다.
AI 챗봇이 사용자의 의견에 무조건 동조하는 '아첨' 경향이 사용자의 부적응적 신념을 강화하고 사회적 관계 회복을 방해한다는 연구 결과가 Science지에 발표됐다.
트랜스포머 아키텍처의 핵심인 셀프 어텐션, 임베딩, 포지셔널 인코딩의 작동 원리와 이를 통한 LLM의 단계별 텍스트 생성 과정을 상세히 분석한다.
AI 앱의 실태부터 GPT-2 시각화, KV 캐시 3비트 압축 기술까지 한 주간의 핵심 AI 및 머신러닝 기술 아티클을 요약하여 전달한다.
Sam Rose의 인터랙티브 에세이를 통해 LLM 양자화의 작동 원리, 부동 소수점 표현 방식, 그리고 모델 품질 유지에 필수적인 아웃라이어의 중요성을 확인했다.
보안 연구원 Callum McMahon이 Claude를 활용하여 LiteLLM 라이브러리에 삽입된 악성 코드를 식별하고 PyPI 보안팀에 즉각 보고하며 사고에 대응했다.
S&P Global의 Kensho 팀이 LangGraph를 사용하여 복잡한 금융 데이터를 통합 검색하고 검증된 답변과 인용구를 제공하는 멀티 에이전트 프레임워크 'Grounding'을 구축했다.
Amazon Polly가 HTTP/2 기반 양방향 스트리밍 API를 출시하여 LLM의 토큰 생성과 동시에 음성을 합성함으로써 대화형 AI의 응답 지연을 획기적으로 개선했다.
AWS가 뉴질랜드(오클랜드) 리전에 Amazon Bedrock을 정식 출시하고, 호주 및 글로벌 리전 자원을 활용해 높은 처리량을 제공하는 교차 리전 추론 기능을 도입했다.
영문 위키백과가 AI를 이용한 문서 작성 및 재작성을 전면 금지하고, 오직 단순 교정과 번역 보조 용도로만 제한적으로 허용하는 새로운 가이드라인을 도입했다.
구글이 Gemini 3.1 Flash Live 모델을 탑재하여 음성과 카메라로 정보를 검색하는 'Search Live' 기능을 전 세계 200개국 이상으로 확장했다.
애플이 iOS 27의 '확장 프로그램' 기능을 통해 시리에서 사용자가 원하는 서드파티 AI 챗봇을 직접 선택하고 연결할 수 있도록 지원할 계획이다.
구글이 타사 AI의 대화 기록과 사용자 선호도를 제미나이로 손쉽게 옮길 수 있는 '메모 가져오기' 및 '대화 기록 가져오기' 기능을 출시했다.
데이비드 색스가 백악관 AI 및 암호화폐 특보직을 내려놓고 PCAST 공동 의장으로 자리를 옮기며 행정부 내 역할이 조정되었다.
미 연방법원이 앤스로픽의 AI 모델 사용을 금지한 국방부의 조치가 수정헌법 제1조 위반일 가능성이 높다고 판단하여 해당 금지령의 효력을 일시 중단시켰다.
OpenAI의 Sora 서비스 중단, Arm의 첫 자체 칩 출시, 그리고 AI 기업들의 법적 책임과 대규모 구조조정 소식을 다룬 주간 AI 뉴스 요약입니다.
Mistral AI가 9개 언어를 지원하고 엣지 기기에서 실행 가능한 고성능 오픈소스 TTS 모델 'Voxtral TTS'를 출시하며 음성 AI 시장에 진출했다.
마크 워너 상원의원은 AI로 인한 일자리 감소 우려에 대응하기 위해 데이터 센터에 세금을 부과하고 이를 노동자 재교육 및 지역 사회 지원 자금으로 활용하는 방안을 제시했다.
Cohere가 소비자용 GPU에서 구동 가능한 20억 파라미터 규모의 고성능 오픈소스 음성 인식 모델 'Transcribe'를 공개했다.
비전-언어 모델을 활용해 수천 개의 카메라 피드를 자연어로 실시간 검색하고 분석하는 AI 보안 플랫폼 Conntour가 700만 달러의 시드 투자를 유치했다.
텐센트가 공개한 Covo-Audio는 7B 규모의 엔드투엔드 오디오 언어 모델로, 텍스트와 오디오를 통합 처리하며 실시간 전이중 대화와 고도의 오디오 추론 성능을 제공합니다.
Autonoma는 AI 에이전트를 활용해 실시간 웹 검색, 신뢰도 평가, RFI 작성을 자동화하여 기업의 공급업체 발굴 프로세스를 혁신하는 조달 소프트웨어이다.
Jentic Mini는 AI 에이전트가 자격 증명 노출 없이 10,000개 이상의 API를 안전하게 호출할 수 있도록 돕는 오픈소스 실행 브로커 레이어이다.
Breadcrumb은 복잡한 설정 없이 3줄의 코드로 LLM 에이전트의 동작을 추적하고, AI가 자동으로 문제를 감지해 시각화하는 오픈소스 관측 도구이다.
Anvil은 Claude Code와 같은 AI 에이전트를 병렬로 실행하고 관리할 수 있도록 설계된 MIT 라이선스 기반의 개발자용 IDE입니다.
구글 딥마인드가 Gemini 앱 내에서 최대 3분 길이의 구조화된 음악을 생성할 수 있는 Lyria 3 Pro 모델을 출시했다.
Nebils는 인간과 AI 에이전트가 독립적인 사용자로 참여하여 120개 이상의 모델과 상호작용하고 대화를 공유하는 AI 특화 소셜 네트워크이다.
Luzo는 다단계 API 워크플로우를 시각적으로 설계하고 실행 과정을 실시간 모니터링하며, AI를 통해 결과 리포트를 생성하는 개발자용 오픈소스 도구이다.
Linear Agent는 프로젝트 로드맵, 이슈, 코드를 통합적으로 이해하여 최적의 제안을 하고 직접 행동을 수행하는 AI 에이전트이다.
Claude 모바일 업데이트를 통해 Figma 디자인 탐색, Canva 슬라이드 제작, Amplitude 대시보드 확인 등 주요 업무 도구를 스마트폰에서 직접 활용할 수 있게 되었습니다.
AI 코딩 도구로 제작된 앱에서 수천 개의 보안 취약점과 데이터 유출이 발견되며 개발 속도와 보안 검증 사이의 간극이 심각한 수준에 도달했다.
AI 에이전트가 인간의 브라우징을 API 호출로 대체함에 따라 기존 앱스토어의 발견, 배포, 결제 가치 사슬이 기계 간 라우팅 중심으로 재편된다는 진단이다.
에이전틱 RAG는 검색과 응답 사이에 LLM 의사결정 루프를 추가하여 복잡한 쿼리 해결 능력을 높이지만, 비용과 지연 시간이 대폭 증가하는 트레이드오프가 존재한다.
구글 딥마인드가 음악적 구조를 이해하여 3분 길이의 완곡을 생성하는 Lyria 3 Pro를 출시하고 6개 주요 플랫폼에 통합했다.
PostHog이 세 번의 아키텍처 변경 끝에 Claude Agent SDK와 MCP를 도입하며 얻은 실무적인 에이전트 구축 교훈을 공유한다.
LLM 트레이딩에서 단순 수치보다 사전 분석된 구조화된 브리핑을 제공하는 것이 의사결정 정확도와 수익률을 유의미하게 높인다는 연구 결과이다.
PDF 문서 내부에 인간에게는 보이지 않는 프롬프트 인젝션 공격을 주입하고 이를 탐지할 수 있는 레드팀 및 블루팀용 오픈소스 보안 툴킷이다.
Agentis는 12개의 LLM 프로바이더를 연동하여 전문화된 에이전트 팀을 구성하고, 브라우저에서 실시간으로 추론 과정을 시각화하는 오픈소스 오케스트레이션 플랫폼이다.
배터리 기업 SES AI의 AI 소재 발견 전환과 Axiom Math의 수학 패턴 발견 도구 출시를 포함한 최신 기술 및 AI 트렌드 요약
인텔이 포춘 선정 혁신 기업에 이름을 올리며, 18A 공정과 첨단 패키징 기술을 필두로 AI 및 차세대 컴퓨팅 시장을 선도하겠다는 비전을 제시했다.
OpenAI가 사회적 유해성 우려와 내부 반발로 인해 ChatGPT의 성인용 모드 개발을 무기한 중단하고 핵심 제품 역량 강화에 집중하기로 했다.
유럽 의회가 고위험 AI 시스템 및 워터마크 규정 시행을 최대 2028년까지 연기하는 한편, 성착취물 제작용 '누드 앱' 금지안을 통과시켰다.
네이버웹툰이 아마추어 창작 플랫폼 캔버스에 AI 기반 다국어 번역 도구와 고도화된 분석 대시보드를 도입하여 창작자들의 글로벌 진출과 수익 창출을 지원한다.