AI가 만든 가짜 흑인 여성 인플루언서, 9달러짜리 제품을 40달러에 판매하는 수법
AI로 생성된 가짜 인플루언서가 감정 호소 전략으로 저가 공산품을 고가에 판매하는 드롭쉬핑 사기가 틱톡 등 소셜 미디어에서 확산되고 있다.
총 100건
AI로 생성된 가짜 인플루언서가 감정 호소 전략으로 저가 공산품을 고가에 판매하는 드롭쉬핑 사기가 틱톡 등 소셜 미디어에서 확산되고 있다.
추론 과정을 길게 보여주는 모델보다 계획, 도구 사용, 실행에 집중하는 모델이 에이전트 시스템에서 더 효율적일 수 있다는 논의.
클래스 불균형은 단순히 SMOTE로 해결할 문제가 아니며, 메트릭 선택, 학습 목표, 비즈니스 비용에 따라 적절한 기법을 선택해야 한다.
주요 AI 모델 업데이트와 가격 인하, 생산성 도구 통합 현황을 정리한 주간 요약.
LLM API 호출을 정적 분석하여 CI 단계에서 비용 회귀를 감지하고 정책 위반 시 PR을 차단하는 개발 도구이다.
에이전트 AI 시스템의 배포, 관측, 테스트, 비용 관리를 위한 오픈소스 기반 DevOps 플레이북을 소개한다.
자율형 LLM 에이전트의 지속적 상태를 악용하는 웜 전파 위험을 분석하고, 이를 방어하기 위한 RTW-A 프레임워크를 제시한다.
AI가 생성한 코드에서 자주 발생하는 결함 패턴을 정리한 'AI-Generated Smells' 분류 체계를 소개한다.
AI 결과물의 품질 차이는 모델 성능이 아니라 사용자의 프롬프트 숙련도, 워크플로 설계, 반복 작업 능력에서 비롯된다.
Claude Code CLI를 터미널, 에디터, Git과 통합하여 워크플로를 개선한 네이티브 macOS 앱 Cantus 개발 사례.
Vidai Community는 기존 SDK를 그대로 사용하면서 LLM 트래픽 제어, 비용 할당, 실시간 예산 제한을 수행하는 고성능 Rust 기반 프록시 솔루션입니다.
LLM, 강화학습, 로봇 공학을 결합하여 VLA 모델과 코드 기반 정책(CaP)을 통해 로봇 제어 효율성을 높이는 전략을 탐구한다.
PyTorch 학습 중 발생하는 기울기 소실 및 폭주 문제를 레이어별 기울기 노름 모니터링으로 조기에 진단하는 도구와 방법론을 공유한다.
Wispr Flow와 같은 AI 음성 받아쓰기 및 텍스트 정리 도구의 유료 구독 대신, Whisper와 같은 오픈소스 모델과 LLM을 조합하여 무료로 동일한 기능을 구현하는 방법을 소개한다.
Claude 세션별 데이터 센터 냉각 수자원 소비량을 시각화하는 오픈소스 도구 'thirsty-llm'이 공개되었다.
Arcade 플랫폼을 사용하여 AI 에이전트의 외부 툴 접근 권한을 중앙에서 관리하고 OAuth 인증 과정을 간소화하는 실전 구현 방법을 다룬다.
LLM 에이전트의 의사결정 과정을 추적하고 감사 가능한 형태로 기록하는 오픈소스 책임성 레이어.
LLM의 컨텍스트 윈도우를 효율적으로 관리하기 위한 WSCI 프레임워크와 4가지 압축 기법 및 에이전트 격리 전략을 다룬다.
Wikipedia 데이터셋으로 학습된 분류 모델을 PyTorch와 벤치마크하고 Gemini Flash 3.5를 활용해 개발한 사례.
RDT-1B는 대규모 로봇 데이터를 학습하여 양손 조작 작업에서 뛰어난 일반화 성능을 보이는 확산 기반 파운데이션 모델이다.
Amazon SageMaker AI와 CloudWatch, Grafana를 활용해 LLM 추론의 인프라 효율성과 모델 출력 품질을 통합 모니터링하는 아키텍처를 제시한다.
AI 에이전트의 병렬 실행과 오케스트레이션을 지원하는 macOS 전용 터미널 CMUX의 기능과 활용법을 다룬다.
NVIDIA 젠슨 황과 Fireworks AI 린 차오가 AI 인프라, 모델 커스터마이징, 그리고 제품과 모델이 통합되는 미래 전략을 논의한다.
AI 에이전트의 사보타주 위험을 평가하기 위해 시뮬레이션 환경에서 에이전트의 행동을 감사하는 자동화 프레임워크 'Gram'을 다룬다.
Pioneer Agent는 소형 언어 모델의 데이터 큐레이션, 파인튜닝, 최적화 과정을 자동화하여 실무 배포 효율을 극대화하는 폐쇄 루프 시스템이다.
Databricks는 복잡한 ETL 및 스트리밍 워크로드를 간소화하는 Spark Declarative Pipelines와 증분 뷰 유지 관리 엔진인 Enzyme을 발표했다.
Salesforce Headless 360은 UI와 플랫폼 거버넌스를 분리하여, 기업이 보안과 비즈니스 로직을 유지하면서 유연한 AI 에이전트 경험을 구축하도록 지원한다.
Chain-of-Thought(CoT)가 모든 작업에서 성능을 높이는 것이 아니라, 모델의 연산 대역폭을 초과하는 고난도 작업에서만 효과적이라는 가설을 검증한 연구.
교황의 AI 회칙 'Magnifica Humanitas'를 통해 AI 산업의 독점과 규제 포획 문제를 비판적으로 분석한다.
WalkGPT는 보행자 내비게이션을 위해 언어 추론과 정밀한 공간 분할을 결합한 새로운 시각-언어 모델이다.
AI 산업의 성장 이면에 숨겨진 경제적 불균형, 성능 과장, 신뢰성 문제 등 11가지 핵심 지표를 통해 AI 산업의 현주소를 비판적으로 분석한다.
LLM의 학습 데이터 편향으로 인해 발생하는 JSON 형식 오류의 원인을 분석하고, constrained decoding과 같은 기술적 해결책을 논의함.
LLM을 활용해 레거시 오픈소스 프로젝트를 특정 목적에 맞게 재작성하는 새로운 소프트웨어 엔지니어링 전략을 제안한다.
단순한 작업에 멀티 에이전트 시스템을 도입하는 대신 작업 특성에 맞춰 결정론적 코드, ReAct, Reflection 패턴을 선택적으로 활용하는 진단 프레임워크를 제안한다.
소비자용 하드웨어에서 실시간 게임 시뮬레이션을 목표로 KV Cache를 활용한 0.4B 파라미터 규모의 커스텀 Transformer 모델을 개발했다.
Claude 세션 데이터를 분석, 관리, 시각화하고 에이전트 협업을 지원하는 오픈소스 도구 Claurdvoyant를 소개한다.
Jeffrey Epstein 관련 법원 문서를 자연어로 질의하고 검색할 수 있는 오픈소스 RAG 플랫폼이 공개되었다.
Dynamic Ultrametric Attention은 Transformer가 훈련 중 하드웨어 최적화된 블록 희소성 패턴을 스스로 학습하여, 추론 속도를 최대 28배 향상하고 메모리 사용량을 98.4% 절감한다.
AI를 콘텐츠 생성기가 아닌 24시간 이용 가능한 편집 파트너로 활용하여 글의 논리적 허점을 보완하고 아이디어를 검증하는 방법론.
Claude Code 시스템 프롬프트 v2.1.153이 릴리스되어 'thinking frequency' 알림 제거, 'workflow' 키워드 변경, 'exhaustive-review' 가이드가 추가되었다.
Claude Code의 동적 워크플로에서 서브 에이전트가 고비용 모델을 반복 호출하는 문제를 해결하기 위해 작업 성격에 따른 모델 라우팅 전략을 제안합니다.
AI 에이전트 기반 코딩 환경에서 발생하는 작업 충돌, 파일 덮어쓰기, 추적성 문제를 해결하기 위한 워크플로우 관리 도구 whodev-harness를 소개합니다.
멀티 에이전트 코딩 기능 사용 중 에이전트가 무한 루프에 빠져 170만 토큰을 소비하고도 결과물을 생성하지 못한 사례와 이에 대한 비판.
AI의 패턴 인식 능력은 뛰어나지만 현실 세계의 검증과 제도적 실행 없이는 과학적·경제적 성과를 내기 어렵다는 점을 시스템 맵으로 분석함.
Claude Code를 여러 채팅 세션에서 동시에 실행하여 대기 시간을 줄이고 작업 효율을 높이는 방법.
Claude 3 Opus 에이전트가 툴 출력의 직렬화 오류를 프롬프트 인젝션 공격으로 오인하여 보고한 사례와 그 위험성에 대한 논의.
Claude를 활용해 21개 전문 역할을 병렬로 연구하고, 승인 기반의 자율 실행 및 주기적 관리 기능을 갖춘 인지 인프라 시스템을 구축함.
Claude Opus 사용 시 페르소나 부여, 구체적 컨텍스트 제공, 제약 조건 설정, 출력 형식 지정, 강제 함수 사용을 통해 답변 품질을 높이는 방법.
Claude API를 활용해 포커스 그룹 대화를 시각적으로 재현하는 멀티 에이전트 시스템 'The Fishbowl'을 구축하고 공개했다.
Claude Opus 4.8 업데이트 이후 사용자의 직접적인 관찰이나 전문 지식을 사실로 받아들이지 않고 검증하려 드는 '판단적 반사' 현상이 보고됨.
Madar은 로컬 정적 분석을 통해 코드베이스 컨텍스트를 에이전트에 주입하여 토큰 비용을 최대 78% 절감하는 오픈소스 도구이다.
LangGraph, CrewAI, AutoGen, CoralOS의 특징과 적합한 사용 사례를 비교 분석한 가이드.
LLM 대화에서 추론 성능을 점진적으로 저하시키는 반복적 왜곡 패턴인 '휴리스틱 기생충'의 33가지 분류 체계와 측정 지표(PPE)를 제안한 연구.
Anthropic의 Claude Certified Architect 자격증 준비를 위해 흩어진 문서를 Claude Code로 통합하여 가독성을 높인 가이드북을 제작하고 공유함.
LLM 벤치마크 점수가 모델의 실제 지능을 대변하지 못하며, 벤치마크 최적화가 오히려 실무 성능을 저하시키고 있다는 비판적 분석.
Claude Opus 4.8은 수학과 코딩 분야에서 성능이 크게 향상되었으나, 법률, 의료, 금융 등 전문 도메인에서는 정체되거나 일부 퇴보한 결과를 보였다.
Skill Seekers 개발자가 자신의 무료 오픈소스 도구가 타 사이트에서 무단으로 유료 판매되고 있음을 알리며 주의를 당부했다.
Claude Code를 사용하여 마케팅 전략 및 감사 기능을 수행하는 에이전트를 구축하고, 26개 테스트 케이스를 통해 기존 대비 20.4%p 향상된 성능을 검증함.
Knowa는 벡터 검색, 전문 검색, 지식 그래프를 결합하여 RAG 시스템의 컨텍스트 입력량을 최적화하고 API 비용을 획기적으로 줄이는 하이브리드 검색 라이브러리입니다.
20개의 실제 CVE를 대상으로 5개 LLM 에이전트의 보안 취약점 해결 능력을 평가한 결과, 최고 성능 모델도 50%의 해결률에 그쳤으며 비용 효율성 측면에서 소형 모델이 유리함이 확인됐다.
C++와 CUDA를 사용하여 Llama 3.2 1B 모델을 실행하는 고성능 LLM 추론 엔진을 밑바닥부터 직접 구현하는 교육용 프로젝트입니다.
로컬 LLM과 클라우드 모델을 효율적으로 분기하는 라우팅 시스템 구축 경험과 운영 정책의 중요성 공유.
Minimax M3가 도입한 Sparse Attention은 단순 컨텍스트 길이 확장보다 추론 효율성과 경제성 측면에서 더 실질적인 개선을 보여준다.
Gemma-3-12B-IT 모델의 잔차 스트림에서 출력과 무관하게 발생하는 잠재적 상태 변화를 발견하고, 기존 안전성 평가의 한계를 지적하며 기술적 검증을 요청함.
기술적 이해도가 낮은 사용자가 AI의 복잡한 출력을 자신이 잘 아는 분야의 비유로 변환하여 이해하고 의사결정을 돕는 AI 에이전트 스킬셋을 공유한다.
코드 변경 시 CLAUDE.md 파일을 자동으로 업데이트하여 모델의 지침이 항상 최신 상태를 유지하도록 돕는 자동화 도구 driftguard를 소개한다.
Star Trek의 Tamarian 종족처럼 실제 역사와 문화적 은유만을 사용하여 대화하도록 Claude를 설정한 프롬프트 실험 사례.
Claude 4.8 Opus는 이전 버전 대비 오류율이 감소하고 코드 품질이 개선되었으나, Gemini 3.5 Flash가 더 빠른 속도와 효율적인 도구 사용으로 높은 점수를 기록했다.
Anthropic이 공식 지원하지 않는 Claude Code 세션 내보내기 기능을 대신하여, Mac 간 세션과 설정을 안전하게 마이그레이션하는 방법과 스크립트를 공유함.
Claude가 데이터베이스 스키마를 몰라 발생하는 코드 생성 환각을 방지하기 위해, 실시간 스키마를 추출하여 MCP로 주입하는 도구 Lintbase를 개발했다.
Hugging Face가 Qwen3-TTS의 KV 캐시와 CUDA 그래프를 최적화하여 Reachy Mini 로봇의 음성 응답 속도를 5.8배 개선했다.
구글이 영상 생성 및 편집에 특화된 Gemini Omni와 에이전트 작업 및 코딩 성능을 강화한 Gemini 3.5 Flash 모델을 발표했다.
AI 칩 스타트업 Groq이 기존 투자자들로부터 6억 5천만 달러 규모의 자금을 추가 조달하여 추론 클라우드 사업을 확장한다.
AI 에이전트의 신뢰성을 검증하기 위해 OSSF Scorecard, 빌드 출처, 서명된 커밋 등 위조가 어려운 신호를 기반으로 171개 에이전트를 평가하는 오픈 레지스트리이다.
Anthropic의 새로운 Messages API는 프롬프트 캐시를 무효화하지 않고도 중간에 시스템 명령을 업데이트할 수 있어, 장기 실행 에이전트의 비용과 지연 시간을 크게 개선한다.
Apple Notes와 Reminders를 MCP 서버로 노출하여 로컬 LLM과 연동할 수 있게 해주는 macOS용 오픈소스 도구.
AI를 활용해 집필된 저서가 인용 오류 논란에 휩싸이며, WIRED가 자사 편집 정책에 따라 관련 발췌문을 철회했다.
AI 도입의 핵심은 도구 접근성이 아닌 비즈니스별 구현 역량이며, 도구 카테고리에 따라 실제 성공률이 크게 상이함이 데이터로 확인됨.
프롬프트를 거대한 텍스트 덩어리가 아닌, 로직 게이트와 그래프 구조를 가진 실행 가능한 프로그램으로 변환하는 PLG(Prompt Logic Gates) 개념과 그 타당성에 대한 논의.
Cognition이 10억 달러 투자 유치와 함께 AI 코딩 에이전트 Devin을 통해 인간 개발자를 대체하는 것이 아닌, 개발 생산성을 높이는 협업 도구로서의 비전을 제시했다.
Opus 4.8은 도구 사용과 가이드된 작업에 강점이 있으나, 대규모 코드베이스 마이그레이션과 자율성 면에서는 GPT-5.5가 더 우수한 성능을 보임.
7개 LLM을 대상으로 웹 애플리케이션 취약점 탐지 성능을 평가한 결과, GPT-OSS와 Gemma가 높은 정확도와 보고서 품질을 기록했다.
LangShip.sh(AI 에이전트 배포 인프라)와 LangShip.app(AI 품질 및 모니터링 플랫폼)의 이름 중복으로 인한 혼란을 명확히 구분하여 정리함.
Opus 4.8이 OSWorld 및 금융 추론 벤치마크에서 우수한 성과를 보였으나, 터미널 코딩 속도는 GPT-5.5가 여전히 앞선다는 분석이다.
Rust와 WGPU를 사용하여 GGUF 모델을 지원하고 GPU 가속을 제공하는 LLM 추론 엔진 aether 개발 프로젝트.
LLM 학습의 핵심인 손실 함수, 역전파, SGD 및 Adam 최적화 알고리즘과 학습률 스케줄을 다루는 개발자 가이드.
Google Research의 Vantage는 생성형 AI 에이전트와의 시뮬레이션 대화를 통해 학생의 협업, 비판적 사고, 창의성 등 정량화하기 어려운 미래 역량을 평가하는 연구 실험이다.
새로운 모델이 Tau2-bench에서 98%의 일관된 성능을 보이며 에이전트 작업에서의 신뢰성을 강조했으나, 원시 성능은 중간 수준이라는 평가가 나왔다.
Northwestern 대학 연구진이 MoS2와 그래핀 잉크를 사용하여 생체 뉴런과 유사한 전기 신호를 생성하는 인공 뉴런을 인쇄하는 데 성공했다.
DeepMind 출신 연구원들이 설립한 AI 스타트업 Inherent가 5천만 달러 규모의 투자를 유치하며 공식 출범했다.
ElevenLabs 엔지니어가 Claude Code를 사용하여 문서화되지 않은 VoIP 전화기 프로토콜을 역공학하고 오픈소스화한 과정.
Claude API의 extended thinking 기능 사용 중 발생하는 400 에러를 세션 재시작 명령어로 해결하는 방법.
Claude Opus 4.8은 이전 모델 대비 동일한 문제 해결 능력에서 더 적은 토큰을 사용하거나, 동일 토큰 사용량에서 더 높은 성능을 보인다.
Claude Opus 4.8 출시와 함께 AI 에이전트가 제품 관리와 개발 워크플로에 미치는 영향 및 인간 중심의 판단력 유지 중요성을 다룹니다.