일론 머스크의 승부수: 테슬라, AI와 휴머노이드 로봇에 250억 달러 쏟아붓는다
테슬라가 AI 인프라와 옵티머스 로봇 양산을 위해 2026년 자본 지출을 250억 달러로 대폭 늘리며 AI 기업으로의 전환을 가속화한다.
총 100건
테슬라가 AI 인프라와 옵티머스 로봇 양산을 위해 2026년 자본 지출을 250억 달러로 대폭 늘리며 AI 기업으로의 전환을 가속화한다.
Augment Code 팀이 수십 개의 AGENTS.md 파일을 분석하여 코딩 에이전트의 성능을 극대화하는 문서화 패턴과 함정을 공개했다.
Transformer 아키텍처의 핵심 원리부터 사전 학습 전략, RAG, 에이전트 및 최신 연구 트렌드까지 포괄적으로 다루는 스탠포드 대학의 AI 세미나 강의이다.
Stanford CS25 세미나에서 발표된 이 영상은 픽셀 재구성 대신 잠재 공간에서의 예측을 통해 효율적이고 인과적인 세계 모델을 구축하는 JEPA 아키텍처와 최신 연구 사례를 다룬다.
X가 Grok AI를 활용해 75개 이상의 특정 주제를 실시간으로 분류하고 개인화된 피드로 제공하는 '맞춤형 타임라인' 기능을 프리미엄 사용자에게 출시했다.
게임 UI는 일반 앱과 달리 비정형적인 모양과 복잡한 계층 구조를 가져 자동화가 어려웠으나, SPRITE는 이를 해결하여 개발자가 수동으로 에셋을 자르고 배치하는 반복 작업을 획기적으로 줄여줍니다. 비전문가도 스케치만으로 실제 게임 엔진에서 작동하는 프로토타입을 즉시 생성할 수 있게 합니다.
현재의 멀티모달 AI 모델들이 단순히 이미지를 묘사하는 수준을 넘어, 인간처럼 머릿속으로 물체를 회전시키거나 복잡한 패턴을 추론하는 능력이 있는지를 엄격하게 검증합니다. 인간과 AI 사이의 거대한 인지적 격차를 수치로 증명하여, 차세대 AI가 나아가야 할 시공간 추론 연구 방향을 제시합니다.
실제 서빙 환경의 제약을 고려하여 Hadamard 회전과 INT4 양자화를 결합해 성능 저하 없이 KV 캐시 메모리를 효율적으로 압축하는 SAW-INT4 기법이 제안됐다.
U-Net과 ResNet50V2 백본을 결합하여 초음파 영상 내 병변 부위를 정밀하게 분할하는 딥러닝 모델을 구축하고 Gradio로 배포했다.
여러 Claude Code 세션의 도구 활동, 컨텍스트 압박, 캐시 상태를 실시간으로 감시하는 Rust 기반 로컬 모니터링 도구 Clauditor가 공개됐다.
Claude Opus가 전문적인 비판 맥락을 오해하여 발생한 부적절한 거부 사례를 분석하고, 안전 필터링이 초래하는 시스템적 비효율성과 인식적 한계를 자가 보고했다.
HydraLM은 100만 토큰의 긴 문맥에서 100%의 검색 정확도와 99.8%의 연산량 절감을 달성하며 추론 효율성을 입증했다.
25,000번의 실험 결과, AI 과학자 에이전트가 수집된 증거를 무시하고 모순된 데이터 앞에서도 가설을 수정하지 않는 등 과학적 추론 능력이 결여되었음이 확인됐다.
수백~수천 개의 예시를 활용하는 Many-Shot ICL의 성능 특성과 최적의 예시 선택 전략을 실험을 통해 분석한 가이드입니다.
NVIDIA의 Parakeet-TDT 모델과 AWS Batch GPU 스팟 인스턴스를 결합하여 시간당 수 센트 수준의 비용으로 대규모 다국어 음성 전사 파이프라인을 구축하는 방법
OpenAI의 차세대 모델 유출 소식과 함께 구글과 OpenAI의 기업용 에이전트 플랫폼 경쟁, 그리고 앤스로픽의 요금제 변경 이슈를 다룹니다.
비전공자 사용자가 Cursor, Claude, ChatGPT를 활용해 iOS 앱의 다국어 통화 지원 및 세금 추적 기능을 성공적으로 구현하고 유지보수한 경험을 공유했다.
Databricks가 LLM 에이전트를 활용해 SQL 조인 순서를 최적화한 결과, 기존 옵티마이저 대비 80%의 케이스에서 성능을 개선하고 평균 지연 시간을 1.3배 단축했다.
엘리자베스 워런 상원의원은 AI 기업들의 과도한 지출과 불투명한 부채 구조가 2008년 금융 위기와 유사한 시스템적 리스크를 초래할 수 있다고 경고하며 규제 강화를 촉구했다.
20개 이상의 클라우드 제공업체로부터 7시간마다 GPU 가격 데이터를 자동 수집하여 최적의 학습 및 추론 자원을 비교할 수 있는 오픈소스 도구이다.
Claude와 GPT-4를 활용해 주제 선정부터 대본 작성, 토론까지 자율적으로 수행하는 멀티 에이전트 팟캐스트 파이프라인을 구축한 사례이다.
OpenAI가 비즈니스 및 교육용 플랜 사용자를 대상으로 클라우드 기반의 자율형 워크스페이스 에이전트를 공개하며 기존 GPTs의 진화된 형태를 제시했다.
스포티파이가 코딩 에이전트 Honk와 Backstage를 결합하여 수천 명의 사용자를 대상으로 한 대규모 데이터셋 버전 마이그레이션을 자동화했다.
Amazon Bedrock AgentCore가 인프라 설정 없이 설정만으로 AI 에이전트를 즉시 실행할 수 있는 매니지드 하네스와 통합 CLI 기능을 출시했습니다.
Salesforce AI Research가 ICLR 2026에서 에이전트 아키텍처, 추론 스케일링, 신뢰성 평가 등 엔터프라이즈 AI 핵심 분야의 연구 성과 21편을 발표했다.
Shopify CTO Mikhail Parakhin이 내부 AI 도구인 Tangle, Tangent, SimGym을 통해 데이터 워크플로와 고객 시뮬레이션을 혁신하고 Liquid AI를 실무에 적용한 사례를 공유했다.
DeepSeek-V3와 같은 최신 LLM이 정교한 사회 공학적 공격을 자동화하는 능력을 갖추게 됨에 따라, 이에 대응하기 위한 AI 기반 방어 도구 개발의 중요성이 커지고 있다.
ChatGPT를 활용해 Slack과 외부 포럼의 피드백을 분석하고 Linear 티켓 생성까지 자동화하는 워크스페이스 에이전트 구축 과정을 소개한다.
ChatGPT를 활용해 외부 벤더의 재무 및 평판 리스크를 자동으로 분석하고 전문적인 보고서를 생성하는 맞춤형 에이전트 Trove의 구축 과정을 소개한다.
Kubernetes 환경을 겨냥해 npm과 PyPI에 유포된 악성 패키지가 감염된 서버를 중국 LLM 암시장의 유료 API 중계 노드로 악용하는 사례가 발견됐다.
최근 AI 논문 트렌드 분석 결과 Reranking 관련 연구는 감소 중이나, 이는 기술이 성숙하여 표준 인프라로 정착되는 과정임이 시사됐다.
AI 이미지 생성기의 안전 시스템은 텍스트의 의도가 아닌 예측된 시각적 구도를 평가하며, 부정어 사용보다 확신 있는 물리적 묘사가 필터 통과에 유리하다.
북한의 미숙련 해커 조직 HexagonalRodent가 OpenAI, Cursor 등 상용 AI 도구를 활용해 악성코드 제작부터 피싱 사이트 구축까지 전 과정을 수행하며 약 1,200만 달러의 가상화폐를 탈취했습니다.
NVIDIA Jetson Orin Nano Super 하드웨어에서 Gemma 4 모델을 활용하여 별도의 트리거 없이 스스로 웹캠 사용 여부를 결정하고 답변하는 VLA(Vision-Language-Action) 시스템 구축 가이드입니다.
앤스로픽의 제한된 AI 모델 Mythos가 보안 침해를 당했으며, 구글은 학습과 추론 성능을 최적화하기 위해 8세대 TPU 라인업을 두 종류의 칩으로 분리했습니다.
호주 국립은행(NAB)이 6,000명의 개발자 환경을 Cursor로 표준화하여 메인프레임 마이그레이션 및 신규 앱 개발 속도를 최대 3배 이상 높였습니다.
Opik은 AI 에이전트 개발의 복잡성을 해결하기 위해 관측 가능성과 자동화된 수정을 결합한 코딩 어시스턴트 Ollie를 출시했습니다.
프롬프트 기반의 단순한 아키텍처 선택 방식에서 벗어나 지연 시간, 처리량 등 구체적 제약 조건을 기계적으로 검증하는 arch-compiler 도구를 제안한다.
Stripe의 디자인 총괄 Katie Dill이 6년 만의 홈페이지 리디자인 과정과 AI 도구를 활용한 프로토타이핑 및 브랜드 이미지 생성 기법을 공유합니다.
구글이 Gemini를 활용해 구글 시트 자동 완성 및 문서 작성 스타일 매칭 기능을 포함한 워크스페이스 AI 업데이트를 발표했다.
수학이나 논리 영역에서 혁신을 일으킨 Chain-of-Thought(CoT) 기법이 시각적 공간 추론에서는 오히려 성능을 떨어뜨린다는 사실을 발견했습니다. 모델이 이미지의 실제 기하학적 구조를 파악하기보다 텍스트 정보에만 의존해 환각을 일으키는 '지름길 학습' 문제를 지적하며, 진정한 시각 지능을 위한 새로운 학습 패러다임의 필요성을 제시합니다.
최근 LLM의 추론 시간(Inference-time compute)을 늘려 성능을 높이려는 시도가 많지만, 탈중앙화 자율 조직(DAO)과 같은 적대적 환경에서는 오히려 성능이 급격히 저하되는 '연산-정확도 역전' 현상이 발생함을 입증했습니다. 특히 9B 이하의 소형 언어 모델(SLM)이 복잡한 법률적 판단을 내릴 때, 과도한 추론 과정이 모델을 혼란에 빠뜨려 합의 시스템의 안정성을 해칠 수 있음을 경고합니다.
기존의 회귀 분석은 정수 레이블을 연속적인 값으로 간주하고 반올림하는 방식에 의존해 데이터의 이산적 특성을 무시하는 한계가 있었다. 이 논문은 역전파가 가능한 연속적인 파라미터를 유지하면서도 정수 공간에서 직접 확률을 정의하는 새로운 이산 분포들을 제안하여 예측의 정확도와 해석력을 동시에 높였다.
대형 시각-언어 모델(LVLM)이 이미지와 무관한 답변을 생성하는 환각 현상은 신뢰성을 저해하는 고질적인 문제입니다. 이 논문은 추가적인 데이터 학습이나 외부 감독 없이 추론 단계에서 환각을 실시간으로 감지하고 수정하는 PSRD 프레임워크를 제안하여 모델의 정확도를 획기적으로 높였습니다.
스마트워치나 스마트 글래스 같은 저전력 기기에서 클라우드 AI를 사용할 때 발생하는 수 초간의 응답 지연 문제를 해결합니다. 기기 내부의 초소형 모델이 응답의 첫 마디를 즉시 생성하고 클라우드가 이를 이어받는 협업 방식을 통해 사용자에게 끊김 없는 대화 경험을 제공합니다.
LLM이 단순히 텍스트를 생성하는 것을 넘어 양자 컴퓨팅, 알고리즘 공학, 수학적 난제 해결 등 실제 과학적 발견의 도구로 활용될 수 있음을 증명했다. 특히 모델 자체의 크기를 키우는 것보다 '평가 피드백 루프'를 체계적으로 확장하는 것이 복잡한 최적화 문제 해결에 더 결정적일 수 있다는 새로운 연구 방향을 제시한다.
기존 멀티 에이전트 시스템은 단일 사용자의 목표를 수행하는 데 국한되어 서로 다른 이해관계를 가진 사용자 간의 협업을 지원하지 못했다. ClawNet은 신원 바인딩과 권한 제어 메커니즘을 도입하여 에이전트가 실제 인간 사용자를 대리해 안전하고 책임감 있게 협업할 수 있는 인프라를 제공한다.
대형 언어 모델(LLM)이 실제 환경에서 왜 오답을 내는지 내부 메커니즘을 통해 분석하는 연구이다. 기존의 단순 결과 비교를 넘어 모델 내부의 정보 흐름을 추적함으로써, 모델 크기 확장이나 추가 학습이 실제로 문제를 해결하는지 아니면 겉모습만 바꾸는지 진단할 수 있는 도구를 제공한다.
화학 및 재료 과학의 핵심 도구인 DFT는 정확도와 계산 비용 사이의 고질적인 트레이드오프 문제를 안고 있었다. Skala는 딥러닝을 통해 저렴한 계산 비용을 유지하면서도 고비용 하이브리드 범함수를 능가하는 정확도를 달성하여, 실험실 수준의 예측을 컴퓨터 시뮬레이션으로 대체할 수 있는 길을 열었다.
LLM이 최적화 시스템의 핵심 엔진으로 사용되고 있지만 그 작동 원리에 대한 이해는 부족했다. 이 논문은 단순히 똑똑한 모델보다 해결책을 미세하게 조정하는 능력이 뛰어난 모델이 실제 최적화 작업에서 더 높은 성과를 낸다는 사실을 밝혀내어 효율적인 AI 시스템 설계 방향을 제시한다.
이산 확산 모델(UDM)에 강화학습을 직접 적용할 때 발생하는 학습 불안정성과 성능 저하 문제를 해결한 최초의 프레임워크입니다. 정확한 액션 정의와 궤적 재구성을 통해 텍스트-이미지 생성 및 OCR 성능을 획기적으로 개선하여 이산 도메인 생성 모델의 새로운 학습 표준을 제시합니다.
최근 AI 모델의 성능을 AI가 직접 평가하는 'AI 판사' 방식이 확산되고 있으나, 이들이 시각 정보를 무시하거나 텍스트에만 의존하는 심각한 편향이 있음이 밝혀졌다. 본 논문은 이러한 '구성적 편향'을 체계적으로 측정할 수 있는 벤치마크를 제시하여 더 공정하고 신뢰할 수 있는 AI 평가 시스템 구축의 기반을 마련했다.
기존의 클릭률(CTR) 예측 모델은 성능을 높이기 위해 파라미터 수를 늘려야 했고, 이는 산업 현장의 엄격한 지연 시간 제약과 충돌했다. LoopCTR은 동일한 모델 레이어를 반복 재사용하는 루프 스케일링 방식을 통해 파라미터 증가 없이도 연산량을 조절하며 성능을 극대화한다. 특히 학습 시에는 여러 번 반복하지만 추론 시에는 단 한 번의 연산만으로도 기존 모델들을 압도하는 효율성을 보여준다.
LLM의 모든 레이어를 균일하게 학습시키는 기존 LoRA 방식의 비효율성을 해결하기 위해, 기하학적 궤적 분석을 통해 학습이 꼭 필요한 핵심 레이어만 골라내는 새로운 방법론을 제시한다. 이를 통해 연산 자원을 대폭 절감하면서도 수학 추론 등 복잡한 작업에서 더 높은 성능을 달성할 수 있음을 입증했다.
기존의 사진 편집 AI는 사용자가 구체적으로 무엇을 고칠지 명령해야 했으나, 이 논문은 AI가 직접 이미지의 심미적 결함을 분석하고 보정 전략을 세우는 자동화 프레임워크를 제안한다. 이는 전문 지식이 없는 일반 사용자도 고품질의 사진 보정 결과물을 얻을 수 있게 하며, 복합적인 보정 작업을 단일 모델 내에서 해결한다.
기존 3D 비전 모델들이 생성이나 이해 중 한 가지 작업에만 특화되어 파편화되어 있던 한계를 극복했다. 단일 아키텍처 내에서 생성과 이해가 서로 정보를 주고받으며 성능을 높이는 시너지를 창출하고, 재학습 없이 텍스트만으로 정밀한 3D 편집이 가능하다.
LLM의 내부 뉴런 활성화 패턴을 분석하여 특정 타겟 작업에 가장 적합한 학습 데이터를 선별하는 새로운 프레임워크를 제안한다. 기존의 블랙박스 방식과 달리 모델의 '기능적 중추'를 직접 활용함으로써 학습 효율을 극대화하고 데이터 선택 과정의 투명성을 확보한다.
대규모 비디오 생성 모델의 추론 속도를 획기적으로 개선하면서도 고품질 결과물을 유지할 수 있는 새로운 프레임워크를 제시합니다. 기존 LLM에서 사용되던 Speculative Decoding 기법을 연속적인 데이터인 비디오 영역에 성공적으로 이식하여 실시간 스트리밍 비디오 서비스의 가능성을 열었습니다.
기존 비디오 생성 모델은 시각적으로는 그럴듯하지만 실제 세계의 지리적 구조를 정확히 반영하지 못하는 한계가 있었다. CityRAG는 대규모 지리 정보 데이터셋을 활용하여 실제 도시의 건물과 도로 구조를 유지하면서도 날씨나 조명 같은 가변적 요소만 자유롭게 조절할 수 있는 기술적 토대를 마련했다.
태스크 산술이 왜 성공하는지에 대한 근본적인 이론적 설명을 제공하고, 이를 바탕으로 모델 병합 시 발생하는 태스크 간 간섭 문제를 해결하는 새로운 정규화 기법을 제시한다. OrthoReg를 통해 추가 학습 없이도 여러 모델의 능력을 더 정교하게 결합하거나 특정 능력을 깨끗하게 제거할 수 있다.
전 세계 인구의 70%가 두 개 이상의 언어를 섞어 쓰는 '코드 스위칭' 환경에 살고 있음에도 불구하고, 현재의 AI 검색 시스템은 단일 언어 처리에만 최적화되어 있습니다. 이 논문은 최신 다국어 모델조차 혼합 언어 쿼리에서 심각한 성능 저하를 겪는다는 사실을 입증하며, 향후 RAG 및 검색 시스템이 해결해야 할 새로운 기술적 경계를 제시합니다.
기존 검색 시스템은 단순히 주제가 비슷한 문서를 찾는 데 집중하여 사용자의 구체적인 제약 조건을 무시하는 경우가 많습니다. 이 논문은 동일한 문서 쌍에 대해 정반대의 지시어를 생성하여 학습시키는 기법을 통해 검색 모델이 지시어의 미세한 차이를 정확히 구분하도록 만듭니다.
기존의 LLM-as-a-Judge 방식은 텍스트 표면의 정보에만 의존하여 복잡한 환경에서 동작하는 에이전트를 평가하는 데 한계가 있었다. 이 논문은 에이전트가 직접 도구를 사용하고 환경을 탐색하며 증거를 수집해 평가하는 Agent-as-a-Judge 패러다임을 제안하고 이를 위한 체계적인 벤치마크를 구축했다.
현재 산업 현장에서 신뢰성 있는 AI 서비스를 위해 Dify나 Coze 같은 워크플로 플랫폼이 널리 쓰이지만, 복잡한 로직을 수동으로 설계하는 데 많은 비용이 듭니다. 이 논문은 자연어 지시사항을 실제 실행 가능한 시각적 워크플로로 자동 변환하는 기술의 가능성과 한계를 체계적으로 평가할 수 있는 벤치마크를 제공합니다.
기존 LoRA 방식은 모델의 각 가중치 층에 파편화된 수정을 가해 구조적으로 종속되는 한계가 있었다. ShadowPEFT는 별도의 경량화된 섀도우 모델을 통해 층 단위의 정교한 보정을 수행하며, 이를 통해 성능 향상은 물론 모델을 뗐다 붙였다 할 수 있는 모듈식 배포가 가능해졌다.
기존의 AI 코드 생성 모델들은 텍스트 기반의 정답 확인에는 능숙하지만, 게임이나 앱처럼 사용자와 상호작용하는 화면(GUI)을 만드는 데는 큰 한계를 보였다. 이 논문은 AI가 직접 화면을 조작하고 시각적 피드백을 받아 코드를 스스로 고치는 기술을 통해, 실제로 '플레이 가능한' 수준의 복잡한 소프트웨어를 만들 수 있는 길을 열었다.
기존의 테스트 시간 학습(TTT)은 추론 과정에서 모델을 업데이트할 때 정답 레이블이 없어 성능이 정체되거나 답변의 다양성이 급격히 떨어지는 한계가 있었다. TEMPO는 레이블이 있는 데이터로 비판 모델(Critic)을 주기적으로 재보정하는 방식을 도입해 추론 단계에서도 모델 성능이 지속적으로 우상향할 수 있음을 증명했다.
기존 LLM 에이전트는 프롬프트에만 의존해 복잡한 제어가 어렵거나 Python 코드와 강하게 결합되어 유지보수가 힘들었다. AgentSPEX는 이를 해결하기 위해 YAML 기반의 선언적 언어를 도입하여 비개발자도 복잡한 에이전트 워크플로를 설계하고 정밀하게 제어할 수 있는 환경을 제공한다.
기존 비디오 생성 모델은 손가락이 뭉개지거나 물체가 몸을 뚫고 지나가는 등 물리적 일관성이 부족한 문제가 있었다. CoInteract는 Diffusion Transformer 내부에 인간의 구조적 정보와 상호작용 기하학 제약 조건을 직접 통합하여, 추가적인 연산 비용 없이도 매우 사실적인 상호작용 비디오를 생성한다.
한 학생 개발자가 LSTM과 Dense 레이어를 결합한 경량 모델을 구축하고 Int-8 양자화를 통해 성능 저하 없이 모델 크기를 35KB까지 줄인 사례이다.
로봇의 물리적 구조와 피드백 제어의 결합인 체화된 지능을 통해 복잡한 지형에서 다각 로봇의 이동 성능을 극대화하는 방법론을 제시한다.
Claude Code와 OpenClaw 등 서로 다른 AI 에이전트들이 MCP를 통해 메시지를 주고받으며 협업할 수 있게 해주는 통신 브로커 Swarmbus가 공개됐다.
Codex 5.5의 성능 향상과 OpenAI의 공격적인 사용량 정책으로 인해 Claude Code의 상대적 경쟁력이 약화되고 있다는 분석이 제기됐다.
Claude Code와 같은 코딩 에이전트를 활용해 프롬프트로 정밀한 3D CAD 모델을 생성하고 편집할 수 있는 오픈소스 도구 text-to-cad가 출시됐다.
Claude Code를 Architect부터 Documenter까지 5가지 역할로 나누어 자율적으로 실행하는 Python 기반 오케스트레이션 도구 Huragok이 공개됐다.
단순 시맨틱 검색 기반 RAG의 한계를 극복하기 위해 의사결정을 구조화된 이벤트로 저장하고 인과관계를 따라 추론하는 Core Memory 기법을 제안한다.
Intercom이 Claude Code를 활용해 전체 코드의 95% 이상을 생성하며 AI 우선 개발 환경으로 전환한 사례를 공유했다.
Go 언어와 Bubble Tea 프레임워크를 사용하여 AI 에이전트와의 협업으로 개발된 스타워즈 테마의 Windows 시스템 모니터링 TUI 도구입니다.
Claude Code가 CLAUDE.md의 지침을 무시하는 문제를 해결하기 위해 Haiku 모델을 비평가로 활용한 가중치 루브릭 검증 및 자동 재시도 시스템을 구축했다.
웹 앱의 내부 함수를 Claude Code와 직접 연결하여 DOM 스크래핑 없이 상태를 제어할 수 있게 해주는 MCP 기반 도구 Tesseron이 공개됐다.
극단적으로 짧은 답변을 유도하는 Caveman Claude 프롬프트가 실제로는 입력 토큰 비용 증가와 추론 품질 저하를 초래하며, 진정한 비용 절감은 모델 아키텍처 최적화에서 온다.
Gemma 3 270M 모델에 독자적인 T³ v3.5 아키텍처를 적용하여 50억 토큰의 추가 학습을 통해 성능 향상을 검증하는 실험이 사전 등록되었다.
5가지 모달리티를 통합하는 새로운 AI 아키텍처 VATSA가 공개되었으며 첫 단계로 비주얼 인코더 개발과 오픈소스 저장소가 배포됐다.
구글이 크롬 브라우저 내에서 제미나이를 활용해 웹 기반 업무를 자동화하는 오토 브라우즈 에이전트 기능과 강화된 보안 관리 도구를 발표했다.
Claude Code에서 비디오 프레임 추출과 오디오 전사를 자동화하여 멀티모달 분석을 가능하게 하는 오픈소스 플러그인이다.
Claude Code의 작업을 Gemini CLI로 위임하여 대규모 코드베이스 분석 효율을 높이는 플러그인이 공개됐다.
Anthropic의 Claude Design을 활용해 당근마켓의 디자인 시스템을 추출하고, 이를 기반으로 실제 Flutter 앱, 회사소개서, 홍보 영상, 랜딩페이지를 일관되게 자동 생성하는 전 과정을 다룹니다.
ChatGPT Business 환경에서 Google Drive 데이터를 연동해 주간 지표를 분석하고 리포트를 자동 생성하는 워크스페이스 에이전트 구축 과정을 소개한다.
에이전트 플랫폼 구축 과정에서 발생한 LLM 호출 관리 문제를 해결하기 위해 개발한 자체 게이트웨이 코드를 오픈소스로 공개했다.
Netra는 Gemini 모델의 실시간 멀티모달 처리 능력을 극대화하여 시각 장애인에게 텍스트 읽기, 얼굴 인식 및 사회적 맥락 분석을 제공하는 고속 비전 시스템이다.
구글이 제미나이를 활용해 대면 회의와 Zoom, Microsoft Teams 회의의 내용을 기록하고 요약해주는 기능을 출시했다.
사용자의 행동 패턴과 의사결정 성향을 수치화된 가중치 파일로 만들어 LLM에 주입하는 개인화 레이어 Grain 프로젝트가 공개됐다.
DPO와 SFT 기법을 적용한 소형 모델 DharmaOCR이 GPT-5.4 등 거대 모델보다 높은 OCR 성능을 기록하며 오픈소스로 공개됐다.
TrendMicro는 Amazon Bedrock, Neptune, Mem0를 결합하여 기업 특화 지식 그래프 기반의 장단기 메모리 시스템을 구축하고 챗봇의 응답 정확도를 개선했다.
OpenAI가 인도의 Infosys와 파트너십을 맺고 Codex를 Topaz 플랫폼에 통합하여 기업용 소프트웨어 개발 및 워크플로 자동화를 지원합니다.
Rust와 GTK4를 기반으로 구축하고 다양한 AI 도구를 활용해 개발한 리눅스용 고속 이미지 라이브러리 뷰어 프로젝트이다.
1994년 압축 알고리즘인 BPE가 LLM의 과금 단위가 되면서, 영어 중심의 학습 데이터 편향으로 인해 비영어권 사용자가 동일 정보량에 대해 최대 5배의 비용을 더 지불하는 구조적 불평등이 발생하고 있다.