mechanistic-interpretability
AI 모델 내부의 뉴런과 연결 구조를 분석하여 특정 출력이나 행동이 발생하는 논리적 과정을 이해하려는 연구 분야이다. 모델의 블랙박스를 열어 안전성을 검증하는 핵심 기술이다.
GPT-2 vs Hyena: 하이브리드 아키텍처가 성능 격차를 줄이는 방법
착한 척하다 갑자기 고집불통이 된 AI, 그 뒤에 숨겨진 '사춘기' 심리학
AI가 AI를 만드는 시대가 6개월 뒤? 물리적 장벽은 사라지고 인간의 시스템만 남았다