가이드 랩스, 해석 가능한 80억 파라미터 LLM 'Steerling-8B' 오픈 소스 공개

핵심 요약

기존 딥러닝 모델은 수십억 개의 파라미터로 인해 내부 동작 원리를 파악하기 어려운 블랙박스 문제가 고질적이었다. 샌프란시스코 스타트업 가이드 랩스는 이를 해결하기 위해 모든 토큰의 출처를 추적할 수 있는 새로운 아키텍처의 Steerling-8B 모델을 오픈 소스로 공개했다. 이 모델은 컨셉 계층을 도입하여 데이터를 추적 가능한 카테고리로 분류하며, 기존 모델 대비 90%의 성능을 유지하면서도 높은 제어력을 제공한다. 이를 통해 저작권 관리, 편향 제거, 과학적 연구 등 투명성이 요구되는 다양한 분야에서 혁신적인 대안이 될 것으로 기대된다.

배경

딥러닝 아키텍처 기초, LLM 해석 가능성 개념, 트랜스포머 모델 구조

대상 독자

LLM 아키텍처 연구자 및 규제 준수가 중요한 산업의 AI 개발자

의미 / 영향

AI의 블랙박스 문제를 해결함으로써 규제가 엄격한 산업에서도 LLM 도입이 가속화될 것이며, 모델의 안전성과 정렬을 사후 패치가 아닌 구조적으로 관리하는 새로운 표준을 제시한다.

섹션별 상세

Steerling-8B는 모델 설계 단계부터 해석 가능성을 고려하여 구축된 80억 파라미터 규모의 언어 모델이다. 기존의 사후 분석 방식인 모델 신경과학 대신, 아키텍처 자체에 컨셉 모듈을 삽입하여 모델이 생성하는 모든 토큰을 학습 데이터의 특정 기원으로 추적할 수 있게 설계되었다.

핵심 기술인 컨셉 계층은 데이터를 의미론적으로 추적 가능한 범주로 묶어 관리하며, 이를 위해 초기 데이터 주석 과정에 다른 AI 모델을 활용하는 공학적 접근을 취했다. 이러한 구조 덕분에 개발자는 특정 개념과 관련된 활성화 경로를 정밀하게 제어하거나 온/오프 할 수 있는 능력을 확보한다.

해석 가능한 아키텍처가 모델의 일반화 능력이나 창의적인 창발적 행동을 저해할 것이라는 우려와 달리, Steerling-8B는 양자 컴퓨팅과 같은 새로운 개념을 스스로 발견하는 능력을 유지하고 있다. 가이드 랩스는 이 모델이 기존 프런티어 모델 성능의 약 90%를 달성하면서도 더 적은 데이터로 학습이 가능하다는 점을 확인했다.

이 기술은 금융권의 대출 심사 시 인종 편향 제거, 저작권이 있는 자료의 출력 차단, 단백질 구조 예측과 같은 과학적 발견의 근거 제시 등 규제 산업과 전문 분야에서 유용하다. 가이드 랩스는 향후 더 큰 규모의 모델을 구축하고 API 및 에이전트 서비스를 통해 접근성을 확대할 계획이다.

이미지 분석

Diagram
트랜스포머 아키텍처와 컨셉 모듈의 결합 구조를 도식화했다. 입력 토큰이 트랜스포머를 거쳐 히든 스테이트로 변환된 후, 컨셉 모듈 내에서 기지 및 미지 컨셉으로 분해되어 최종 출력을 형성하는 메커니즘이 포함되어 있다. 이는 기사에서 언급된 추적 가능한 AI의 기술적 구현 원리를 시각적으로 뒷받침한다.
Steerling-8B 모델의 핵심인 컨셉 모듈 아키텍처 다이어그램이다.

실무 Takeaway

모델 사후 분석이 아닌 설계 단계부터 해석 가능성을 내재화하는 컨셉 계층 아키텍처를 통해 블랙박스 문제를 공학적으로 해결한다.
Steerling-8B는 프런티어 모델 대비 90%의 성능을 유지하면서도 특정 출력의 근거를 학습 데이터 수준까지 추적할 수 있는 투명성을 확보했다.
금융, 의료, 과학 등 고도의 신뢰성과 규제 준수가 필요한 산업군에서 AI 모델의 의사결정 과정을 검증하고 제어하는 핵심 도구로 활용된다.

언급된 리소스

문서Guide Labs