LLM 신경해부학: 가중치 변경 없이 LLM 리더보드 1위를 달성한 방법

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

대형 언어 모델(LLM)의 중간 레이어가 추상적 추론을 담당하는 '신경 피질' 역할을 한다는 가설을 바탕으로, 특정 레이어 범위를 중복 실행하는 '레이어 복제' 기법을 제안한다. 저자는 Qwen2-72B 모델을 대상으로 모든 레이어 조합을 테스트하는 '브레인 스캐너' 파이프라인을 구축하고, 수학과 감성 지능(EQ)을 지표로 최적의 블록을 찾아냈다. 결과적으로 7개의 중간 레이어를 복제한 RYS-XLarge 모델은 추가 학습 없이도 주요 벤치마크에서 성능 향상을 보이며 오픈 LLM 리더보드 1위를 기록했다. 이는 LLM의 내부 구조가 단순한 나열이 아닌 특정 기능을 수행하는 '회로(Circuit)' 단위로 구성되어 있음을 시사한다.

배경

Transformer 아키텍처에 대한 깊은 이해, LLM 추론 및 레이어 구조 지식, 벤치마크 평가 지표(MMLU, MATH 등)에 대한 이해

대상 독자

LLM 아키텍처 및 성능 최적화에 관심 있는 AI 엔지니어 및 연구자

의미 / 영향

이 연구는 거대 모델의 성능 향상이 반드시 막대한 비용의 추가 학습을 통해서만 가능한 것이 아님을 보여준다. 레이어 복제 기법은 기존 모델의 잠재력을 저비용으로 끌어올릴 수 있는 새로운 스케일링 패러다임을 제시하며, 모델 내부의 기능적 회로 구조를 이해하는 것이 성능 최적화의 핵심임을 시사한다.

섹션별 상세

LLM의 초기 레이어는 입력을 추상적 표현으로 번역하고, 마지막 레이어는 이를 다시 출력 형식으로 번역하며, 중간 레이어는 순수 추론을 담당한다는 신경해부학적 가설을 세웠다.

Open LLM Leaderboard에서 1위를 차지한 RYS-XLarge 모델의 스크린샷이다. — Screenshot저자가 제안한 레이어 복제 기법을 적용한 RYS-XLarge 모델이 기존의 수많은 미세 조정 모델들을 제치고 평균 점수 44.75로 1위에 올랐음을 증명한다.

Goliath-120B와 같은 프랑켄머지 모델의 성공 사례를 통해 레이어 간의 표현이 생각보다 균일하며, 레이어 순서를 바꾸거나 건너뛰어도 모델이 붕괴하지 않는 유연성을 가졌음을 확인했다.

Transformer 블록의 내부 구조와 데이터 흐름을 보여주는 다이어그램이다. — Diagram레이어 건너뛰기나 복제가 왜 가능한지 설명하기 위해 잔차 연결(Residual Connection) 구조를 시각화하며, 입력이 각 블록을 거치며 어떻게 처리되는지 보여준다.

모든 레이어 복제 조합(i, j)을 테스트하기 위해 브레인 스캐너 파이프라인을 구축하고, 계산 비용을 줄이기 위해 수천 개의 토큰 생성 대신 수학 문제와 EQ-Bench를 성능 측정의 대리 지표로 활용했다.

실험 결과 단일 레이어 복제는 성능을 저하시키지만 특정 범위의 레이어 블록을 통째로 복제할 경우 추론 능력이 비약적으로 상승함을 발견했다.

Qwen2-72B 모델에서 45번부터 51번까지의 7개 레이어를 복제한 RYS-XLarge 모델은 MuSR 벤치마크에서 17.7%, MATH 벤치마크에서 8.1%의 성능 향상을 기록하며 리더보드 1위에 올랐다.

이 기법은 가중치를 수정하지 않으므로 VRAM 사용량을 늘리지 않고도 레이어 포인터 복제만으로 모델의 추론 깊이를 확장할 수 있는 효율적인 스케일링 방법임을 입증했다.

실무 Takeaway

LLM의 중간 레이어는 독립적인 연산이 아닌 여러 레이어가 하나의 회로로 묶여 작동하므로, 성능 향상을 위해서는 단일 레이어가 아닌 블록 단위의 복제가 필요하다.
추가적인 GPU 메모리 점유 없이 레이어 포인터 복제만으로도 모델의 추론 능력을 확장하고 리더보드 벤치마크 성능을 개선할 수 있다.
모델의 크기가 커질수록 인코딩, 추론, 디코딩 기능이 더 명확하게 분리되는 경향이 있어 대형 모델일수록 이러한 신경해부학적 접근이 더 효과적이다.

언급된 리소스

문서dnhkng/RYS-XLarge

DemoOpen LLM Leaderboard