바이트댄스 Ouro-2.6B-Thinking 모델의 아키텍처 버그 수정 및 실행 가이드

핵심 요약

바이트댄스의 Ouro-2.6B-Thinking 모델이 가진 순환 유니버설 트랜스포머 아키텍처의 버그를 수정하고 실행 성능을 검증한 기술 공유글이다.

배경

바이트댄스가 출시한 Ouro-2.6B-Thinking 모델이 독특한 아키텍처로 인해 기존 GGUF 환경에서 오작동하는 문제를 발견했다. 작성자는 transformers 4.55 라이브러리와의 호환성 문제를 해결하고 실제 추론 테스트 결과를 공유했다.

의미 / 영향

Ouro-2.6B-Thinking 모델의 사례는 유니버설 트랜스포머와 같은 비표준 아키텍처가 기존 생태계 도구들과 호환되지 않을 수 있음을 시사한다. 커뮤니티의 직접적인 코드 패치를 통해 이러한 기술적 장벽이 해결되고 있으며, 향후 다양한 순환 구조 모델의 도입 가능성을 확인했다.

커뮤니티 반응

작성자의 기술적 분석과 수정 사항에 대해 긍정적인 반응이며, 특히 독특한 아키텍처에 대한 관심이 높다.

실용적 조언

Ouro-2.6B 모델을 실행할 때는 반드시 use_cache=False 설정을 적용해야 정확한 출력을 얻을 수 있다.
transformers 4.55 이상 버전을 사용한다면 작성자가 공유한 패치된 modeling_ouro.py 파일을 활용해야 한다.

언급된 도구

Ouro-2.6B-Thinking추천

바이트댄스에서 출시한 사고(Thinking) 능력을 갖춘 경량 언어 모델

transformers중립

Hugging Face의 LLM 실행 및 학습 라이브러리

섹션별 상세

Ouro-2.6B-Thinking 모델은 일반적인 트랜스포머와 달리 순환 유니버설 트랜스포머(Recurrent Universal Transformer) 구조를 채택했다. 48개의 레이어를 토큰당 4회 반복 실행하여 실질적으로 192개의 레이어를 통과하는 효과를 낸다. 기존 llama.cpp 등 표준 도구들은 레이어를 한 번만 실행하도록 설계되어 있어 이 모델의 GGUF 버전들이 비정상적인 결과물을 출력하는 원인이 됐다.

작성자는 modeling_ouro.py 파일에서 transformers 4.55 버전과 충돌하는 두 가지 주요 버그를 수정했다. 첫째는 UniversalTransformerCache가 Cache 클래스를 상속받을 때 발생하는 AttributeError 문제이며, 둘째는 인과 마스크 생성 시 필요한 get_mask_sizes() 메서드가 누락된 점이다. 이러한 패치를 통해 모델이 정상적으로 사고(Thinking) 과정을 거쳐 답변을 생성할 수 있게 됐다.

모델 실행 시 KV 캐시(KV Cache) 통과 방식이 4회 루프 아키텍처와 올바르게 작동하지 않아 use_cache=False 설정을 사용해야 한다. 이는 매번 전체 컨텍스트를 재계산하는 방식이지만, 설정 파일의 early_exit_threshold: 1.0 값과 일치하는 정확한 동작 방식이다. NVIDIA L4 GPU 환경에서 float16 정밀도로 테스트한 결과, 약 3.8 t/s의 속도와 5.3 GB의 VRAM 점유율을 기록했다.

실무 Takeaway

Ouro-2.6B-Thinking 모델은 레이어 반복 실행이라는 독특한 구조 때문에 표준 추론 엔진에서 별도의 수정이 필요하다.
transformers 최신 버전(4.55+)과의 호환성을 위해 캐시 속성 설정 및 마스크 크기 메서드 추가 패치가 필수적이다.
현재 아키텍처 특성상 KV 캐시를 비활성화하고 전체 컨텍스트를 재계산하는 방식이 모델의 의도된 동작을 보장한다.

언급된 리소스

GitHubOuro-2.6B-Thinking-Fixed (Hugging Face)