MIT 연구진, 소형 모델들의 협업을 통해 대형 모델보다 뛰어난 추론 성능을 구현하는 DisCIPL 시스템 개발

핵심 요약

대형 언어 모델은 복잡한 제약 조건이 있는 추론 작업에서 높은 비용과 지연 시간 문제를 겪는다. MIT CSAIL 연구진은 LLM이 전략을 수립하고 소형 모델들이 이를 실행하는 협업 프레임워크 DisCIPL을 개발했다. 이 시스템은 LLaMPPL 프로그래밍 언어를 사용하여 모델 간 통신을 제어하며 GPT-4o보다 정확하고 OpenAI의 o1에 근접하는 성능을 보이면서 비용은 80% 이상 절감했다. 여행 일정 계획이나 예산 관리와 같은 실세계의 복잡한 제약 조건 해결에 있어 효율적인 대안이 된다.

배경

LLM 추론 메커니즘, Multi-agent 시스템 기초, Python 프로그래밍

대상 독자

AI 시스템 아키텍트 및 비용 최적화 개발자

의미 / 영향

이 연구는 고성능 추론이 거대 모델의 전유물이 아님을 증명하며 소형 모델 군집을 통한 효율적인 AI 시스템 구축 가능성을 열었다. 기업 환경에서 비용 효율적인 맞춤형 추론 시스템을 구축하는 데 중요한 이정표가 된다.

섹션별 상세

DisCIPL은 관리자 역할을 하는 LLM과 실행자 역할을 하는 다수의 소형 모델로 구성된 계층적 구조를 채택했다. 관리자 모델인 GPT-4o가 전체적인 계획을 수립하면 Llama-3.2-1B와 같은 소형 모델들이 병렬적으로 세부 작업을 수행하여 최종 결과물을 도출한다. 이 과정에서 관리자 모델은 실행자들의 출력을 검토하고 부적절한 표현을 수정하여 전체적인 품질을 유지한다.

모델 간의 정교한 제어를 위해 2023년 MIT에서 개발한 LLaMPPL이라는 전용 프로그래밍 언어를 활용한다. LLaMPPL은 특정 규칙을 코드로 인코딩하여 모델이 엄격한 제약 조건을 준수하도록 강제한다. 텍스트 기반으로 추론하는 기존 방식보다 훨씬 명확하고 검증 가능한 가이드라인을 제공하여 복잡한 논리 구조를 가진 작업에서 높은 정확도를 보장한다.

성능 평가 결과 DisCIPL은 특정 단어 위치 지정과 같은 엄격한 제약 조건이 있는 텍스트 생성 작업에서 OpenAI의 o1 시스템과 대등한 수준의 정확도를 기록했다. 실세계 응용 사례인 식재료 목록 작성, 여행 일정 계획, 단어 제한이 있는 연구 제안서 작성 등에서 GPT-4o 단독 사용 시보다 월등한 성능을 나타냈다. 소형 모델의 병렬 처리가 대형 모델의 순차적 추론보다 특정 영역에서 더 효과적임을 입증했다.

효율성 측면에서 DisCIPL은 기존 최첨단 추론 모델 대비 압도적인 우위를 점했다. 텍스트 대신 파이썬 코드로 추론 과정을 표현함으로써 추론 길이를 40.1% 단축했으며 토큰당 비용이 저렴한 소형 모델을 활용하여 전체 비용을 80.2% 절감했다. 소형 모델들을 병렬로 실행할 수 있어 대규모 추론 작업의 확장성 문제를 개선했다.

이미지 분석

Diagram
DisCIPL 시스템의 관리자-실행자 계층 구조를 시각화하여 LLM이 소형 모델들에게 작업을 분배하고 제어하는 방식을 나타낸다.
중앙의 보라색 형체가 여러 대의 소형 로봇과 연결되어 작업을 지시하는 다이어그램이다.

Infographic
DisCIPL 프레임워크가 텍스트 생성을 넘어 코드 추상화나 물리적 환경에서의 계획 수립 등 다양한 복잡한 작업에 적용될 수 있음을 나타낸다.
코드 생성, 주방 환경 계획, 로봇 제어 등 세 가지 응용 사례를 나타내는 인포그래픽이다.

실무 Takeaway

LLM의 계획 능력과 SLM의 병렬 실행 능력을 결합하여 추론 효율성을 극대화한다.
LLaMPPL과 같은 정형화된 언어를 모델 제어에 활용하여 엄격한 제약 조건을 준수하게 한다.
추론 과정을 코드로 구조화하여 토큰 사용량을 줄이고 80% 이상의 비용 절감 효과를 거둔다.

언급된 리소스

논문Self-Steering Language Models (Paper)