마이크로 언어 모델을 활용한 즉각적인 응답 생성 기술

스마트워치나 스마트 글래스 같은 저전력 기기에서 클라우드 AI를 사용할 때 발생하는 수 초간의 응답 지연 문제를 해결합니다. 기기 내부의 초소형 모델이 응답의 첫 마디를 즉시 생성하고 클라우드가 이를 이어받는 협업 방식을 통해 사용자에게 끊김 없는 대화 경험을 제공합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

마이크로 언어 모델(μLM) 제품군 개발

8M에서 30M 파라미터 규모의 초소형 디코더 전용 Transformer 모델을 설계하여 임베디드 기기의 극도로 제한된 메모리와 연산 환경에서도 구동 가능하도록 구현했다.

비대칭 협업 생성 프레임워크 설계

온디바이스 모델이 응답의 초기 4-8개 단어를 즉시 생성하고, 클라우드 모델이 이를 문맥적 기반으로 삼아 자연스럽게 이어가는 Commit-and-Continue 구조를 제안했다.

세 가지 구조적 오류 복구 메커니즘

온디바이스 모델의 초기 생성이 부적절할 경우를 대비해 Explicit Correction, Natural Recovery, Humor-aware Recovery라는 세 가지 복구 모드를 설계하여 시스템의 신뢰성을 높였다.

임베디드 하드웨어 실증

Orange Pi 5 환경에서 28M μLM이 첫 토큰 생성까지 45ms, 4개 단어 출력까지 55ms라는 초저지연 성능을 달성함을 입증했다.

핵심 아이디어 이해하기

기존의 온디바이스 AI는 100M~1B 규모의 모델조차 웨어러블 기기의 엄격한 전력 및 메모리 제약을 충족하기 어려웠고, 클라우드 의존 방식은 네트워크 왕복으로 인해 수 초의 지연 시간이 발생했다. 이는 대화형 비서의 즉각적인 반응성을 저해하는 핵심 요소다.

이 논문은 모델이 전체 응답을 생성할 필요 없이 사용자가 읽기 시작할 '첫 마디'만 담당하면 된다는 점에 착안했다. 8M~~30M 규모의 μLM은 Transformer 아키텍처를 극도로 압축하여 기기 내에서 밀리초 단위로 첫 4~~8개 단어를 뱉어낸다. 이 토큰들은 즉시 사용자 화면에 표시되며, 동시에 클라우드 모델의 프롬프트 접두사(Prefix)로 전달된다.

사용자가 첫 단어들을 읽는 동안 클라우드 모델은 백그라운드에서 연산을 수행하고 네트워크 지연을 상쇄하며 응답을 이어간다. 결과적으로 사용자는 클라우드 모델의 지연을 인지하지 못한 채 즉각적인 반응을 경험하게 되며, 이는 모델 크기와 성능 사이의 비대칭적 협업을 통해 달성된다.

관련 Figure

#1Diagram
사용자의 질문에 대해 온디바이스 μLM이 즉시 응답의 첫 부분을 생성하고, 그와 동시에 클라우드 LLM이 나머지 내용을 생성하여 지연 시간을 은폐하는 메커니즘을 설명한다. 이는 본 논문의 핵심 아이디어인 'Commit-and-Continue' 전략을 시각화한 것이다.
온디바이스 μLM과 클라우드 LLM 간의 협업 생성 프레임워크를 보여주는 다이어그램

방법론

μLM은 GPT 스타일의 디코더 전용 Transformer 구조를 채택했다. 메모리 사용량을 최소화하기 위해 Grouped-Query Attention(GQA)을 적용하고 입력 임베딩과 출력 헤드의 가중치를 공유(Weight Tying)했다. 모델은 8.8M에서 29.5M 파라미터 범위의 5가지 변체로 구성되며, RoPE(Rotary Positional Embeddings)와 SwiGLU 활성화 함수를 사용한다.

학습은 UltraChat, MOSS 등 대화형 데이터셋에서 1.485B 토큰으로 사전 학습한 후, Supervised Fine-tuning(SFT)을 거쳐 대화 시작부 생성에 최적화했다. 클라우드 모델과의 협업을 위해 클라우드 LLM에 'Continuator' 역할을 부여하는 인스트럭션 프롬프팅을 설계했다. 클라우드 모델은 μLM이 생성한 토큰 시퀀스를 입력받아 문법적으로 올바른 문장으로 완성하도록 유도된다.

오류 복구는 세 가지 전략으로 나뉜다. Explicit Correction은 'Correction:' 접두사를 붙여 직접 수정하고, Natural Recovery는 자연스러운 문장 전환을 시도하며, Humor-aware Recovery는 실수를 유머러스한 농담으로 승화시켜 대화의 흐름을 유지한다. [μLM 토큰 입력 → 클라우드 모델의 문맥 판단 → 복구 전략 선택 → 최종 응답 생성] 순으로 연산이 진행된다.

관련 Figure

#3Diagram
온디바이스 모델이 잘못된 정보를 생성했을 때 클라우드 모델이 이를 어떻게 수정하는지 보여준다. 사용자의 선호도가 가장 높았던 Natural Recovery와 Humor-aware Recovery의 실제 작동 방식을 확인할 수 있다.
세 가지 오류 복구 모드(Explicit, Natural, Humor-aware)의 예시

주요 결과

μLM-28M 모델은 70M~256M 규모의 기존 모델들과 비교했을 때 대화 시작부 생성 품질에서 대등하거나 우수한 성능을 보였다. 특히 Qwen3-235B 클라우드 모델과 협업했을 때, 단독 클라우드 모델 사용 시와 비교하여 사용자 선호도 조사에서 77.3%의 사례가 대등하거나 더 나은 것으로 평가받았다.

지연 시간 분석 결과, Orange Pi 5에서 28M 모델의 TTFT(Time To First Token)는 45ms로 나타났다. 이는 클라우드 모델만 사용할 때 발생하는 200ms~5000ms의 지연 시간과 비교해 획기적으로 낮은 수치다. 4개 단어를 생성하는 데 걸리는 총 시간은 55ms에 불과하여 사용자가 인지하는 대기 시간을 사실상 제거했다.

오류 복구 실험에서는 48개 단어를 Commit하는 것이 가장 효율적인 운영 지점임을 확인했다. 16개 단어 이상을 Commit할 경우 클라우드 모델의 복구 부담이 커져 오류율이 16.4%까지 상승했으나, 48개 단어 범위에서는 3.7~8.4% 수준의 낮은 오류율을 유지하며 안정적인 협업이 가능했다.

관련 Figure

#7Chart
사용자의 49.3%가 두 방식이 대등하다고 느꼈으며, 28%는 협업 방식을 더 선호했다. 이는 초소형 모델을 사용한 응답 시작이 실제 사용자 경험 측면에서 충분히 경쟁력이 있음을 증명한다.
단독 LLM 대비 μLM+LLM 협업 방식에 대한 사용자 선호도 결과

기술 상세

μLM 아키텍처는 Llama 3.2와 유사한 설계를 따르되 파라미터 수를 8M~30M 수준으로 극단적으로 줄였다. RMSNorm을 Self-Attention과 Feed-forward 레이어 이전에 배치하고, SwiGLU 공식에서 중간 차원을 (8/3)d 규칙에 따라 설정했다. KV 캐시 비용을 줄이기 위해 Key-Value 헤드 수를 쿼리 헤드 수보다 적게 설정하는 GQA를 적극 활용했다.

학습 과정에서는 FLOPS를 일정하게 유지하기 위해 모델 크기에 반비례하는 학습 토큰 수를 할당하는 Scaling Law를 적용했다. 데이터 전처리 단계에서는 HTML 태그 제거, 유니코드 정규화, 중복 턴 제거 등을 포함한 엄격한 클리닝 파이프라인을 구축하여 고품질의 1.485B 토큰 데이터셋을 확보했다.

클라우드 모델과의 Handoff를 위해 설계된 프롬프트는 클라우드 모델이 μLM의 출력을 평가하거나 반복하지 않고 즉시 이어가도록 강제한다. 이는 클라우드 모델의 기본 동작인 '응답(Respond)'을 '지속(Continue)'으로 재정의하는 기술적 차별점을 가진다. 또한 MinHash 기반의 중복 검사를 통해 학습 데이터와 평가 데이터 간의 오염을 방지했다.

관련 Figure

#4Chart
Hidden size와 Layer 수를 조절하여 8.79M부터 29.5M까지 구성된 5가지 모델의 세부 사양을 나타낸다. 모델 크기에 따른 성능 변화를 분석하는 기초 자료로 활용된다.
μLM 변체들의 파라미터 구성표

한계점

입력 프롬프트가 매우 길어질 경우(47토큰 이상) 성능이 다소 저하될 수 있으며, 수학이나 코딩과 같은 전문 도메인보다는 일상적인 대화 데이터에 최적화되어 있다. 현재는 단일 턴 응답 시작에 집중하고 있어 긴 문맥의 멀티턴 대화 관리 능력은 클라우드 모델에 의존한다.

실무 활용

스마트워치, 스마트 글래스 등 극도로 자원이 제한된 웨어러블 기기에서 실시간 AI 비서 서비스를 구현하는 데 즉시 적용 가능하다.

스마트워치에서의 즉각적인 메시지 답장 제안 및 생성
스마트 글래스 사용자의 질문에 대한 실시간 시각 정보 피드백 시작
저사양 스마트폰에서의 클라우드 기반 AI 기능 반응성 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

μLM(마이크로 언어 모델)On-device Inference(온디바이스 추론)Collaborative Generation(협업 생성)Latency Masking(지연 시간 은폐)Edge AI(엣지 AI)

마이크로 언어 모델을 활용한 즉각적인 응답 생성 기술

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

마이크로 언어 모델(μLM) 제품군 개발

비대칭 협업 생성 프레임워크 설계

세 가지 구조적 오류 복구 메커니즘

임베디드 하드웨어 실증

Orange Pi 5 환경에서 28M μLM이 첫 토큰 생성까지 45ms, 4개 단어 출력까지 55ms라는 초저지연 성능을 달성함을 입증했다.

핵심 아이디어 이해하기

관련 Figure

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

스마트워치, 스마트 글래스 등 극도로 자원이 제한된 웨어러블 기기에서 실시간 AI 비서 서비스를 구현하는 데 즉시 적용 가능하다.

스마트워치에서의 즉각적인 메시지 답장 제안 및 생성
스마트 글래스 사용자의 질문에 대한 실시간 시각 정보 피드백 시작
저사양 스마트폰에서의 클라우드 기반 AI 기능 반응성 개선

코드 공개 여부: 공개

코드 저장소 보기

키워드

μLM(마이크로 언어 모델)On-device Inference(온디바이스 추론)Collaborative Generation(협업 생성)Latency Masking(지연 시간 은폐)Edge AI(엣지 AI)

마이크로 언어 모델을 활용한 즉각적인 응답 생성 기술

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

마이크로 언어 모델을 활용한 즉각적인 응답 생성 기술

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드