핵심 요약
스마트폰이나 임베디드 장치 같은 엣지 환경에서 대형 언어 모델을 실행할 때 발생하는 극심한 전력 소모와 발열 문제를 물리 법칙에 기반한 정교한 모델링으로 해결했다. 기존의 단순한 통계적 접근을 넘어 반도체 물리 특성을 반영함으로써, 배터리 수명을 획기적으로 늘리면서도 추론 성능과 신뢰성을 동시에 확보할 수 있는 길을 열었다.
왜 중요한가
스마트폰이나 임베디드 장치 같은 엣지 환경에서 대형 언어 모델을 실행할 때 발생하는 극심한 전력 소모와 발열 문제를 물리 법칙에 기반한 정교한 모델링으로 해결했다. 기존의 단순한 통계적 접근을 넘어 반도체 물리 특성을 반영함으로써, 배터리 수명을 획기적으로 늘리면서도 추론 성능과 신뢰성을 동시에 확보할 수 있는 길을 열었다.
핵심 기여
물리 법칙 기반의 3대 엣지-워크로드 지표 도입
연산 유닛 활용도를 나타내는 DASI, 메모리 압박을 측정하는 CPQ, 반도체 누설 전류 물리 기반의 열 효율 지표 Φ를 도입했다. 모든 계수가 반도체 물리학으로 추적 가능한 통합 에너지 방정식을 구축하여 정적인 가중치 없이도 실시간 하드웨어 상태를 정확히 반영한다.
모멘텀 기반 파레토 가이드 시뮬레이티드 어닐링(PGSAM)
에너지, 지연 시간, 장치 저활용도를 동시에 최소화하는 다목적 최적화 알고리즘을 개발했다. 모멘텀 개념을 도입하여 복잡한 하드웨어 제약 조건 속에서도 지역 최적점(Local Minima)을 탈출하고 파레토 최적해에 수렴하도록 설계했다.
EAC/ARDE 추론 시간 선택 캐스케이드 및 CSVET 조기 종료
반복 샘플링된 결과물 중 최적의 답변을 선택하는 3단계 검증 파이프라인을 구축했다. 특히 남은 에너지 예산에 따라 검증 강도를 조절하는 CSVET 메커니즘을 통해 쉬운 질문에서는 에너지를 40-60% 절약하면서도 전체적인 정확도를 15.9%p 향상시켰다.
핵심 아이디어 이해하기
기존의 엣지 추론 최적화는 'NPU는 GPU보다 효율적이다'와 같은 단순하고 고정된 수치에 의존했다. 하지만 실제 딥러닝 연산은 데이터를 불러오는 과정(Memory-bound)과 실제 계산하는 과정(Compute-bound)의 특성이 극명하게 다르다. 예를 들어, LLM이 문장을 생성하는 Decode 단계는 데이터 전송량이 많아 연산 유닛이 대부분 노는 상태가 되는데, 이때 전력 소모가 큰 GPU를 사용하는 것은 매우 비효율적이다.
QEIL v2는 이 문제를 해결하기 위해 하드웨어의 물리적 한계선인 'Ridge point'와 작업의 '연산 강도(Arithmetic Intensity)'를 실시간으로 비교한다. Transformer의 각 레이어가 현재 장치에서 얼마나 많은 연산 유닛을 실제로 돌리는지(DASI)를 계산하고, 메모리 할당 이론과 반도체 누설 전류 법칙을 결합하여 현재 장치의 '진짜 에너지 비용'을 산출한다.
결과적으로 시스템은 연산이 집중되는 단계는 고성능 GPU에, 데이터 전송이 주가 되는 단계는 저전력 NPU나 CPU에 지능적으로 배분한다. 이는 마치 도로 상황과 차량의 연비를 실시간으로 계산해 가장 연료를 적게 쓰는 경로를 찾는 내비게이션과 같다. 이를 통해 하드웨어 자원의 낭비를 막고 엣지 기기의 한정된 자원 안에서 모델 성능을 극대화한다.
방법론
QEIL v2의 방법론은 네 가지 통합 단계로 구성된다. 첫 번째 단계는 물리 모델링 엔진으로, 하드웨어 사양(피크 연산 π, 메모리 대역폭 β, 열 설계 전력 TDP)과 모델 구조를 입력받아 DASI, CPQ, Φ 지표를 계산한다. DASI는 AI(연산 강도)를 ρ(Ridge point)로 나눈 값 [AI / (π/β)]을 통해 연산 유닛의 포화도를 측정하며, 1.0에 가까울수록 효율적임을 의미한다.
PGSAM(Pareto-Guided Simulated Annealing with Momentum) 단계에서는 디코더 레이어의 최적 배치를 결정한다. 에너지(f1), 병목 지연 시간(f2), 최소 DASI(f3)라는 세 가지 목표를 동시에 최소화한다. 이때 모멘텀 계수 μ=0.3을 사용하여 이전 단계의 에너지 개선량을 현재 수용 확률에 반영함으로써, 일시적으로 에너지가 증가하더라도 더 나은 전체 최적해를 찾기 위해 에너지 장벽을 넘도록 설계했다.
세 번째 단계는 보조 스테이지 라우팅으로, 연산 강도가 거의 0에 가까운 Embedding 및 LM Head 레이어를 메모리 용량이 허용하는 가장 저전력 장치(주로 NPU)로 자동 할당한다. 마지막 네 번째 단계는 추론 런타임으로, EAC/ARDE 전략을 통해 여러 후보 답변을 생성하고 구조적 필터링, 엔트로피 기반 필터링, 자기 검증, 교차 샘플 합의 과정을 거쳐 최적의 답변을 선별한다.
에너지 계산식 Estage는 [PTDP * (0.3 + 0.7 * DASI) * t / Φ * penalty_cpq]로 구성된다. 여기서 0.3은 유휴 전력 바닥을, 0.7 * DASI는 연산량에 비례하는 동적 전력을 의미하며, 이를 실행 시간 t와 곱해 에너지를 구한 뒤 온도 저하 지수 Φ로 나누어 발열에 따른 효율 저하를 보정한다. 마지막으로 메모리 압박에 따른 페널티를 곱해 최종 예상 소모 에너지를 산출한다.
관련 Figure

물리 모델링 엔진(Phase 1)부터 PGSAM 최적화(Phase 2), 보조 레이어 라우팅(Phase 3), 그리고 최종 추론 런타임(Phase 4)까지의 데이터 흐름을 보여준다. 각 단계가 어떻게 유기적으로 연결되어 에너지 효율과 정확도를 동시에 잡는지 시각적으로 설명한다.
QEIL v2의 4단계 전체 아키텍처 다이어그램
주요 결과
GPT-2(125M) 모델을 사용한 WikiText-103 벤치마크에서 QEIL v2는 표준 추론 대비 에너지를 75.6% 절감하면서도 정확도(pass@k)를 59.8%에서 75.7%로 크게 향상시켰다. 이는 이전 버전인 QEIL v1과 비교해도 에너지는 7.0% 더 적게 쓰면서 정확도는 5.2%p 더 높은 결과이다. 특히 지능적인 레이어 배치를 통해 파이프라인 지연 시간을 v1 대비 38.3% 단축하는 성과를 거두었다.
Llama-3.1-8B 모델에 4비트 양자화(RAMP)를 적용한 실험에서는 IPW(Intelligence Per Watt) 1.024를 기록하며, 엣지 오케스트레이션 시스템 중 최초로 마의 구간인 IPW=1.0 고지를 넘어섰다. 이는 양자화로 인해 줄어든 메모리 대역폭 요구사항을 물리 모델이 정확히 인지하고, 더 효율적인 저전력 장치로 작업을 재배치했기 때문에 가능했다.
안전성 측면에서도 뛰어난 성능을 보였다. 30분간의 지속적인 추론 실험에서 Φ 가이드 할당을 사용하지 않았을 때는 GPU 온도가 89도까지 치솟으며 47번의 서멀 스로틀링이 발생했으나, QEIL v2는 온도를 68도로 안정적으로 유지하며 스로틀링 발생 횟수를 0으로 만들었다. 또한 장치 장애 시나리오에서 200ms 이내에 작업을 재할당하여 데이터 손실 없이 100% 복구에 성공했다.
관련 Figure

QEIL v2가 표준 추론 및 v1 대비 훨씬 적은 전력을 소모하면서도 더 높은 정확도를 달성함을 보여준다. v2의 작동 지점이 그래프의 좌상단(최고 효율 영역)에 위치하여 다른 방식들을 압도(Strictly dominate)하고 있음을 증명한다.
전력 소모와 벤치마크 정확도 간의 파레토 프런티어 비교 차트
기술 상세
QEIL v2 아키텍처는 정적 휴리스틱을 완전히 제거하고 반도체 물리 법칙을 기반으로 한 런타임 적응형 모델로 전환했다. 핵심은 CMOS 누설 전류 물리 법칙에서 유도된 열 효율 지수 Φ이다. 이는 온도 상승에 따라 누설 전류가 지수적으로 증가하는 특성을 가우시안 형태의 감쇠 함수로 모델링하여, 장치가 뜨거워질수록 해당 장치에 할당되는 작업의 에너지 비용을 높게 측정함으로써 자연스럽게 부하를 분산시킨다.
최적화 알고리즘인 PGSAM은 가중 합산(Weighted-sum) 방식의 한계를 극복하기 위해 체비쇼프 스칼라화(Chebyshev Scalarization)를 채택했다. 이는 비볼록(Non-convex)한 파레토 프런티어 영역에서도 최적의 해를 찾을 수 있게 해주며, 특히 이종 장치 간의 불연속적인 성능 차이가 발생하는 엣지 환경에서 효과적이다. 상태 표현은 경계 벡터(Boundary vector) 방식을 사용하여 레이어의 연속성을 보장하고 장치 간 데이터 전송 오버헤드를 최소화했다.
추론 단계의 CSVET(Cascaded Self-Verification with Early Termination)은 정보 이론적 관점에서 설계되었다. 생성된 답변의 토큰 분포 엔트로피를 측정하여 모델의 확신도를 정량화하고, 누적된 에너지 소모량에 따라 조기 종료 임계값을 동적으로 조정한다. 이는 연산 자원을 정확도가 낮은 샘플에 낭비하지 않고, 유망한 후보에만 집중 투자하게 함으로써 전체적인 추론 효율성을 극대화하는 구조다.
한계점
본 논문은 현재 QEIL v2가 Transformer 아키텍처 기반의 모델에 최적화되어 있음을 명시하고 있으며, 확산 모델(Diffusion Models)이나 그래프 신경망(GNNs)과 같은 비-Transformer 구조에 대한 확장은 향후 과제로 남겨두었다. 또한 현재는 단일 기기 내의 이종 프로세서 오케스트레이션에 집중하고 있어, 여러 엣지 노드에 걸친 분산 추론 환경에서의 성능은 아직 검증되지 않았다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.