삼성 갤럭시 S24에서 MobileNetV2 100회 추론 벤치마크 결과 공유

핵심 요약

삼성 갤럭시 S24의 NPU에서 MobileNetV2를 100회 실행하여 콜드 스타트 지연과 중앙값 기반 벤치마킹의 중요성을 데이터로 입증했다.

배경

Qualcomm AI Hub를 통해 컴파일된 MobileNetV2를 갤럭시 S24 실기기에서 100회 프로파일링하여 실제 추론 성능과 지연 요인을 분석했다.

의미 / 영향

모바일 NPU 환경에서 모델 성능을 평가할 때 하드웨어 특유의 초기 지연과 변동성을 고려한 통계적 접근이 필수적임을 시사한다.

커뮤니티 반응

실제 하드웨어에서의 상세한 프로파일링 데이터와 통계적 접근 방식에 대해 긍정적인 반응이 예상된다.

주요 논점

01찬성다수

벤치마크 시 콜드 스타트 제외와 중앙값 사용이 하드웨어 성능 평가의 표준이 되어야 한다.

합의점 vs 논쟁점

합의점

콜드 스타트는 모델 성능이 아닌 하드웨어 초기화 문제이다.
중앙값이 평균보다 모바일 환경의 성능 지표로 적합하다.

실용적 조언

벤치마크 시 첫 2회 실행 데이터는 무시할 것
N=11 또는 21회 실행 후 중앙값을 최종 성능 지표로 취할 것

전문가 의견

NPU 캐시 초기화가 초기 지연의 핵심 원인이며, 이를 배제하지 않은 벤치마크는 실제 성능을 왜곡한다.

언급된 도구

Qualcomm AI Hub추천

모바일 NPU용 모델 컴파일 및 최적화

섹션별 상세

콜드 스타트(Cold-start) 현상에 대한 분석이다. 첫 번째 실행 속도는 2.689ms로 중앙값보다 7.3배 느리게 나타났으며, 이는 모델 자체의 속도 문제가 아닌 NPU 캐시 초기화 때문임이 확인됐다. 세 번째 실행부터 수치가 안정화되므로 벤치마크 시 초기 실행값 제외가 필수적이다.

평균값(Mean)과 중앙값(Median)의 통계적 차이를 다룬다. 이상치(Outlier)로 인해 평균이 중앙값보다 약 1.5% 높게 측정되었으며, 발열이 심한 대형 모델의 경우 이 격차가 5-15%까지 벌어질 수 있다. 성능 결정(Gate decision) 시에는 이상치에 강한 중앙값이 더 신뢰할 수 있는 지표이다.

실무적인 해결책으로 'Median-of-N Gating' 전략을 제시한다. 초기 2회 실행을 제외하고 N번(릴리스 시 21번 권장) 실행한 뒤 중앙값을 기준으로 합격/불합격을 판정하는 방식이다. 이를 통해 하드웨어 변동성에 대응하는 결정론적인 성능 검증이 가능해진다.

ResNet50 모델에 대한 추가 벤치마크 결과도 포함됐다. 25.6M 파라미터 규모의 ResNet50은 동일 기기에서 중앙값 1.403ms, 피크 메모리 236.6MB를 기록했다. 모든 결과는 Ed25519와 SHA-256으로 서명된 증거 번들로 관리되어 데이터의 무결성을 보장한다.

실무 Takeaway

NPU 추론 시 첫 실행(Cold-start)은 캐시 초기화로 인해 중앙값 대비 7배 이상 느릴 수 있다.
벤치마크 신뢰도를 위해 초기 2회 실행 데이터는 반드시 제외해야 한다.
성능 지표로 평균값 대신 이상치에 강한 중앙값(Median)을 사용해야 한다.
정확한 성능 검증을 위해 'Median-of-N' 방식의 게이팅 전략이 유효하다.

언급된 리소스

문서Full writeup with methodology