단순 속도보다 중요한 지표: 유효 초당 토큰 수(eTPS) 제안

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

단순한 생성 속도(TPS) 대신 답변의 정확도와 수정 횟수를 반영한 '유효 초당 토큰 수(eTPS)'라는 새로운 성능 지표를 제안한다.

배경

LLM 성능 평가 시 하드웨어의 원시 속도(TPS)에만 집착하는 경향을 비판하며, 실제 작업 완료 효율을 측정하기 위한 새로운 메트릭인 eTPS의 필요성과 실험 결과를 공유했다.

의미 / 영향

이 토론은 LLM 성능 평가의 패러다임이 하드웨어 중심의 '처리량'에서 사용자 중심의 '해결 효율'로 이동해야 함을 시사한다. 커뮤니티는 특히 소형 모델의 속도 경쟁이 실제 업무 생산성 향상으로 이어지지 않을 수 있다는 점에 공감하고 있다.

커뮤니티 반응

작성자가 제안한 새로운 지표에 대해 대체로 흥미롭다는 반응이며, 특히 오답에 대한 페널티 부여 방식과 하드웨어 정규화 여부에 대해 활발한 의견 교환이 이루어지고 있다.

주요 논점

01찬성다수

단순 TPS는 마케팅 용도로 변질되었으며, 실제 사용자 경험을 반영하는 eTPS 같은 지표가 표준이 되어야 한다.

02중립분열

개념은 좋으나 인간의 주관적 채점 방식을 어떻게 자동화하고 객관화할 것인지가 관건이다.

합의점 vs 논쟁점

합의점

현재의 TPS 지표만으로는 모델의 실질적인 유용성을 판단하기에 부족하다.
코드 생성과 같이 결과값이 명확한 분야에서 먼저 이 지표를 검증할 필요가 있다.

논쟁점

자신 있게 거짓말을 하는 모델과 단순히 모호한 답변을 하는 모델에 대해 차등적인 페널티를 어떻게 적용할 것인가.
하드웨어 성능 차이를 공식 자체에 포함할 것인지, 아니면 별도 항목으로 보고할 것인가.

실용적 조언

모델 선택 시 벤치마크의 TPS 수치만 보지 말고, 실제 워크플로에서 정답을 내놓기까지 걸리는 전체 시간을 직접 측정하라.
소형 모델을 사용할 때는 속도 이득이 수정 작업으로 인해 상쇄되지 않는지 eTPS 관점에서 검토하라.

섹션별 상세

원시 TPS는 답변이 화면에 나타나는 속도만 측정할 뿐, 실제 사용 가능한 답변을 얻기까지의 시간을 반영하지 못한다. 환각을 일으키거나 문맥을 잊어버려 여러 번의 수정이 필요한 빠른 모델은, 한 번에 정확한 답을 내놓는 느린 모델보다 실질적인 생산성이 낮다. 따라서 속도와 품질을 동시에 고려하는 통합적인 평가 방식이 요구된다.

eTPS(Effective Tokens Per Second)는 최종 승인된 출력물을 답변 도달 과정의 청결도로 가중치를 두어 총 시간으로 나누는 방식으로 작동한다. 첫 번째 시도에서 정답을 맞히면 가장 높은 점수를 부여하고, 수정 루프나 환각이 발생할수록 점수를 차감하며 오답일 경우 0점을 부여한다. 이는 단순 처리량이 아닌 실제 문제 해결 속도를 정량화하려는 시도이다.

RTX 5060 노트북 환경에서 Gemma와 Qwen 모델을 대상으로 실험한 결과, 원시 TPS와 eTPS 사이에 큰 괴리가 확인됐다. Qwen 3.5 0.8B 모델은 173.1 TPS라는 압도적인 속도를 기록했으나, 답변의 불완전함으로 인해 eTPS는 86.57로 급락했다. 반면 Gemma 4.6B 모델은 53.2 TPS의 속도를 거의 그대로 eTPS(53.18)로 유지하며 높은 신뢰성을 보였다.

현재 eTPS v0.1 단계에서는 점수 산정에 인간의 주관적 판단이 개입된다는 한계가 존재한다. 단순한 사실 오류와 명확화가 필요한 질문 사이의 경계가 모호하기 때문에, 향후에는 객관적인 통과/실패 기준이 있는 코드 생성 분야를 중심으로 벤치마크를 확장할 계획이다. 또한 시스템 프롬프트 로깅을 의무화하여 지표 조작 가능성을 방지하고자 한다.

실무 Takeaway

LLM의 진정한 성능은 단순한 토큰 생성 속도가 아니라, 수정 없이 정확한 답변에 도달하는 '유효 속도'로 평가해야 한다.
eTPS 지표를 적용하면 원시 속도가 빠른 소형 모델보다 속도는 느려도 정확도가 높은 대형/최적화 모델이 더 높은 평가를 받을 수 있다.
성능 측정 시 하드웨어 사양(예: RTX 5060, VRAM 용량)을 반드시 명시해야 하며, eTPS는 하드웨어 간 직접 비교보다는 특정 시스템 내 효율 측정에 적합하다.

언급된 도구

RTX 5060 Laptop중립

실험에 사용된 하드웨어 환경