왜 중요한가
기존 LLM 기반 음성 인식은 단어를 하나씩 순차적으로 생성해야 하므로 실시간 서비스에 적용하기에는 지연 시간이 너무 길었다. 이 논문은 음성 인식을 처음부터 만드는 것이 아니라 '틀린 부분을 고치는 편집' 과정으로 바꿔 정확도는 유지하면서 속도를 획기적으로 높였다.
핵심 기여
음성 인식을 조건부 텍스트 편집 작업으로 재구성
음성 인식을 처음부터 생성하는 대신, CTC 인코더가 생성한 초기 가설을 LLM이 수정하는 방식으로 정의하여 완전 병렬 추론을 구현했다.
인터리브드 패딩(Interleaved Padding) 전략 도입
입력 토큰 사이에 삽입 슬롯(ϵ)을 배치하여 시퀀스 전체를 밀어내지 않고도 국소적인 단어 삽입과 수정을 가능하게 했다.
양방향 어텐션을 활용한 비자기회귀 편집기
기존의 인과적(Causal) LLM 어텐션을 양방향으로 수정하고 LoRA 어댑터를 적용하여, 문맥 전체를 고려한 효율적인 텍스트 교정 성능을 확보했다.
핵심 아이디어 이해하기
기존 LLM 기반 음성 인식(ASR)은 Transformer의 자기회귀(Autoregressive) 특성을 활용해 단어를 하나씩 순차적으로 생성한다. 이는 높은 정확도를 보장하지만, 문장이 길어질수록 연산 시간이 선형적으로 증가하며 병렬 처리가 불가능해 실시간 서비스에서 큰 지연 시간을 초래한다.
NLE는 음성 인식을 '생성'이 아닌 '편집'의 관점에서 접근한다. 먼저 가벼운 CTC 인코더가 대략적인 텍스트 초안을 만들면, LLM은 이 초안의 틀린 부분을 한 번에 병렬로 수정한다. 이때 Transformer의 'Identity Mapping Bias'(입력을 그대로 복사하려는 성질)를 활용해, 맞는 부분은 유지하고 틀린 부분만 골라 고치도록 유도한다.
결과적으로 모든 토큰을 동시에 예측할 수 있게 되어, 기존 방식 대비 추론 속도가 최대 27배 빨라졌다. 이는 정확도 손실을 최소화하면서도 LLM의 강력한 언어 이해 능력을 실시간 음성 서비스에 이식할 수 있음을 의미한다.
방법론
시스템은 고정된 CTC 기반 음성 인코더와 LoRA로 튜닝된 양방향 LLM 편집기로 구성된다. 음성 인코더는 오디오를 입력받아 음향 임베딩(H)과 초기 텍스트 가설(x)을 생성하며, 이 가설은 LLM의 하위 단어 토크나이저로 재토큰화된다.
인터리브드 토큰 레이아웃을 사용하여 입력 시퀀스 x_tilde = (ϵ, x1, ϵ, x2, ..., ϵ, xN, ϵ)를 구성한다. 각 토큰 사이에 배치된 빈 슬롯(ϵ)은 [입력 토큰 → 위치 유지 또는 변경 연산 → 출력 토큰] 과정을 통해 전체 시퀀스의 이동 없이도 새로운 단어 삽입을 가능하게 하는 공간적 여유를 제공한다.
학습 시에는 CTC 손실 함수와 복사 정규화(Copying Regularization) 손실을 결합한 L = L_CTC + λL_CR을 사용한다. L_CR은 [입력 토큰과 출력 로짓의 교차 엔트로피 계산 → 동일 토큰 예측 유도 → 복사 편향 강화] 순서로 작동하여 모델이 불필요한 수정을 자제하고 초안의 정확한 부분을 보존하도록 강제한다.
주요 결과
Open ASR 리더보드에서 NLE++ 모델은 5.67%의 평균 단어 오류율(WER)을 기록하며 최상위권 성능을 입증했다. 특히 추론 효율성을 나타내는 RTFx 수치에서 1630을 달성하여, 정확도와 속도 사이의 파레토 최적(Pareto Frontier) 경계에 위치함을 확인했다.
단일 발화 추론 시나리오에서 NLE는 자기회귀(AR) 베이스라인 대비 27배의 속도 향상을 보였다. 배치 사이즈 96 환경에서도 AR 모델보다 4배 빠른 1722 RTFx를 기록하여 대규모 처리 환경에서도 우수한 효율성을 증명했다.
절제 연구(Ablation Study)를 통해 양방향 어텐션과 인터리브드 패딩이 성능 향상의 핵심임을 확인했다. 인과적 어텐션만 사용했을 때보다 양방향 문맥을 활용했을 때 검증 손실이 유의미하게 낮아졌으며, 패딩 전략이 시퀀스 내 토큰의 국소성을 유지하는 데 결정적인 역할을 했다.
실무 활용
높은 정확도와 초저지연 추론이 동시에 필요한 실시간 음성 인터페이스 구현에 즉시 활용 가능하다. 특히 기존 LLM의 가중치를 공유하면서 ASR 기능을 추가할 수 있어 리소스 효율적이다.
- 실시간 화상 회의 자막 생성 및 실시간 통역 시스템
- 지연 시간에 민감한 차량용 AI 음성 비서
- 대규모 콜센터 상담 음성 데이터의 고속 텍스트 변환 및 분석
기술 상세
NLE 아키텍처는 440M 파라미터의 Conformer 인코더와 1B 규모의 Granite 4.0 LLM을 결합한 구조다. 인코더의 중간 레이어(4, 8, 12, 16번) 출력을 연결(Concatenate)하여 다중 스케일 음향 정보를 추출하고, 1개 레이어의 Q-Former 프로젝터를 통해 LLM의 임베딩 공간으로 매핑한다.
LLM 편집기는 기존의 Causal Mask를 제거하여 모든 위치가 서로를 참조할 수 있는 Bidirectional Attention 구조로 변경되었다. 이는 수정 작업 시 앞뒤 문맥을 모두 고려해야 하는 편집 작업의 특성을 반영한 것이며, LoRA(Rank=128)를 통해 효율적으로 적응 학습되었다.
CTC 목적 함수는 입력 시퀀스와 타겟 텍스트 간의 가변 길이 매핑을 동적 프로그래밍으로 처리하여 명시적인 정렬(Alignment) 없이도 학습을 가능하게 한다. 추론 시에는 Greedy Decoding을 적용하여 중복 토큰을 제거하고 최종 텍스트를 산출하며, 필요에 따라 출력을 다시 입력으로 넣어 반복적인 정제(Iterative Refinement)를 수행할 수 있다.
한계점
출력 결과가 입력 가설과 크게 달라져야 하는 작업(예: 음성 질의응답)에서는 자기회귀 모델보다 유연성이 떨어진다. 또한 CTC 인코더와 LLM의 토크나이저가 다를 경우 GPU와 CPU 간의 데이터 전송으로 인한 미세한 오버헤드가 발생한다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.