LLM이란 무엇인가? — LLM 양자화 시리즈 Part 1

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대형 언어 모델은 뉴런처럼 작동하는 파라미터의 거대한 배열로 시작한다. 입력 텍스트는 토큰으로 변환되고 컨텍스트 윈도우라는 한계 안에서 처리되며, Transformer의 어텐션은 모든 토큰 간 관계를 한꺼번에 파악한다. 자회귀 생성으로 토큰 하나씩 출력되며, KV 캐시는 이전 계산을 재사용해 속도와 비용을 절감한다. 스케일링은 성능 향상과 함께 emergent behavior를 불러오지만, 그에 따른 데이터·컴퓨트 요구도 커진다는 점이 핵심이다. 이때 RAG 같은 보강 기술과 하드웨어 최적화가 추론 효율에 큰 영향을 미친다. 결국 대형 모델의 실용성은 파라미터 규모, 데이터 양, 그리고 추론/학습 인프라의 조합에 달려 있다.

섹션별 상세

LLM의 시작은 다층 신경망의 파라미터가 모여 만들어지는 거대한 모델에서 비롯된다. 입력은 가중치를 곱하고 합산하는 간단한 연산으로 출력으로 이어지며, 파라미터 수가 많아질수록 모델의 표현력이 커진다. 다층 구조의 파라미터 배열이 모델의 지능을 형성하고, 이를 저장하는 형식으로 16비트 부동소수점이 흔히 사용되므로 예를 들어 8B 파라미터 모델은 약 16GB의 메모리가 필요하다. 이로 인해 모델 파일의 크기와 VRAM 요구가 큰 제약으로 작용한다.

훈련은 수십억 개의 파라미터를 올바른 값으로 조정하는 과정이다. 모델에 텍스트를 보여 주고 다음 토큰을 예측하도록 학습시키며, 손실을 최소화하기 위해 파라미터를 미세하게 업데이트한다. 백프로파게이션으로 그래디언트를 계산하고 경사하강법으로 움직이며, 대형 모델일수록 데이터 양과 계산 시간이 폭증한다. 실제로 GPT-4의 학습 비용은 컴퓨트 비용만으로 대략 1억 달러를 넘는 것으로 보도된다. 이처럼 비용 문제는 대형 모델의 실용성에 결정적이다.

토큰화와 컨텍스트 윈도우의 한계가 모델의 입력 처리와 비용 구조를 좌우한다. 입력은 텍스트를 토큰으로 변환한 뒤 모델의 연산을 거쳐 다음 토큰의 확률 분포를 산출한다. 예를 들어 Gemma 4의 컨텍스트 윈도우는 262,144 토큰에 달하며 이는 약 180,000단어에 해당한다. 컨텍스트가 길수록 계산과 메모리 필요가 커지고, 가장 끝부분의 정보가 더 중요하게 작용하는 특성(‘lost in the middle’)도 나타난다. 이를 보완하는 기법으로 RAG가 존재한다.

Transformer와 어텐션 메커니즘은 입력의 모든 토큰 간 관계를 한 번에 계산해 성능을 끌어올린다. 이때 쿼리(Query), 키(Key), 값(Value)로 구성된 K/Q/V가 각 토큰의 중요도를 결정하며, 여러 어텐션 헤드가 서로 다른 관계를 포착한다. 순차 처리의 한계를 극복해 길고 복잡한 문맥도 파악 가능하게 만들지만, 긴 컨텍스트에서는 여전히 정보가 특정 위치에 편중될 수 있어 RAG 같은 검색 보강 기법이 필요하다.

추론은 토큰 하나씩 생성하는 autoregressive 루프이며, 매 단계마다 KV 캐시를 활용해 이전 토큰의 중간 계산을 재사용한다. 이로써 재계산으로 인한 지연과 비용을 크게 줄이고 더 긴 맥락도 다룰 수 있다. 그러나 컨텍스트 윈도우의 크기와 모델 파라미터 수가 커질수록 필요한 VRAM은 증가하고, 하드웨어 제약은 여전히 중요한 고려 대상이다. 결국 추론의 효율성은 KV 캐시 관리와 컨텍스트 활용의 최적화에 달려 있다.

실무 Takeaway

무엇: 파라미터 수 증가가 성능과 비용 사이의 트레이드오프를 만든다. 어떻게: 더 큰 모델은 더 많은 계산이 필요하고, 데이터도 더 많이 필요하다. 왜: 결과적으로 비용 최적화를 위한 하드웨어 설계와 양자화 같은 기술이 필수다.
무엇: 토큰화와 컨텍스트 윈도우의 한계가 입력 처리의 본질을 결정한다. 어떻게: 긴 맥락일수록 RAG와 KV 캐시 같은 기법이 요구된다. 왜: 핵심 정보가 컨텍스트의 시작/끝에 집중되거나 손실될 수 있기 때문이다.
무엇: 추론에서 KV 캐시의 역할은 크다. 어떻게: 각 토큰 생성 시 이전 계산을 재사용해 재연산을 피한다. 왜: 지연과 비용을 크게 줄이고 긴 대화에서도 효율을 높일 수 있다.

언급된 리소스

문서Illustrated Transformer

문서Transformer Explainer

Demollm-sampling

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

섹션별 상세

실무 Takeaway

무엇: 파라미터 수 증가가 성능과 비용 사이의 트레이드오프를 만든다. 어떻게: 더 큰 모델은 더 많은 계산이 필요하고, 데이터도 더 많이 필요하다. 왜: 결과적으로 비용 최적화를 위한 하드웨어 설계와 양자화 같은 기술이 필수다.
무엇: 토큰화와 컨텍스트 윈도우의 한계가 입력 처리의 본질을 결정한다. 어떻게: 긴 맥락일수록 RAG와 KV 캐시 같은 기법이 요구된다. 왜: 핵심 정보가 컨텍스트의 시작/끝에 집중되거나 손실될 수 있기 때문이다.
무엇: 추론에서 KV 캐시의 역할은 크다. 어떻게: 각 토큰 생성 시 이전 계산을 재사용해 재연산을 피한다. 왜: 지연과 비용을 크게 줄이고 긴 대화에서도 효율을 높일 수 있다.

언급된 리소스

문서Illustrated Transformer

문서Transformer Explainer

Demollm-sampling

LLM이란 무엇인가? — LLM 양자화 시리즈 Part 1

TL;DR

섹션별 상세

실무 Takeaway

언급된 리소스

LLM이란 무엇인가? — LLM 양자화 시리즈 Part 1

TL;DR

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드