지도 학습 기반 미세 조정(SFT) 대 강화 학습(RL): 대형 언어 모델 사후 학습 방법론 연구

LLM 성능의 핵심인 사후 학습 기법들을 체계적으로 비교하고, 두 방식이 수학적으로 어떻게 연결되는지 규명함. 최신 연구 트렌드인 하이브리드 학습과 모델 생성 데이터 활용에 대한 실질적인 통찰을 제공함.

핵심 요약

왜 중요한가

핵심 기여

SFT와 RL의 체계적 비교 분석

알고리즘 구조, 데이터 요구사항, 목적 함수 관점에서 두 패러다임의 차이와 공통점을 정리함.

통합 목적 프레임워크 제시

SFT를 보상 함수가 특수한 형태인 RL의 일종으로 해석하는 수학적 기반을 마련하여 두 기법의 융합 가능성을 이론적으로 뒷받침함.

2023-2025년 사후 학습 트렌드 도출

순수 SFT에서 SFT-RL 하이브리드 방식으로의 급격한 전환과 API 데이터에서 모델 생성 데이터로의 소스 변화를 수치로 입증함.

핵심 아이디어 이해하기

LLM 학습의 기초인 Next Token Prediction은 전문가의 텍스트를 모방하는 SFT의 핵심임. 하지만 모델이 학습 데이터 범위를 벗어난 답변을 생성하기 시작하면 오류가 누적되는 Distribution Shift 문제가 발생함. 이를 해결하기 위해 RL은 모델이 스스로 생성한 결과물에 대해 외부 보상을 주어 정답에 가까운 행동을 강화함. 이 논문은 SFT가 사실상 정답과 일치할 때만 보상을 주는 '매우 희소한 보상'을 가진 RL임을 수학적으로 증명함. 결과적으로 두 기법은 서로 다른 도구가 아니라, 보상의 형태와 탐색의 정도를 조절하는 하나의 연속적인 최적화 과정으로 이해될 수 있음.

방법론

SFT와 RL의 목적 함수를 명시적으로 정의하고 이들의 그래디언트(Gradient) 관계를 분석함. SFT 목적 함수는 [입력 프롬프트 x와 정답 y를 입력으로] -> [모델이 y를 생성할 확률의 로그값에 음수를 취하는 연산을 수행해] -> [손실값을 얻고] -> [이 값을 줄임으로써 전문가의 답변을 모방하게 함]. RL 목적 함수는 [모델의 생성물 y를 입력으로] -> [보상 함수 r을 통해 점수를 매기는 연산을 수행해] -> [기대 보상을 얻고] -> [이 값을 최대화하여 선호되는 답변을 생성하도록 유도함]. 두 방식을 통합한 목적 함수는 KL Divergence 정규화 항을 포함하며, 이는 [현재 정책과 기준 정책의 분포 차이를 입력으로] -> [로그 확률 차이를 계산하는 연산을 수행해] -> [페널티 값을 얻고] -> [모델이 기존 지식에서 너무 멀어지지 않게 제약함].

주요 결과

2023년부터 2025년까지의 논문 분석 결과, 하이브리드 학습 방식(SFT+RL)을 채택한 연구 비중이 20%에서 70.6%로 급증함. 반면 순수 SFT 연구는 73.3%에서 19.1%로 크게 감소함. 데이터 소스 측면에서는 GPT-4와 같은 상용 API 모델을 통한 라벨링 의존도가 32.2%에서 11.1%로 줄어든 반면, 오픈소스 모델을 활용한 자체 생성 데이터 비중은 12.2%에서 25.0%로 두 배 이상 증가함. 도메인별로는 수학 관련 연구가 절대적인 수치에서 가장 큰 폭으로 성장하며 사후 학습의 핵심 시험대로 부상함.

실무 활용

추론 능력이 중요한 수학, 코드, 에이전트 작업에서는 RL 기반의 사후 학습이 필수적임. 초기 모델 구축 시에는 수만 개의 일반 데이터보다 1,000개 내외의 고품질 전문가 데이터를 활용한 SFT가 비용 대비 효율이 높음.

수학 및 논리 추론 모델 개발
자율 에이전트의 행동 계획 최적화
코드 생성 및 편집 모델의 정확도 향상

기술 상세

SFT는 Behavior Cloning과 유사하게 전문가의 궤적을 복제하지만, 학습 시 보지 못한 상태에 직면할 때 발생하는 복합 오류에 취약함. RL은 온라인 롤아웃을 통해 모델이 직접 생성한 데이터를 학습에 활용함으로써 이러한 분포 불일치 문제를 완화함. 최근의 GRPO(Group Relative Policy Optimization)와 같은 기법은 별도의 가치 네트워크 없이 그룹 내 상대적 보상을 활용하여 학습 효율성을 높임. 하이브리드 파이프라인은 SFT로 기초 지식을 주입한 후 RL로 세부적인 추론 능력을 정렬하는 방식을 취하며, 최근에는 두 목적 함수를 동시에 최적화하는 단일 단계 학습법이 주목받고 있음.

한계점

논문 필터링 전략에 따른 근사 편향이 존재할 수 있으며, 텍스트 중심의 연구에 집중하여 멀티모달 분야의 특수성을 충분히 반영하지 못했을 가능성이 있음.

키워드

SFT(지도 미세 조정)RL(강화 학습)RLHF(인간 피드백 기반 강화 학습)DPO(직접 선호도 최적화)CoT(사고의 사슬)Alignment(정렬)

지도 학습 기반 미세 조정(SFT) 대 강화 학습(RL): 대형 언어 모델 사후 학습 방법론 연구

핵심 요약

왜 중요한가

핵심 기여

SFT와 RL의 체계적 비교 분석

알고리즘 구조, 데이터 요구사항, 목적 함수 관점에서 두 패러다임의 차이와 공통점을 정리함.

통합 목적 프레임워크 제시

SFT를 보상 함수가 특수한 형태인 RL의 일종으로 해석하는 수학적 기반을 마련하여 두 기법의 융합 가능성을 이론적으로 뒷받침함.

2023-2025년 사후 학습 트렌드 도출

순수 SFT에서 SFT-RL 하이브리드 방식으로의 급격한 전환과 API 데이터에서 모델 생성 데이터로의 소스 변화를 수치로 입증함.

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

수학 및 논리 추론 모델 개발
자율 에이전트의 행동 계획 최적화
코드 생성 및 편집 모델의 정확도 향상

기술 상세

한계점

키워드

SFT(지도 미세 조정)RL(강화 학습)RLHF(인간 피드백 기반 강화 학습)DPO(직접 선호도 최적화)CoT(사고의 사슬)Alignment(정렬)

지도 학습 기반 미세 조정(SFT) 대 강화 학습(RL): 대형 언어 모델 사후 학습 방법론 연구

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

지도 학습 기반 미세 조정(SFT) 대 강화 학습(RL): 대형 언어 모델 사후 학습 방법론 연구

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글