핵심 요약
LLM 학습에 사용되는 방대한 데이터 중 어떤 데이터가 모델 성능에 기여하는지 파악하는 것은 중요하지만, 기존 방식은 계산 비용이 너무 높았습니다. For-Value는 복잡한 역전파 과정 없이 단 한 번의 순방향 추론만으로 데이터의 가치를 정확히 측정하여 학습 효율을 극대화합니다.
왜 중요한가
LLM 학습에 사용되는 방대한 데이터 중 어떤 데이터가 모델 성능에 기여하는지 파악하는 것은 중요하지만, 기존 방식은 계산 비용이 너무 높았습니다. For-Value는 복잡한 역전파 과정 없이 단 한 번의 순방향 추론만으로 데이터의 가치를 정확히 측정하여 학습 효율을 극대화합니다.
관련 Figure

For-Value가 기존의 Hessian 기반 방식(HyperINF 등)보다 성능이 높으면서도, 1차 그래디언트 방식(Hessian-free)보다 훨씬 빠른 효율성을 동시에 달성함을 보여줍니다. 우상단에 위치할수록 우수한 모델임을 의미합니다.
다양한 데이터 가치 평가 방법론의 효율성 대비 성능 비교 차트
핵심 기여
순방향 전용 데이터 가치 평가 프레임워크
기존의 그래디언트 기반 방식과 달리 역전파(Backpropagation) 과정 없이 순방향 패스(Forward Pass)만으로 데이터의 영향력을 계산하는 For-Value를 제안함.
폐쇄형 데이터 가치 근사 수식 도출
마지막 레이어의 히든 표현(Hidden Representation)과 예측 오차(Prediction Error) 사이의 정렬(Alignment)을 통해 데이터 가치를 산출하는 이론적 근거와 폐쇄형 수식을 증명함.
대규모 배치 병렬화 및 확장성 확보
그래디언트 저장이 필요 없어 메모리 효율이 높으며, 대규모 배치 처리가 가능해져 72B 규모의 거대 모델에서도 실시간에 가까운 데이터 평가가 가능함.
핵심 아이디어 이해하기
기존의 데이터 가치 평가는 특정 데이터가 모델의 가중치 업데이트(Gradient)에 미치는 영향을 추적하기 위해 Hessian 행렬 계산이나 반복적인 재학습이 필요했습니다. 이는 파라미터가 수십억 개인 LLM에서 연산량과 메모리 요구량이 기하급수적으로 증가하는 문제를 야기합니다.
For-Value는 모델의 마지막 레이어에서 발생하는 정보에 주목합니다. 딥러닝 모델이 충분히 학습되었다면(Unconstrained Features 가정), 특정 데이터의 영향력은 그 데이터가 생성한 마지막 히든 상태(Embedding)와 실제 정답과의 차이인 예측 오차(Error)의 조합으로 표현될 수 있습니다. 즉, 가중치를 직접 수정해보지 않고도 '현재 모델이 이 데이터를 얼마나 틀리게 보고 있으며, 그 특징이 평가 데이터와 얼마나 유사한가'를 측정하는 것만으로도 충분하다는 원리입니다.
결과적으로 복잡한 미분 계산 없이 행렬 곱셈만으로 데이터 점수를 매길 수 있게 되었습니다. 이는 기존 방식 대비 연산 속도를 수 초 단위로 단축시키면서도, 모델 성능에 악영향을 주는 오답 데이터를 걸러내는 정확도는 유지하거나 오히려 상회하는 결과를 보여줍니다.
방법론
For-Value는 훈련 데이터와 평가 데이터 간의 영향력을 측정하기 위해 마지막 레이어의 그래디언트를 활용한 폐쇄형 수식을 사용합니다. [훈련 데이터의 히든 상태와 예측 오차 벡터를 입력으로] → [평가 데이터의 대응되는 벡터들과 내적 연산을 수행하여] → [영향력 점수(Influence Score)를 얻고] → [이 값이 클수록 해당 훈련 데이터가 모델 성능 향상에 기여도가 높음을 의미]합니다.
대규모 어휘 사전(|V|)으로 인한 연산 부하를 줄이기 위해 Sparse Matrix Similarity 기법을 도입합니다. [전체 어휘 대신 배치 내에 등장한 유효 토큰들만 선택하여] → [예측 오차 벡터를 희소 행렬 형태로 재구성한 뒤] → [히든 상태 행렬과 곱셈을 수행하여] → [메모리 사용량을 O(|V|d)에서 O(|V_hat|d)로 절감]합니다.
전체 알고리즘은 Algorithm 1에 정의된 대로 진행됩니다. 먼저 평가 데이터셋에 대해 1회 추론을 수행하여 기준 벡터를 확보합니다. 이후 훈련 데이터셋을 배치 단위로 순방향 추론하며 히든 상태와 소프트맥스 확률값을 추출합니다. 추출된 값들을 앞서 정의한 폐쇄형 수식에 대입하여 각 샘플의 가치 점수를 산출하고, 이를 내림차순으로 정렬하여 고가치 데이터를 선별합니다.
관련 Figure

훈련 데이터와 평가 데이터를 백본 모델에 통과시켜 히든 상태와 예측 오차(alpha)를 추출한 뒤, 내적 연산을 통해 최종 점수를 계산하고 랭킹을 매기는 과정을 시각화했습니다. 역전파 화살표가 없는 순방향 전용 구조가 핵심입니다.
For-Value의 전체 파이프라인 다이어그램
주요 결과
LLM(Llama-2-13B, Qwen-2.5-1.5B) 실험 결과, 문장 변환 및 수학 문제 해결 태스크에서 For-Value는 Hessian-free나 DataInf 같은 기존 그래디언트 기반 베이스라인과 대등하거나 더 높은 AUC(최대 1.000) 및 Recall 성능을 기록했습니다. 특히 Qwen-2.5-1.5B 모델의 수학 문제 태스크에서 Recall 성능을 기존 대비 6% 이상 개선했습니다.
VLM(Qwen2.5-VL-3B, Llama-3.2-11B)을 이용한 이미지-텍스트 생성 실험에서도 우수한 성능을 보였습니다. 잘못된 라벨이 붙은 데이터를 탐지하는 실험에서 Llama-3.2-11B 모델 기준 0.995 이상의 AUC를 기록하며 오답 데이터를 완벽에 가깝게 식별해냈습니다.
효율성 측면에서 For-Value는 압도적인 우위를 점했습니다. 32B 모델 기준 기존 방식이 약 6시간 소요되던 작업을 단 0.3~0.5시간(약 300초 내외) 만에 완료했습니다. 모델 크기가 1.5B에서 72B로 커지더라도 실행 시간이 수백 초 수준에서 안정적으로 유지되는 선형적 확장성을 입증했습니다.
관련 Figure

1.5B에서 72B까지 모델 파라미터가 급격히 증가함에도 불구하고, For-Value의 계산 시간은 수백 초 내외에서 완만하게 증가하여 뛰어난 확장성을 입증합니다.
모델 크기 증가에 따른 For-Value의 실행 시간 변화 그래프
기술 상세
본 연구는 'Unconstrained Feature Assumption'을 바탕으로 합니다. 이는 충분히 표현력이 좋은 신경망이 아키텍처의 제약 없이 최적의 히든 임베딩을 생성할 수 있다는 가정으로, 이를 통해 복잡한 전체 파라미터 그래디언트 대신 마지막 레이어의 그래디언트만으로도 데이터의 영향력을 충분히 근사할 수 있음을 이론적으로 증명했습니다.
수학적으로 데이터 가치는 훈련 샘플과 평가 샘플 간의 히든 표현 정렬과 토큰 수준의 예측 오차 유사도의 곱으로 정의됩니다. For-Value는 이를 행렬 연산으로 최적화하여, 역전파를 통해 각 파라미터의 변화량을 일일이 계산해야 했던 기존 Influence Function의 시간 복잡도를 획기적으로 낮추었습니다.
구현 측면에서는 LoRA와 같은 파라미터 효율적 미세 조정(PEFT) 환경에서도 잘 작동하도록 설계되었습니다. 특히 VLM과 같이 이미지와 텍스트가 혼합된 멀티모달 환경에서도 동일한 순방향 전용 로직이 유효함을 실험적으로 확인하여 범용성을 확보했습니다.
한계점
본 방법론은 파인튜닝 단계의 데이터 가치 평가에 최적화되어 있으며, Unconstrained Feature 가정이 성립하기 어려운 사전 학습(Pre-training) 초기 단계의 데이터 선택에는 직접 적용하기 어려울 수 있습니다. 또한 학습 과정 중에 데이터의 가치가 변하는 동적인 특성을 반영하는 단계별 데이터 선택 기능은 향후 과제로 남아 있습니다.
실무 활용
For-Value는 대규모 모델 학습 시 데이터 정제 및 선별 과정을 획기적으로 단축시킬 수 있는 실무적인 도구입니다.
- 파인튜닝 전 수백만 개의 데이터셋에서 모델 성능에 가장 도움이 되는 고품질 샘플 5~10% 추출
- 멀티모달 데이터셋 내에서 잘못된 캡션이 달린 이미지(Mislabeled Data) 자동 필터링
- 특정 도메인(의료, 법률 등) 태스크에 가장 영향력이 큰 훈련 사례를 찾아내어 모델 편향 진단
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.