TL;DR
일반적인 many-shot ICL 연구는 비-추론 태스크에서 안정적 개선을 보이는 반면, reasoning 태스크에서는 비-추론 LLM에서 불안정하고 reasoning-oriented LLM에서만 향상이 나타난다. 본 연구는 CoT-ICL를 in-context test-time learning으로 재해석하고, 이해의 쉬움과 지식 진행의 매끄러운 흐름이라는 두 원칙으로 데모를 구성해야 한다고 제시한다. 이로써 긴 컨텍스트에서도 학습 신호를 구조화하고 추론 절차를 형성하는 방법을 마련한다.
왜 중요한가
일반적인 many-shot ICL 연구는 비-추론 태스크에서 안정적 개선을 보이는 반면, reasoning 태스크에서는 비-추론 LLM에서 불안정하고 reasoning-oriented LLM에서만 향상이 나타난다. 본 연구는 CoT-ICL를 in-context test-time learning으로 재해석하고, 이해의 쉬움과 지식 진행의 매끄러운 흐름이라는 두 원칙으로 데모를 구성해야 한다고 제시한다. 이로써 긴 컨텍스트에서도 학습 신호를 구조화하고 추론 절차를 형성하는 방법을 마련한다.
핵심 기여
Many-shot CoT-ICL의 스케일링 다이나믹스 분석
비추론 태스크에서 데모 수 증가에 따른 성능 향상이 지속되지만, reasoning 태스크의 경우 비-추론 LLM에서 불안정하고 reasoning-oriented LLM에서만 향상된다. 모델 타입과 태스크 간의 차이를 체계적으로 분석한다.
ICL의 패턴 매칭 관점 재해석
데모는 단순 입력-출력 매핑이 아니라 내부 문제해결 절차를 형성하는 지도 역할을 한다는 관점으로 CoT-ICL를 해석한다. 추론 절차 흡수의 직접적 증거를 제시한다.
CDS 도입 및 효과
Curvilinear Demonstration Selection(CDS)을 도입해 임베딩 공간에서 곡률을 최소화하는 순서를 구성한다. 수학/서사 추론에서 모델 간의 일반화 및 일관된 성능 향상을 보여준다.
이해의 용이성과 지식 진전의 매끄러움 원칙의 체계화
데모 구조 설계 시 두 원칙을 적용해 학습 흐름의 안정성과 재현성을 높이고, 다양한 임베딩 모델과 대상 LLM에서 일관된 개선을 달성한다.
핵심 아이디어 이해하기
출발점: 많은-shot ICL에서 비추론 태스크는 데이터 확대로 성능이 개선되지만, CoT-ICL은 비부터 시작하여 추론 절차를 형성하는 방식으로 작동하는지에 대해 불안정한 경향을 보인다. 이는 similarity 기반의 검색이 추론 절차와 일치하지 않기 때문이며, 단순 패턴 매칭으로는 해결되지 않는 문제임을 시사한다. 이 논문은 in-context test-time learning의 관점에서 데모를 구성하고, 두 가지 원칙(이해의 용이성과 지식 진행의 매끄러운 흐름)을 제시한다. 이로써 CoT-ICL의 학습 신호를 구조화하고, 곡률 기반의 CDS를 통해 데모의 순서를 최적화하여 추론 절차를 안정적으로 학습하게 한다. 결과적으로 CDS는 수학 및 서사 추론 태스크에서 모델 간의 일반화와 성능 향상을 지속적으로 보장한다. 첫째, 데모가 모델의 현재 능력 범위 내에서 이해될 수 있어야 한다(쉬움). 둘째, 연속된 데모 간의 개념적 전이가 매끄럽고 점진적이어야 한다(진행의 부드러움). 셋째, 곡률 최소화로 구성된 CDS 순서는 임베딩 공간상의 경로를 더 안정적으로 만들어 학습 신호의 전달을 개선한다. 넷째, 다양한 임베딩 모델과 대상 LLM에서 CDS의 이점이 지속적으로 나타나며, 원형 곡률 제약 하에서의 ablative 실험에서도 CDS의 우수성이 확인된다.
방법론
전체 연구 설계는 세 축으로 구성된다: (1) 작업 유형: non-reasoning vs. reasoning, (2) 모델 유형: 일반 instruction-tuned 모델 vs. explicit reasoning 모델, (3) ICL 구성: 전통적 ICL vs CoT-ICL, 그리고 긴 컨텍스트를 다루는 설정에서 n ≤ 128로 스케일링을 분석한다. CoT-ICL 프롬프트는 (xi, Ci, yi)의 삼중 구조를 가지며, 쿼리 x′에 대해 (C′, y′)를 생성한다. CoT-ICL의 맥락 길이 제한으로 인해 CoT 예시는 일반 ICL에 비해 훨씬 더 길고, 실제 스케일링 분석은 n ≤ 128에서 수행한다. 실험에 사용된 모델은 비추론 LLM(Llama-3.1/3.3, Qwen 계열)과 reasoning LLM(Qwen3-8B/14B, QwQ, DeepSeek-R1)을 포함하며, thinking 모드의 활성화 여부에 따라 thinking 토큰의 역할을 확인한다. 데모의 두 가지 정책은: (1) 두 가지 유형의 데모를 서로 비교하는 자체 생성(cr), 잘못된(cr wr) 혹은 첫 번째("first") 샘플링으로 구성된 세트, (2) self-generated CoT를 활용하는 CDS의 적용이다. (수식/알고리즘은 본문에 제시된 대로 곡률 θ 및 총 곡률 Θ(O)로 정의되며, CDS의 Edge 비용 DCDS(i, j) = δij + γij를 이용한 2-opt 기반의 경로 탐색으로 최적 순서를 근사한다.)
주요 결과
주요 결과는 세 가지로 요약된다. 1) 비추론 태스크에서 많은-shot ICL은 지속적인 개선을 보였고, reasoning LLM의 경우에만 CoT-ICL이 긍정적으로 작용하는 경향을 보였다. 2) similarity 기반 검색은 비추론 태스크에서 유효했고, 추론 태스크에서는 문제가 발생하여 가장 유사한 세트가 종종 비효율적이었다. 3) CDS는 수학 및 서사 추론에서 일관된 성능 향상을 가져왔고, 임베딩 모델과 대상 LLM의 변화에도 견고함을 보였다. 또한 CDS의 곡률 기반 정렬은 기존의 high-curvature 순서보다 우수한 성능을 보였으며, 곡률-성능 상관관계는 세 태스크에서 음의 상관관계(r ≈ -0.5대 초반)를 나타냈다. 실험 결과는 geometry, number_theory, DetectiveQA 등 다양한 수학/서사 태스크에서 CDS의 이점을 입증하며, CDS가 제시한 두 원칙이 실제 데모 설계에 효과적임을 확인한다.
관련 Figure

핵심 기여인 ‘in-context test-time learning’ 관점을 시각화하며 CDS의 배치 아이디어를 직관적으로 보강한다.
Figure 1은 CoT-ICL의 in-context test-time 학습으로의 재해석과 CDS의 아이디어를 시각적으로 보여준다.

비추론과 추론 태스크 간의 스케일링 차이가 분명히 나타나며, 이는 후속 분석의 필요성을 지지한다.
Figure 2는 태스크 타입 간의 스케일링 차이를 보여주는 그래프들로, 비추론 태스크 대비 reasoning 태스크의 스케일링 양상을 나타낸다.

추론 능력이 내재된 모델에서만 증가 경향이 뚜렷하다는 점을 시각적으로 확인한다.
Figure 3은 수학 추론 태스크에서 모델 클래스 간의 스케일링 차이를 보여준다.

추론형 모델에서 CoT-ICL의 이점이 커지는 경향을 시각화한다.
Figure 4는 Qwen 계열에서 추론 LLM이 더 많은 CoT 예시를 통해 일관된 성능 향상을 보임을 보여준다.

추론 태스크에서 similarity 기반 검색이 효과적이지 않음을 시각적으로 보여 준다.
Figure 5는 원형, 유사도 기반 선택(sim), 비유사도 선택(dis)의 세트에 따른 성능 차이를 다섯 LLM에서 비교한다.

CoT-ICL의 순서 의존성이 커지며, CDS의 필요성을 보강한다.
Figure 6은 무작위 순서의 데모에 따른 분산을 보여준다. 추론 태스크에서 순서의 영향이 커진다.

self-generated CoT가 도메인에 따라 더 잘 작동하며, 도메인 일반화 가능성을 시사한다.
Figure 7은 self-generated CoT의 성능 차이를 Cr/Wr/First로 분석한 결과를 보여준다.

곡률-성능 상관관계가 음의 방향으로 나타나며 CDS가 더 안정적임을 뒷받침한다.
Figure 8은 CDS의 안정성과 순서의 매끄러움을 정량화한 결과를 보여준다.
기술 상세
아키텍처: CoT-ICL 프롬프트의 구성은 (xi, Ci, yi) 삼중으로, x′에 대해 (C′, y′)를 생성한다. 컨텍스트 길이 제한으로 n은 128 이하에서 스케일링을 분석한다. 핵심 알고리즘은 CDS로, 각 데모를 임베딩 벡터 ei로 표현하고, 인접 데모 간의 곡률을 기반으로 한 경로를 최소화한다. CDS의 edge 비용은 DCDS(i, j) = δij + γij로 정의되며, 2-opt 로 최적 경로를 근사한다. 평가 지표로는 주로 수치 정확도와 곡률 기반의 순서 안정성을 사용한다. 실험 설정은 비추론/추론형 LLM, 다양한 수학/서사 태스크(GSM8K, MATH, DetectiveQA 등)에서 수행되었고, thinking 모드의 활성화 여부에 따라 코어 성능이 달라진다. 기저 이론으로는 in-context test-time learning 관점이 채택되며, 데모의 이해도(I)와 학습 진행의 매끄러움(S) 사이의 트레이드오프를 실험적으로 분석한다. CDS의 안정성은 high-curvature 대조군과의 ablation에서 확인되며, 곡률 기반 정렬의 효과를 계량화하는 실험도 포함된다.
실무 활용
긴 컨텍스트를 다루는 추론형 LLM에서 CoT-ICL의 안정성과 성능을 개선하기 위한 실무적 프레임워크로 CDS를 제안한다. 이해의 용이성과 지식 진행의 매끄러움을 바탕으로 데모를 구성하면 추론 프로시저의 재사용성을 높이고, 다양한 모델 및 도메인에서 재현성을 확보할 수 있다.
- 수학/과학 문제 해결 시스템에서 CoT-ICL 데모를 곡선적으로 배치해 학생의 문제 해결 전략을 시범 보이도록 하는 교육 도구
- 법률/의료 분야의 장문 서사 컨텍스트에 대해 체계적 추론 절차를 필요로 하는 질의응답 시스템 개선
- 장기 컨텍스트를 필요로 하는 코드 분석 및 버그 수정 도구에서 연산 절차를 점진적으로 학습시키는 인터랙티브 에이전트
- 다중 도메인 수업용 챗봇에서 문제 해결 절차를 순차적으로 가르치기 위한 강의 보조 도구
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.