Yale/UNC-CH 지구물리학적 파형 역산 경진대회 1위 솔루션 분석

Vision Transformer와 RoPE 아키텍처, 그리고 반복적 의사 라벨링과 대규모 합성 데이터 증강을 통해 지구물리학적 파형 역산 문제를 해결한 1위 솔루션이다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

단순한 모델 확장이 아닌 RoPE와 같은 적합한 아키텍처 선택과 대규모 합성 데이터 생성, 그리고 반복적 의사 라벨링이 성능 향상의 핵심 동력이다.

배경

지구 내부 구조를 파악하기 위한 Full Waveform Inversion(FWI) 기술을 개선하기 위해 물리 기반 모델과 머신러닝을 결합하는 Kaggle 경진대회이다.

대상 독자

Kaggle 참가자, 지구물리학 연구자, 시계열 및 이미지 변환 모델 개발자

의미 / 영향

이 솔루션은 물리적 제약 조건이 강한 도메인에 AI를 적용할 때 단순한 모델 스케일업보다 도메인 특성에 맞는 아키텍처 최적화(RoPE)와 데이터 생성 전략이 더 중요함을 입증했다. 특히 물리 시뮬레이션을 학습 파이프라인에 통합한 반복적 의사 라벨링 기법은 다른 과학적 시뮬레이션 및 역산 분야에도 즉시 적용 가능한 고도의 실무 패턴이다.

챕터별 상세

00:41

데이터 전처리 및 초기 모델 접근

제공된 데이터는 (5, 1000, 70) 형태의 파형 데이터였다. 5개의 채널을 공간적으로 이어 붙여 (1000, 350) 크기의 단일 이미지 형태로 변환했다. 초기 모델로 EVA02-Small Vision Transformer(ViT)를 선택했으며, 출력 패치를 다시 원래 이미지 크기로 재구성하는 단순한 구조를 사용했다. 단 40 에포크 학습만으로 MAE 30 수준의 우수한 성능을 확인하며 베이스라인을 구축했다.

•5개 채널을 공간적으로 결합하여 1000x350 크기의 이미지 데이터 생성
•EVA02-Small ViT 모델을 활용한 초기 베이스라인 구축
•40 에포크 학습으로 MAE 30 달성

파형 데이터를 이미지처럼 처리하기 위해 채널을 공간적으로 재배치하는 전처리가 수행됐다.

03:30

모델 아키텍처 2.0: Encoder-Decoder 구조

전통적인 UNet이나 CNN 기반 디코더는 파형 데이터의 공간적 정렬 특성과 맞지 않아 성능이 낮았다. 이를 해결하기 위해 두 개의 Vision Transformer를 직렬로 연결한 Encoder-Decoder 구조를 고안했다. 첫 번째 ViT의 출력을 두 번째 ViT의 입력으로 사용하는 이 방식은 단순히 모델 크기를 키우는 것보다 효율적이었다. 이 아키텍처 개선을 통해 MAE를 30에서 28로 낮췄다.

•UNet 등 기존 디코더 대신 두 개의 ViT를 연결한 Encoder-Decoder 구조 채택
•단순 스케일업보다 효율적인 성능 향상 확인
•MAE 수치를 30에서 28로 개선

일반적인 컴퓨터 비전 작업과 달리 파형 역산 데이터는 픽셀 간의 공간적 정렬이 달라 특수한 디코더 구조가 필요하다.

05:05

RoPE(Rotary Positional Embedding) 도입과 최적화

EVA 모델이 일반 ViT보다 뛰어난 성능을 보이는 원인을 분석한 결과, 핵심은 Rotary Positional Embedding(RoPE)의 사용에 있었다. RoPE는 절대적 위치 대신 상대적 위치 관계를 회전 행렬로 계산하여 어텐션 레이어에 직접 주입한다. 이를 통해 다양한 해상도의 이미지에 유연하게 대응하고 공간적 특징을 더 정밀하게 학습했다. 최종적으로 ViT-Small 모델에 RoPE를 적용하여 인코더와 디코더 아키텍처를 완성했다.

•EVA 모델의 성능 우위 원인이 RoPE임을 실험적으로 증명
•절대적 위치 임베딩을 RoPE로 대체하여 공간적 관계 학습 능력 강화
•인코더와 디코더 모두에 RoPE를 통합한 최종 모델 설계

RoPE는 주로 LLM에서 문맥 길이를 확장하기 위해 쓰이지만, 비전 분야에서도 상대적 위치 파악 능력을 높이는 데 기여한다.

07:44

학습 전략 및 점진적 이미지 크기 확대

AdamW 옵티마이저와 코사인 어닐링 학습률 스케줄러를 사용했다. 학습 효율을 높이기 위해 이미지 크기를 350x350에서 시작하여 496, 588, 최종적으로 700x700까지 점진적으로 키우며 학습을 진행했다. 이러한 Progressive Resizing 전략은 모델이 조기에 수렴하는 것을 방지하고 세부적인 특징을 단계적으로 학습하게 했다. 또한 지수 이동 평균(EMA)과 테스트 시 증강(TTA)을 적용하여 안정성을 높였다.

•350x350에서 700x700까지 단계적으로 이미지 크기를 키우는 학습 전략
•EMA와 TTA를 통한 모델 예측의 안정성 및 정확도 확보
•MAE 16.21 수준까지 성능 도달

Progressive Resizing은 학습 초기에는 작은 이미지로 빠르게 학습하고, 후반부에는 큰 이미지로 정밀도를 높이는 기법이다.

09:29

대규모 합성 데이터 생성 및 사전 학습

데이터 부족 문제를 해결하기 위해 기존 속도 모델에 Five Crop과 Random Affine 변환을 적용하여 데이터를 10배 증강했다. 이를 통해 470만 개의 지진파 샘플을 확보하고 이를 사전 학습에 활용했다. 물리적 포워드 모델링 함수를 GPU에서 빠르게 실행되도록 최적화하여 대규모 데이터 생성을 가능하게 했다. 합성 데이터 사전 학습 결과 MAE가 16.21에서 11.77로 대폭 개선됐다.

•Five Crop 및 Random Affine 변환으로 데이터 10배 증강
•470만 개의 합성 데이터셋 구축 및 사전 학습 수행
•MAE 수치를 11.77로 대폭 하락

물리 법칙을 이용한 시뮬레이션(Forward Modeling)을 통해 실제 데이터와 유사한 가상 데이터를 대량으로 생성했다.

11:30

반복적 의사 라벨링(Iterative Pseudo Labeling)

모델의 예측 성능을 극대화하기 위해 반복적 의사 라벨링 기법을 도입했다. 학습된 모델로 테스트 및 검증 데이터셋(약 9.5만 개)에 대한 예측값을 생성하고, 이를 의사 라벨로 삼아 포워드 모델링을 통해 새로운 합성 입력 데이터를 만들었다. 이 과정을 매 에포크마다 반복하여 모델이 스스로 성능을 개선하도록 유도했다. 이 전략을 통해 MAE를 7.94까지 낮추는 결정적인 성과를 거두었다.

•테스트 및 검증 데이터에 대한 모델 예측값을 의사 라벨로 활용
•매 에포크마다 새로운 합성 데이터를 생성하여 학습에 추가하는 반복 루프
•MAE 7.94 달성으로 최상위권 진입

모델이 예측한 결과물을 다시 입력 데이터 생성의 기초로 사용하는 피드백 루프를 구축한 것이다.

13:03

최종 앙상블 및 전문가 모델(Specialist Model)

특정 데이터 패턴에서 성능을 더 높이기 위해 4가지 고가치 메서드에 특화된 '전문가 모델'을 별도로 학습했다. 전체 데이터 중 절반을 제거하고 핵심 패턴에만 하이퍼 포커싱하여 학습 속도와 정확도를 높였다. 추론 단계에서 일반 모델의 결과와 전문가 모델의 결과를 결합하는 블렌딩 전략을 사용했다. 최종적으로 모든 기법을 통합하여 MAE 7.5를 기록하며 1위를 차지했다.

•4가지 핵심 패턴에 하이퍼 포커싱한 전문가 모델 추가 학습
•일반 모델과 전문가 모델의 예측값을 결합하는 최종 블렌딩
•최종 MAE 7.5로 경진대회 1위 확정

모든 데이터를 학습하는 일반 모델과 특정 어려운 케이스에 집중하는 전문가 모델을 조합하여 성능을 극대화했다.

실무 Takeaway

Vision Transformer 아키텍처에서 절대적 위치 임베딩 대신 RoPE를 사용하면 공간적 관계 파악 능력이 향상되어 물리적 파형 역산 성능이 개선된다.
이미지 크기를 350x350에서 700x700까지 점진적으로 키우며 학습하는 Progressive Resizing은 모델의 수렴 안정성과 최종 정확도를 동시에 확보하는 핵심 전략이다.
물리적 포워드 모델링을 활용한 대규모 합성 데이터 생성과 반복적인 의사 라벨링 루프는 라벨이 부족한 도메인 문제를 해결하는 강력한 방법이다.
일반적인 모델 성능이 정체될 때 특정 어려운 패턴에만 집중하는 전문가 모델(Specialist Model)을 학습시켜 블렌딩하면 최종 점수를 미세하게 더 끌어올릴 수 있다.

언급된 리소스

DemoYale/UNC-CH - Geophysical Waveform Inversion Competition

GitHubEVA02 Model (timm library)

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 21.수집 2026. 02. 21.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

Yale/UNC-CH 지구물리학적 파형 역산 경진대회 1위 솔루션 분석 | AI Trends