핵심 요약
해양 데이터는 소나, 수중 영상, 과학 문헌 등 형식이 파편화되어 있어 AI 모델 학습에 큰 어려움이 있었다. 이 논문은 세계 최초로 대규모 해양 멀티모달 데이터를 통합하고 정렬하여, 범용 모델이 해결하지 못한 해양 과학 특화 추론 성능을 비약적으로 향상시켰다.
왜 중요한가
해양 데이터는 소나, 수중 영상, 과학 문헌 등 형식이 파편화되어 있어 AI 모델 학습에 큰 어려움이 있었다. 이 논문은 세계 최초로 대규모 해양 멀티모달 데이터를 통합하고 정렬하여, 범용 모델이 해결하지 못한 해양 과학 특화 추론 성능을 비약적으로 향상시켰다.
핵심 기여
OceanPile 통합 코퍼스 구축
50억 개 이상의 토큰을 포함하는 OceanCorpus, 14만 개의 지시어 쌍인 OceanInstruction, 1,469개의 평가 샘플인 OceanBenchmark로 구성된 대규모 멀티모달 데이터셋을 구축했다.
지식 그래프 기반 지시어 생성 파이프라인
계층적 Ocean Concept Knowledge Graph(OCG)를 설계하고, 이를 가이드로 삼아 GPT-4o를 통해 과학적 정확도가 보장된 고품질 멀티모달 지시어 데이터를 합성했다.
다단계 품질 관리 프로세스
여러 MLLM을 검증 에이전트로 활용하는 자동 평가와 해양 과학 전문가의 수동 검수를 결합하여 데이터의 신뢰성과 과학적 타당성을 확보했다.
핵심 아이디어 이해하기
기존의 Multimodal Large Language Models(MLLMs)는 인터넷의 일반적인 이미지-텍스트 쌍으로 학습되어, 소나 신호나 수중 생물 이미지와 같은 특수한 해양 도메인 데이터를 해석하는 데 한계가 있다. 이는 해양 데이터가 서로 다른 물리적 공간(Semantic Space)에 존재하며, 이를 연결해줄 대규모 정렬 데이터가 부족하기 때문이다.
이 논문은 해양 과학의 핵심 개념들을 연결한 지식 그래프를 닻(Anchor)으로 삼아 이 문제를 해결한다. 텍스트, 이미지, 소나 데이터를 단순히 모으는 것에 그치지 않고, 지식 그래프의 노드와 하위 카테고리를 기준으로 각 데이터를 분류하고 상호 연결함으로써 모델이 서로 다른 모달리티 간의 논리적 관계를 학습할 수 있도록 설계했다.
결과적으로 모델은 단순한 시각적 인식을 넘어, 소나 이미지에서 물체를 식별하거나 복잡한 해양 화학 공정을 추론하는 등 전문적인 도메인 지식을 활용할 수 있게 된다. 이는 파편화된 해양 데이터를 하나의 통합된 지능형 시스템으로 연결하는 핵심 기틀이 된다.
방법론
OceanCorpus 구축을 위해 교과서, 논문, 웹페이지, 소나 데이터, 수중 영상 등 5가지 범주의 데이터를 수집했다. 특히 자율 무인 잠수정(AUV)을 투입하여 실제 해양 환경에서 동기화된 소나 및 광학 영상을 직접 획득함으로써 데이터의 현장성과 다양성을 높였다.
OceanInstruction 생성 단계에서는 먼저 GPT-4o를 활용해 해양 생물학, 물리 해양학 등 주요 학문 분야를 기반으로 계층적 지식 그래프(OCG)를 구축했다. 이후 입력 데이터 X_i를 지식 그래프의 관련 노드 P_k 및 하위 카테고리 S_k와 매핑하고, 외부 권위 있는 지식 K_i를 결합하여 GPT-4o가 지시어-답변 쌍 I_i = M(X_i, P_k, S_k, K_i)을 생성하도록 했다.
품질 관리를 위해 N개의 MLLM 에이전트가 생성된 데이터의 정확성, 관련성, 명확성을 0~10점 사이로 평가하며, 평균 점수 S_i = (1/N) * Σ s_ij가 임계값 τ_q 미만인 데이터는 자동 필터링한다. 최종적으로 해양 과학 전문가들이 샘플링된 데이터를 검수하여 0.86의 높은 상호 일치도(IAA)를 달성했다.
관련 Figure

다양한 데이터 소스(교과서, 논문, 소나 등)가 OceanCorpus로 통합되고, 이것이 다시 지시어 학습과 벤치마크 평가로 이어지는 전체 프레임워크를 시각화한다. 각 데이터 유형이 실제 모델 출력 예시와 어떻게 연결되는지 직관적으로 보여준다.
OceanPile의 세 가지 핵심 구성 요소인 OceanCorpus, OceanInstruction, OceanBench의 관계를 보여주는 개요도이다.
주요 결과
Qwen3-VL-8B 모델을 OceanPile로 파인튜닝한 결과, Multimodal Benchmark의 전체 점수가 13.07%에서 32.59%로 크게 상승했다. 특히 해양 생물 인식(Marine Organisms VQA) 분야에서는 9.96%에서 48.52%로 약 5배에 가까운 성능 향상을 보이며 GPT-5(9.11%)나 Gemini-3-Flash(50.21%)와 대등하거나 능가하는 수준에 도달했다.
Textual Benchmark(Ocean Science QA)에서도 Qwen3-30B 모델이 25.49%에서 26.47%로 개선되어 GPT-5(16.67%)보다 높은 정확도를 기록했다. 소나 이미지 해석(Sonar VQA) 성능 역시 8.04%에서 19.97%로 두 배 이상 향상되어, 특수 센서 데이터 처리에 대한 OceanPile의 효과를 입증했다.
관련 Figure

일반적인 모델들이 틀리는 복잡한 해양 과학 QA 및 VQA 문제에서 OceanPile 학습 모델만이 정답을 맞히는 사례를 제시한다. 특히 소나 이미지 해석과 정밀한 생물 종 식별 능력이 타 모델 대비 우수함을 입증한다.
GPT-5, Gemini, Qwen3 등 주요 모델과 OceanPile로 학습된 모델의 해양 과학 문제 풀이 성능 비교 사례이다.
기술 상세
OceanPile 아키텍처는 데이터 수집(Source Data), 지식 기반 확장(Expansion), 지시어 합성(Instruction Data), 벤치마크 평가(OceanBench)의 4단계로 구성된다. 핵심 차별점은 단순한 데이터 증강이 아닌, Ocean Concept Knowledge Graph를 통한 '지식 유도형 데이터 합성' 방식을 채택했다는 점이다.
구현 측면에서 PDF 문서를 Markdown으로 변환할 때 수식, 표, 캡션을 보존하는 전용 파이프라인을 사용했으며, LLM을 활용한 시맨틱 중복 제거(Semantic Deduplication)를 통해 데이터의 밀도를 높였다. 소나 데이터의 경우 바운딩 박스 정보를 시각-언어 모델을 통해 서술형 텍스트로 변환하여 텍스트-이미지 정렬 학습이 가능하도록 가공했다.
관련 Figure

인간의 정의에서 시작해 해양 과학 카테고리를 분류하고, 노드 필터링을 거쳐 Ocean Concept KG를 구축하는 과정을 상세히 설명한다. 이 그래프가 어떻게 최종적인 Instruction Data 생성의 가이드 역할을 하는지 기술적 흐름을 명시한다.
지식 그래프(OCG)를 활용한 데이터 확장 및 지시어 생성 파이프라인의 상세 구조도이다.
한계점
논문은 해양 데이터의 고유한 높은 노이즈 특성과 약한 레이블링 문제를 완전히 해결하기에는 여전히 어려움이 있음을 언급하며, 실제 해양 환경의 복잡성과 시뮬레이션 데이터 간의 간극이 존재할 수 있음을 지적한다.
실무 활용
해양 과학 연구 및 산업 현장에서 특화된 멀티모달 AI 에이전트를 구축하는 데 즉시 활용 가능하다.
- 자율 무인 잠수정(AUV)의 실시간 소나 이미지 분석 및 장애물 식별
- 수중 촬영 영상을 활용한 해양 생물 종 자동 분류 및 생태계 모니터링
- 해양 과학 문헌 및 교과서 기반의 전문적인 질의응답 시스템 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.