이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
텍스트 기반 BERT 모델이 고분자 특성 추출에 매우 강력하며, 특히 학습 데이터와 테스트 데이터 간의 분포 차이를 보정하는 사후 처리가 우승의 핵심이었다.
배경
NeurIPS 2025에서 개최된 오픈 고분자 예측 대회는 지속 가능한 소재 개발을 위해 고분자의 물리적 성질을 AI로 예측하는 과제였다.
대상 독자
화학/재료 과학 분야의 AI 적용에 관심 있는 데이터 과학자 및 ML 엔지니어
의미 / 영향
이 솔루션은 고분자 과학 분야에서 실험 데이터 부족 문제를 의사 라벨링과 시뮬레이션 데이터로 극복할 수 있음을 보여주었다. 특히 텍스트 기반 BERT 모델이 복잡한 화학 구조를 효과적으로 임베딩할 수 있음을 증명하여 신소재 개발을 위한 AI 프레임워크의 표준을 제시했다.
챕터별 상세
01:20
솔루션 아키텍처 개요
최종 예측은 BERT, AutoGluon, Uni-Mol 모델의 앙상블로 구성됐다. BERT 모델은 SMILES 화학 시퀀스 문자열을 직접 입력으로 사용하며, AutoGluon은 수치형 분자 기술자(Descriptors)와 지문을 활용한다. Uni-Mol은 고분자 반복 단위의 3D 구조 정보를 바탕으로 예측을 수행한다. 특히 대규모 가상 고분자 데이터셋에 대한 의사 라벨링(Pseudo-labeling) 사전 학습이 성능 향상에 기여했다.
- •텍스트(SMILES), 수치(Descriptors), 3D 구조 정보를 모두 활용하는 다각적 모델 앙상블 구축
- •100만 개 이상의 가상 고분자 데이터셋에 대해 의사 라벨링을 적용한 BERT 사전 학습 수행
- •학습 데이터와 리더보드 데이터 간의 분포 변화를 해결하기 위한 사후 처리 적용
02:36
피처 엔지니어링 및 선택
예측 대상 물성에 따라 중요한 피처가 크게 달랐으나, 전반적으로 BERT 임베딩 피처가 가장 높은 중요도를 보였다. 상위 50개 피처 중 35개가 BERT 임베딩이었으며, RDKit 라이브러리를 통해 추출한 원자 쌍 지문(Atom pair fingerprint)과 모건 지문(Morgan fingerprint)도 활용됐다. 또한 약 1,000건의 분자 동역학 시뮬레이션을 로컬에서 실행하여 얻은 결과값을 XGboost 모델로 예측해 추가 피처로 사용했다.
- •전체 피처 중 BERT 임베딩이 70%의 비중으로 모델 성능을 주도함
- •RDKit을 활용한 전통적인 화학적 지문 데이터와 커스텀 피처 엔지니어링 병행
- •분자 동역학 시뮬레이션 결과를 예측하는 중간 모델을 구축하여 피처로 활용
06:14
BERT 모델 학습 전략
BERT 모델은 2단계 학습 과정을 거쳤다. 먼저 100만 개의 가상 고분자 데이터에 대해 두 고분자 중 어느 쪽의 물성 수치가 더 높은지 예측하는 랭킹 분류 작업으로 사전 학습을 진행했다. 이후 실제 대회 데이터와 외부 데이터셋을 결합하여 수치값을 직접 예측하는 회귀 작업으로 파인튜닝했다. SMILES 문자열을 무작위로 변형하는 데이터 증강 기법을 학습과 테스트 시점 모두에 적용하여 모델의 견고함을 높였다.
- •의사 라벨링된 데이터를 활용한 랭킹 기반 사전 학습으로 화학적 관계 이해도 증진
- •SMILES 시퀀스의 비정형 변형(Non-canonical augmentation)을 통한 대규모 데이터 증강
- •회귀 헤드와 트랜스포머 백본에 서로 다른 학습률(Head가 20배 높음)을 적용한 최적화
09:40
AutoGluon 및 Uni-Mol 활용
AutoGluon 모델은 외부 데이터셋의 노이즈를 처리하는 데 집중했다. 외부 데이터의 레이블이 대회 데이터와 편향이 있는 경우, Isotonic Regression을 사용하여 레이블 스케일을 조정했다. Uni-Mol은 3D 구조를 다루는 가장 단순한 모델로 참여했으며, Optuna를 통해 하이퍼파라미터를 튜닝했다. 다만 Uni-Mol은 원자 수가 많은 특정 물성(FFV)에서는 메모리 문제로 인해 성능이 낮아 제외됐다.
- •Isotonic Regression을 활용하여 품질이 낮은 외부 데이터셋의 레이블 편향 보정
- •Optuna를 이용한 데이터 전처리 파이프라인 및 하이퍼파라미터 자동 최적화
- •Uni-Mol을 통해 3D 공간 구조 정보를 보완했으나 특정 물성에서는 한계 확인
python
from rdkit import Chem
def augment_smiles(smiles):
mol = Chem.MolFromSmiles(smiles)
return Chem.MolToSmiles(
mol,
canonical=False,
doRandom=True,
isomericSmiles=True
)RDKit을 사용하여 SMILES 문자열을 무작위로 변형하여 데이터를 증강하는 코드
15:09
분포 변화 발견 및 사후 처리
대회 과정에서 학습 데이터와 리더보드 데이터 사이에 유의미한 분포 변화(Distribution Shift)가 있음을 발견했다. 특히 유리 전이 온도(Tg) 예측값에 표준 편차의 약 0.56배에 해당하는 상수를 더했을 때 리더보드 점수가 크게 향상됐다. 이러한 보정은 교차 검증(CV) 점수는 악화시켰으나, 실제 리더보드(Public/Private)에서는 결정적인 성능 향상을 가져왔다. 이는 리더보드 데이터를 직접 프로빙(Probing)하여 최적의 오프셋 값을 찾아낸 결과였다.
- •학습 데이터와 테스트 데이터 간의 통계적 차이를 상수를 더하는 방식으로 보정
- •Tg 물성에서 표준 편차의 0.5644배를 더하는 사후 처리가 우승의 핵심 요인
- •CV 점수 하락에도 불구하고 리더보드 특성에 맞춘 과감한 편향 보정 전략 실행
18:30
기초 모델 비교 및 결론
화학 도메인 특화 모델인 ChemBERTa나 polyBERT보다 일반적인 ModernBERT-base 모델의 성능이 더 우수했다. 또한 자연어보다 코드 데이터로 사전 학습된 모델(CodeBERT)이 화학 시퀀스 이해에 더 효과적임을 확인했다. 최종적으로는 BERT 모델 단독으로도 전체 앙상블과 대등하거나 더 나은 성능을 보였으며, 이는 강력한 사전 학습과 사후 처리의 중요성을 입증한다.
- •도메인 특화 모델보다 범용 ModernBERT와 코드 학습 모델(CodeBERT)이 더 강력함
- •모델의 크기(Large vs Base)보다 학습 데이터의 질과 사전 학습 전략이 더 중요함
- •강력한 단일 BERT 모델과 정교한 사후 처리만으로도 우승권 성능 도달 가능
python
submission_df['Tg'] += (
submission_df['Tg'].std() * 0.5644
)리더보드 데이터의 분포 변화를 보정하기 위해 유리 전이 온도(Tg) 예측값에 상수를 더하는 사후 처리 코드
실무 Takeaway
- SMILES 문자열의 무작위 변형(Augmentation)을 학습과 추론 시점 모두에 적용하여 텍스트 기반 모델의 예측 안정성을 확보했다.
- 화학 도메인 특화 모델에 의존하기보다 코드 데이터로 학습된 범용 LLM을 활용하고 도메인 데이터로 추가 사전 학습을 진행하는 것이 더 효과적이다.
- 리더보드 점수 변화를 분석하여 학습 데이터와의 분포 차이를 파악하고, 이를 사후 처리(Bias correction)로 보정하는 것이 경진대회 우승의 결정적 전략이다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 02. 20.수집 2026. 02. 21.출처 타입 YOUTUBE
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.