이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
텍스트 기반 BERT 모델이 고분자 특성 추출에 매우 강력하며, 특히 학습 데이터와 테스트 데이터 간의 분포 차이를 보정하는 사후 처리가 우승의 핵심이었다.
배경
NeurIPS 2025에서 개최된 오픈 고분자 예측 대회는 지속 가능한 소재 개발을 위해 고분자의 물리적 성질을 AI로 예측하는 과제였다.
대상 독자
화학/재료 과학 분야의 AI 적용에 관심 있는 데이터 과학자 및 ML 엔지니어
의미 / 영향
이 솔루션은 고분자 과학 분야에서 실험 데이터 부족 문제를 의사 라벨링과 시뮬레이션 데이터로 극복할 수 있음을 보여주었다. 특히 텍스트 기반 BERT 모델이 복잡한 화학 구조를 효과적으로 임베딩할 수 있음을 증명하여 신소재 개발을 위한 AI 프레임워크의 표준을 제시했다.
챕터별 상세
01:20
솔루션 아키텍처 개요
최종 예측은 BERT, AutoGluon, Uni-Mol 모델의 앙상블로 구성됐다. BERT 모델은 SMILES 화학 시퀀스 문자열을 직접 입력으로 사용하며, AutoGluon은 수치형 분자 기술자(Descriptors)와 지문을 활용한다. Uni-Mol은 고분자 반복 단위의 3D 구조 정보를 바탕으로 예측을 수행한다. 특히 대규모 가상 고분자 데이터셋에 대한 의사 라벨링(Pseudo-labeling) 사전 학습이 성능 향상에 기여했다.
02:36
피처 엔지니어링 및 선택
예측 대상 물성에 따라 중요한 피처가 크게 달랐으나, 전반적으로 BERT 임베딩 피처가 가장 높은 중요도를 보였다. 상위 50개 피처 중 35개가 BERT 임베딩이었으며, RDKit 라이브러리를 통해 추출한 원자 쌍 지문(Atom pair fingerprint)과 모건 지문(Morgan fingerprint)도 활용됐다. 또한 약 1,000건의 분자 동역학 시뮬레이션을 로컬에서 실행하여 얻은 결과값을 XGboost 모델로 예측해 추가 피처로 사용했다.
06:14
BERT 모델 학습 전략
BERT 모델은 2단계 학습 과정을 거쳤다. 먼저 100만 개의 가상 고분자 데이터에 대해 두 고분자 중 어느 쪽의 물성 수치가 더 높은지 예측하는 랭킹 분류 작업으로 사전 학습을 진행했다. 이후 실제 대회 데이터와 외부 데이터셋을 결합하여 수치값을 직접 예측하는 회귀 작업으로 파인튜닝했다. SMILES 문자열을 무작위로 변형하는 데이터 증강 기법을 학습과 테스트 시점 모두에 적용하여 모델의 견고함을 높였다.
09:40
AutoGluon 및 Uni-Mol 활용
AutoGluon 모델은 외부 데이터셋의 노이즈를 처리하는 데 집중했다. 외부 데이터의 레이블이 대회 데이터와 편향이 있는 경우, Isotonic Regression을 사용하여 레이블 스케일을 조정했다. Uni-Mol은 3D 구조를 다루는 가장 단순한 모델로 참여했으며, Optuna를 통해 하이퍼파라미터를 튜닝했다. 다만 Uni-Mol은 원자 수가 많은 특정 물성(FFV)에서는 메모리 문제로 인해 성능이 낮아 제외됐다.
python
from rdkit import Chem
def augment_smiles(smiles):
mol = Chem.MolFromSmiles(smiles)
return Chem.MolToSmiles(
mol,
canonical=False,
doRandom=True,
isomericSmiles=True
)RDKit을 사용하여 SMILES 문자열을 무작위로 변형하여 데이터를 증강하는 코드
15:09
분포 변화 발견 및 사후 처리
대회 과정에서 학습 데이터와 리더보드 데이터 사이에 유의미한 분포 변화(Distribution Shift)가 있음을 발견했다. 특히 유리 전이 온도(Tg) 예측값에 표준 편차의 약 0.56배에 해당하는 상수를 더했을 때 리더보드 점수가 크게 향상됐다. 이러한 보정은 교차 검증(CV) 점수는 악화시켰으나, 실제 리더보드(Public/Private)에서는 결정적인 성능 향상을 가져왔다. 이는 리더보드 데이터를 직접 프로빙(Probing)하여 최적의 오프셋 값을 찾아낸 결과였다.
18:30
기초 모델 비교 및 결론
화학 도메인 특화 모델인 ChemBERTa나 polyBERT보다 일반적인 ModernBERT-base 모델의 성능이 더 우수했다. 또한 자연어보다 코드 데이터로 사전 학습된 모델(CodeBERT)이 화학 시퀀스 이해에 더 효과적임을 확인했다. 최종적으로는 BERT 모델 단독으로도 전체 앙상블과 대등하거나 더 나은 성능을 보였으며, 이는 강력한 사전 학습과 사후 처리의 중요성을 입증한다.
python
submission_df['Tg'] += (
submission_df['Tg'].std() * 0.5644
)리더보드 데이터의 분포 변화를 보정하기 위해 유리 전이 온도(Tg) 예측값에 상수를 더하는 사후 처리 코드
실무 Takeaway
- SMILES 문자열의 무작위 변형(Augmentation)을 학습과 추론 시점 모두에 적용하여 텍스트 기반 모델의 예측 안정성을 확보했다.
- 화학 도메인 특화 모델에 의존하기보다 코드 데이터로 학습된 범용 LLM을 활용하고 도메인 데이터로 추가 사전 학습을 진행하는 것이 더 효과적이다.
- 리더보드 점수 변화를 분석하여 학습 데이터와의 분포 차이를 파악하고, 이를 사후 처리(Bias correction)로 보정하는 것이 경진대회 우승의 결정적 전략이다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 02. 20.수집 2026. 02. 21.출처 타입 YOUTUBE
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.