핵심 요약
사람마다 뇌의 구조와 활동 패턴이 달라 기존에는 새로운 사람의 뇌 신호를 해독하려면 매번 모델을 새로 훈련해야 했습니다. 이 논문은 몇 가지 예시 데이터만 입력하면 별도의 학습 없이도 처음 보는 사람의 뇌 신호를 즉시 해독할 수 있는 기술을 제시하여 범용적인 뇌-컴퓨터 인터페이스(BCI) 구현에 한 발짝 다가섰습니다.
왜 중요한가
사람마다 뇌의 구조와 활동 패턴이 달라 기존에는 새로운 사람의 뇌 신호를 해독하려면 매번 모델을 새로 훈련해야 했습니다. 이 논문은 몇 가지 예시 데이터만 입력하면 별도의 학습 없이도 처음 보는 사람의 뇌 신호를 즉시 해독할 수 있는 기술을 제시하여 범용적인 뇌-컴퓨터 인터페이스(BCI) 구현에 한 발짝 다가섰습니다.
핵심 기여
훈련이 필요 없는 교차 피험자 뇌 해독
새로운 피험자에 대해 그래디언트 기반의 미세 조정(Fine-tuning) 없이 소량의 이미지-뇌 활동 쌍만으로 즉각적인 시각 해독을 수행한다.
계층적 인컨텍스트 학습 아키텍처
개별 복셀의 인코딩 파라미터를 추정하는 1단계와 여러 복셀의 정보를 통합하여 시각 자극을 재구성하는 2단계로 구성된 Transformer 기반 구조를 도입했다.
해부학적 정렬 없는 일반화
피험자 간의 뇌 구조적 차이를 맞추는 복잡한 해부학적 정렬이나 자극의 중첩 없이도 서로 다른 스캐너와 프로토콜 환경에서 작동한다.
데이터 효율성 및 확장성
단 200개의 이미지 컨텍스트만으로도 기존의 전체 데이터를 사용한 미세 조정 모델과 대등한 성능을 보이며, 컨텍스트 크기에 따라 성능이 향상되는 스케일링 법칙을 확인했다.
핵심 아이디어 이해하기
뇌 해독의 근본적인 어려움은 사람마다 뇌의 '지도'가 다르다는 점에 있다. 기존 방식은 특정 개인의 뇌 활동(Embedding)과 시각 자극 사이의 고정된 매핑을 학습하려 했으나, 이는 다른 사람에게 적용할 때 무너진다. BrainCoDec은 이를 해결하기 위해 뇌 해독을 '학습'의 문제가 아닌 '추론'의 문제로 재정의한다.
첫 번째 단계에서는 개별 복셀(Voxel, 뇌의 최소 단위)이 특정 이미지에 어떻게 반응하는지 그 '규칙'을 찾아낸다. 이는 마치 언어 모델이 몇 개의 예시를 보고 문맥을 파악하는 것과 유사하다. 모델은 주어진 이미지-반응 쌍을 통해 해당 복셀의 인코딩 파라미터를 즉석에서 추론한다.
두 번째 단계에서는 이렇게 파악된 수천 개의 복셀 규칙들을 Transformer의 Attention Mechanism을 통해 통합한다. 각 복셀이 가진 파라미터와 현재 관측된 활성도를 입력으로 받아, 이 정보들을 종합하여 원래 어떤 이미지가 입력되었을지를 역으로 계산해낸다. 결과적으로 모델은 새로운 사람의 뇌 구조를 학습하는 대신, 주어진 문맥(Context)을 통해 그 사람의 뇌가 작동하는 방식을 실시간으로 파악하여 이미지를 재구성한다.
방법론
BrainCoDec은 두 단계의 계층적 인컨텍스트 추론 과정을 거친다. 1단계에서는 각 복셀 v_q에 대해 n개의 이미지 I_t와 그에 따른 뇌 활성도 beta_t,q 쌍을 입력으로 받아 복셀별 응답 함수 파라미터 omega_q를 추정한다. [이미지-활성도 쌍 입력 → BrainCoRL 모델 연산 → 복셀별 특성 벡터 출력 → 해당 복셀의 인코딩 규칙 정의]
2단계에서는 1단계에서 얻은 파라미터 omega_k와 해독하고자 하는 새로운 자극에 대한 활성도 beta_k를 결합하여 컨텍스트 토큰 c_k = [omega_k, beta_k]를 생성한다. 이 토큰들을 Transformer Decoder에 입력하여 최종 이미지 임베딩 I_hat을 예측한다. [파라미터와 활성도 결합 토큰 입력 → Transformer Self-Attention 연산 → 이미지 임베딩 출력 → 시각 자극 재구성]
학습 시에는 실제 fMRI 데이터 없이 합성 데이터(Synthetic Data)를 활용한 분석-합성(Analysis-by-Synthesis) 방식을 사용한다. 무작위 가중치를 샘플링하여 가상의 뇌 반응을 생성하고 이를 복원하도록 훈련함으로써 다양한 뇌 활동 패턴에 대한 강건성을 확보한다. 손실 함수로는 Cosine Similarity와 InfoNCE를 결합한 하이브리드 손실을 사용하여 재구성 정확도와 식별력을 동시에 높였다.
관련 Figure

시각 자극이 뇌 활성화를 일으키고, 이를 인컨텍스트 인코더와 디코더를 통해 다시 이미지로 복원하는 과정을 보여준다. 미세 조정 없이도 새로운 피험자에게 일반화될 수 있는 모델의 핵심 구조를 설명한다.
BrainCoDec의 전체적인 계층적 뇌 해독 프레임워크 개요도
주요 결과
NSD(Natural Scenes Dataset) 벤치마크에서 BrainCoDec은 미세 조정을 거치지 않고도 기존 SOTA 모델인 MindEye2(4.11%)보다 월등히 높은 25.5%의 Top-1 검색 정확도를 기록했다. 이는 별도의 학습 없이 컨텍스트 입력만으로 달성한 수치이다.
컨텍스트 스케일링 실험 결과, 제공되는 이미지 수(Stage 1)와 복셀 수(Stage 2)가 증가함에 따라 성능이 일관되게 향상됨을 확인했다. 특히 200개의 이미지와 4,000개의 복셀만으로도 전체 데이터셋을 사용한 경우와 유사한 성능에 도달하여 높은 데이터 효율성을 입증했다.
BOLD5000 데이터셋을 활용한 교차 스캐너 실험에서도 CLIP 백본 기준 31.45%의 Top-1 정확도를 기록하며, 서로 다른 자기공명 장치(3T vs 7T)와 해상도 환경에서도 모델이 성공적으로 일반화됨을 증명했다.
관련 Figure

컨텍스트 크기가 커질수록 Top-1 정확도가 향상되는 스케일링 법칙을 보여준다. 또한 실제 뇌 데이터를 사용한 훈련이 합성 데이터만 사용한 경우보다 월등히 우수함을 입증한다.
이미지 및 복셀 컨텍스트 크기에 따른 성능 변화와 절제 연구 결과

BrainCoDec이 기존 모델인 MindEye2나 TGBD보다 정답(GT) 이미지와 시각적, 의미적으로 훨씬 유사한 이미지를 상위권에 검색해냄을 시각적으로 보여준다.
처음 보는 피험자(S1)에 대한 이미지 검색 결과 비교

서로 다른 스캐너 환경인 BOLD5000에서도 컨텍스트가 늘어남에 따라 해독 성능(순위가 낮을수록 좋음)이 개선되는 경향이 유지됨을 보여준다.
BOLD5000 데이터셋에서 이미지 컨텍스트 크기에 따른 평균 순위 변화
기술 상세
BrainCoDec 아키텍처는 Voxel Context Token Projection, Contextual Decoder Transformer, Image Embedding Prediction Head의 세 부분으로 구성된다. 각 복셀 토큰은 LayerNorm과 LeakyReLU를 포함한 단일 레이어 잔차 MLP를 통해 투영된다. 디코더는 8개의 Self-Attention 레이어를 가진 Transformer Encoder를 사용하며, 위치 임베딩(Positional Embedding)을 제거하여 입력 복셀의 순서에 무관한 순서 불변성(Order Invariance)을 확보했다.
가변 길이 컨텍스트 처리를 위해 Logit Scaling 기법을 도입하여 컨텍스트 길이에 따른 Attention 점수의 분산을 제어했다. [쿼리-키 내적 결과 → log(컨텍스트 길이) 곱셈 → 루트 d로 나눗셈 → 길이 변화에 강건한 어텐션 가중치 산출]. 학습 전략은 합성 데이터 사전 학습, 가변 길이 컨텍스트 확장, 실제 fMRI 데이터를 활용한 지도 미세 조정의 3단계 파이프라인을 따른다.
모델은 CLIP, DINOv2, SigLIP 등 다양한 시각 백본을 지원하며, CLIP 기반 모델은 약 5,570만 개의 파라미터를 가진다. 특히 ROI Dropout 실험을 통해 특정 뇌 영역(예: 얼굴 인식 영역)을 마스킹하더라도 전체적인 해독 성능이 크게 저하되지 않음을 보여, 모델이 뇌 전체에 분산된 정보를 효과적으로 통합하고 있음을 증명했다.
관련 Figure

얼굴이나 장소 등 특정 범주에 반응하는 뇌 부위를 마스킹해도 해독 성능이 크게 떨어지지 않음을 보여준다. 이는 모델이 특정 부위에 의존하지 않고 뇌 전체의 분산된 신호를 잘 활용함을 의미한다.
특정 뇌 영역(ROI) 제거 시의 해독 성능 강건성 테스트
한계점
본 연구는 주로 시각 피질의 정보를 활용한 이미지 임베딩 복원에 집중하고 있으며, 복잡한 동적 비디오나 추상적인 사고의 해독에 대해서는 추가적인 검증이 필요하다. 또한 합성 데이터 학습이 실제 뇌의 복잡한 노이즈 특성을 완벽히 모사하지 못할 가능성이 존재한다.
실무 활용
BrainCoDec은 별도의 모델 재훈련 없이 새로운 사용자의 뇌 신호를 즉각 해독할 수 있어 실시간 뇌-컴퓨터 인터페이스(BCI) 및 의료 진단 도구로의 활용 가능성이 매우 높습니다.
- 범용 BCI 장치: 새로운 사용자에게 장치를 착용시킨 후 몇 분간의 보정(Calibration)만으로 즉시 생각이나 시각 정보를 텍스트/이미지로 변환
- 신경과학 연구 도구: 대규모 피험자 집단에 대해 개별 모델 구축 없이 뇌의 시각 정보 처리 과정을 비교 분석
- 맞춤형 재활 시스템: 뇌 손상 환자의 시각 인지 능력을 평가하고 훈련하는 개인화된 인터페이스 구축
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

새로운 스캐너와 피험자 환경에서도 BrainCoDec이 의미적으로 정확한 이미지를 성공적으로 찾아내어 강력한 교차 사이트 일반화 능력을 증명한다.
BOLD5000 데이터셋의 새로운 피험자에 대한 상위 4개 이미지 검색 결과
키워드
코드 예제
# Stage 1: Encoder Parameter Estimation
# T_theta is the pretrained BrainCoRL model
omega_q = T_theta({(I_t, beta_t, q) for t in range(n)})
# Stage 2: Contextual Functional Inversion
# P_gamma is the learned transformer for inversion
I_hat = P_gamma({(omega_k, beta_k) for k in range(m)})BrainCoDec의 2단계 계층적 인컨텍스트 학습 과정을 나타내는 의사코드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.