PyTorch CNN과 Rust 기반 RayBNN을 결합한 하이브리드 MNIST 분류 파이프라인 구축 및 학습 실패 분석

핵심 요약

PyTorch CNN과 Rust 기반 생물학적 신경망(RayBNN)을 PyO3로 연결한 하이브리드 모델에서 역전파 경사도 흐름 문제로 인해 학습이 발산하는 현상에 대한 기술적 질의이다.

배경

PyTorch의 CNN 특징 추출기와 Rust로 구현된 상태 공간 생물학적 신경망(RayBNN)을 결합하여 MNIST를 분류하려 했으나, 손실 함수가 증가하고 정확도가 10%에 머무는 문제가 발생하여 해결 방안을 모색 중이다.

의미 / 영향

서로 다른 언어와 프레임워크를 결합한 하이브리드 AI 시스템에서는 경사도 전달의 수학적 일관성을 확보하는 것이 가장 큰 기술적 장벽이다. 특히 독립적인 옵티마이저를 운용할 경우 수치적 오차가 누적되어 학습이 발산할 위험이 크다.

커뮤니티 반응

작성자가 수개월간 해결하지 못한 심각한 기술적 난제임을 토로했으며, 하이브리드 시스템에서의 경사도 흐름 디버깅에 대한 커뮤니티의 전문적인 조언을 구하고 있다.

주요 논점

01중립다수

커스텀 Rust 역전파 구현이 PyTorch의 autograd 체계와 수학적으로 완벽히 동기화되지 않았을 가능성이 존재한다.

합의점 vs 논쟁점

합의점

입출력 텐서의 형상(Shape)과 데이터 흐름 자체는 정상적으로 작동한다.
RayBNN 내부의 파라미터 업데이트와 Adam 상태 유지는 올바르게 수행되고 있다.

논쟁점

PyTorch의 grad_output을 무시하고 Rust 내부에서 별도로 계산한 경사도를 사용하는 방식의 수치적 안정성 여부가 불분명하다.
두 개의 독립적인 Adam 옵티마이저가 서로 다른 프레임워크에서 동시에 작동할 때 발생하는 상호작용의 영향이 검증되지 않았다.

언급된 도구

PyTorch추천

CNN 특징 추출 및 전체 autograd 워크플로 관리

RayBNN중립

Rust 기반의 상태 공간 생물학적 신경망 구현

PyO3추천

Python과 Rust 간의 바인딩 생성

ArrayFire추천

CUDA 백엔드를 이용한 GPU 연산 가속

섹션별 상세

PyTorch CNN과 Rust 기반 RayBNN을 결합한 하이브리드 MNIST 분류 파이프라인을 구축했다. CNN은 이미지 특징을 784차원 벡터로 추출하며, Rust 환경의 RayBNN은 PyO3 바인딩을 통해 이 특징을 입력받아 최종 클래스를 예측한다. 전체 과정은 torch.autograd.Function을 통해 연결되어 경사도가 Rust에서 다시 PyTorch의 CNN으로 흐르도록 설계됐다.

RayBNN은 상태 공간 모델(State-Space Model) 기반의 생물학적 신경망으로 구현됐다. 희소 가중치 행렬 W와 뉴런별 범용 활성화 함수(UAF) 파라미터를 포함하여 약 27만 개의 파라미터를 보유한다. 연산 가속을 위해 ArrayFire v3.8.1과 CUDA 백엔드를 사용하며, 모든 네트워크 파라미터는 단일 평탄화 벡터로 관리된다.

역전파 과정에서 PyTorch의 grad_output을 Rust로 전달하는 대신, Rust 내부에서 직접 Softmax Cross Entropy 경사도를 계산한다. 수학적으로는 PyTorch의 손실 함수와 동일하지만, CNN 가중치는 PyTorch의 Adam이 업데이트하고 RayBNN 가중치는 Rust 내부의 Adam이 업데이트하는 이원화된 구조를 가진다. 현재 15 에포크 학습 후에도 손실이 오히려 증가하고 정확도는 10%에 머무는 심각한 학습 정체 현상이 발생했다.

실무 Takeaway

PyTorch와 Rust(RayBNN) 간의 데이터 및 경사도 전달을 위해 PyO3와 커스텀 autograd.Function을 활용한 엔드투엔드 파이프라인을 구축했다.
두 프레임워크가 각각 독립적인 옵티마이저를 운용하며 가중치를 업데이트하는 하이브리드 최적화 구조를 채택했다.
수학적으로 동일한 손실 함수를 사용함에도 불구하고 실제 학습 과정에서 손실이 2.3에서 5.5로 증가하며 최적화에 실패했다.