안정적 solve–verify 비대칭
서로 다른 형식의 문제에서 해를 자연어로 도출하는 대신 실행 가능한 코드로 검증하는 과정이 더 쉽고, 이 비대칭성이 학습 신호를 지속적으로 유지하게 하는 핵심 원리이다.