TL;DR
래스터 이미지를 벡터 벤치마크로 변환하는 것은 CAD 워크플로우 및 자동화된 해석에 필수적이다. 본 논문은 라벨링된 폴리곤 시퀀스라는 직관적 표현으로 구조와 시맨틱 정보를 동시에 예측하며, 앵커 기반의 자동회귀 디코더를 통해 복잡한 바닥계획에서도 유연하고 정확한 출력을 가능하게 한다. Structure3D-B, CubiCasa5K, Raster2Graph에서 SOTA 성능을 달성하고 WAFFLE과 같은 실세계 데이터에 대한 일반화도 보여준다.
왜 중요한가
래스터 이미지를 벡터 벤치마크로 변환하는 것은 CAD 워크플로우 및 자동화된 해석에 필수적이다. 본 논문은 라벨링된 폴리곤 시퀀스라는 직관적 표현으로 구조와 시맨틱 정보를 동시에 예측하며, 앵커 기반의 자동회귀 디코더를 통해 복잡한 바닥계획에서도 유연하고 정확한 출력을 가능하게 한다. Structure3D-B, CubiCasa5K, Raster2Graph에서 SOTA 성능을 달성하고 WAFFLE과 같은 실세계 데이터에 대한 일반화도 보여준다.
핵심 기여
라벨드 폴리곤 시퀀스 표현
방의 타입(예: Kitchen, Bedroom)과 꼭짓점 좌표를 하나의 토큰 시퀀스로 표현하고 <SEP>로 구분하여 다수의 방/요소를 하나의 시퀀스로 묶어 벡터화한다. 이 방식은 가변 길이 폴리곤과 semantic 정보를 자연스럽게 다룰 수 있게 한다.
Anchor-based autoregressive decoder
이미지 피처와 이전 토큰으로부터 다음 좌표 토큰을 예측하는 자동회귀 디코더를 도입하고, learnable anchors를 이용해 좌표 예측에 잔차를 적용한다. masked attention과 deformable attention을 구성해 공간 정보를 집중적으로 활용한다.
FeatFusion 및 좌표 예측 구조
FeatFusion으로 image features와 폴리곤 토큰 임베딩을 초기에 연결하고, deformable attention으로 샘플링 포인트를 anchor에 상대적으로 조정한다. 좌표 헤드는 anchor에 잔차를 더해 연속좌표를 회귀한다.
토큰-수준_semantic 학습 및 left-to-right 학습 스케줄
각 corner에 대한 token-type 분류 손실과 token 단위 semantic 분류 손실을 도입하고, 폴리곤 시퀀스를 좌에서 오른쪽으로 순차적으로 예측하도록 학습하여 semantic fidelity를 유지한다.
다양한 벤치마크 및 일반화
Structured3D-B, CubiCasa5K, Raster2Graph에서 F1 기준으로 기존 방법들을 상회하며, WAFFLE 같은 실세계 데이터에 대해 zero-shot 일반화 성능이 우수하다.
VLM 기반 벡터화 정제(후처리)
Vectorized floorplan을 기반으로 Gemini 2.5 Pro 같은 VLM으로 지오메트리 제약을 적용해 벽의 평행성 및 인접 관계를 보정하는 후처리 파이프라인을 구성한다.
핵심 아이디어 이해하기
출발점: 래스터 floorplan 이미지는 벡터 표현으로의 회복이 필요하다. 기존 방법은 구조적 요소를 분할하여 처리하는 다단계 파이프라인에 의존하거나 고정된 질의 수에 의존한다. 한계: 가변 길이의 방/요소 구조를 표현하는 데 고정 쿼리 수와 다중 모듈 구성은 확장성과 정합성에 제약을 준다. 해결 원리: 폴리곤을 좌표 벡터의 시퀀스로 표현하고 각 코너에 semantic 정보를 부여한 뒤, image 피처와 이전 생성 결과를 이용해 다음 토큰을 예측하는 autoregressive 디코더를 사용한다. Anchors를 도입해 Spatial 위치를 가공하고, FeatFusion으로 초기에 이미지 정보를 시퀀스에 주입한다. 결과: 좌-우로 진행되는 generation으로 복잡한 floorplan도 유연하게 처리하며, token 수준의 semantic supervision으로 방-윈도우-문 같은 엔티티의 세부 정보를 유지한다. 이 구조는 데이터의 다양성에 강하고, 더 긴 폴리곤/방 구조를 다룰 수 있으며, WAFFLE 같은 실세계 데이터에서도 강한 일반화를 보인다.
방법론
- Labeled Polygon Sequence 표현: 각 코너 c_i = (x_i, y_i, p_i)로 표현하고, 폴리곤을 로 구분한다. 2) Anchor-based Autoregressive Decoder: 세 입력(이미지 피처 f_img, 좌표 토큰 v, learnable anchors v_anchor)을 받아 Q/K/V를 구성하고, masked attention으로 좌표 토큰을 순차적으로 예측한다. FeatFusion으로 f_img와 토큰 임베딩을 결합하고, Deformable Attention으로 sampling points를 anchor 주위에 위치시켜 image 피처 맵에서 정보를 수집한다. 3) 출력 헤드: token-type head(<CORNER|SEP|EOS>), semantic head(C classes), coordinate head(2D 좌표 잔차). 4) 학습 손실: L_coord(L1), L_token(교차 엔트로피), L_sem(교차 엔트로피); 총 손실 L = λ_coord L_coord + λ_token L_token + λ_sem L_sem. 5) 구성 및 학습: encoder 6 + decoder 6 레이어, hidden size 256, 12 레이어 모델, L=256 고정, anchors=512, bilinear quantizer로 좌표를 1D 임베딩에 매핑. 6) Inference: EOS 도달 시 종료, 방의 semantic은 토큰 단위에서 다수결로 결정. 7) 실험 설정: Structured3D, CubiCasa5K, Raster2Graph, WAFFLE에 대해 256×256 해상도 사용; pretraining 1400 epochs(Structured3D), 500 epochs(CubiCasa5K); fine-tuning 450 epochs. 8) VLM 기반 벡터화 정제: 벡터화된 폼과 raster를 함께 제공해 지오메트리 제약을 적용하는 프롬프트 기반 정제.
관련 Figure

이미지 1은 프레임워크 전반의 흐름과 실험 설정(held-out 샘플 vs 실세계 데이터)을 시각적으로 요약한다.
Raster2Seq의 파이프라인 개요를 보여주는 대표 도식(입력 레스터 이미지 → 벡터화된 폴리곤 시퀀스, 3D 재구성, WAFFLE의 일반화 시나리오 포함).

전체 흐름과 입력-출력 관계를 직관적으로 보여주며, anchor 기반 디코더의 위치를 시각적으로 전달한다.
전체 시스템의 고수준 아키텍처도.

FeaFusion, Masked Attn, Deformable Attn, 좌표 헤드/토큰 헤드를 포함한 모듈 구성을 시각적으로 제시한다.
Anchor-based autoregressive decoder 구체 구성도.
주요 결과
주요 결과는 다음과 같다. Structured3D-B에서 Ours는 Room F1 99.6, Corner F1 98.3, Angle F1 92.7, RoomSem F1 76.9, Window&Door F1 98.5를 달성했다. CubiCasa5K에서 Room F1 88.7, Corner F1 59.4, Angle F1 37.4, RoomSem F1 63.8, Window&Door F1 77.8이다. Raster2Graph 데이터세트에서 Ours의 성능은 Room F1 97.0, Corner F1 80.3, Angle F1 66.6, RoomSem F1 85.1, Window&Door F1 85.1로 평가되었다. 인터페이스 상의 Cross-evaluation은 학습-테스트 구성 간 일반화 능력을 강하게 보이며, WAFFLE에 대한 zero-shot 일반화에서도 우수한 성능을 보인다. Ablation 결과: FeatFusion, Learnable Anchors, Ordering을 모두 적용한 경우 Room F1 99.6, Corner F1 98.3, Angle F1 92.7로 가장 높은 성능을 기록했고, 각각의 구성 요소를 제거하면 성능이 감소한다. 추가로, VLM 기반 refinement를 도입하면 Corner F1(54.0→59.0) 및 Angle F1(33.0→45.1) 증가와 함께 Room의 일부 값이 소폭 하락하는 경향이 관찰되었다. 속도/자원 측면에서는 추론시간 0.52초로 Raster2Graph와 유사하며, 학습 처리량은 63 이미지/s로 RoomFormer(24)보다 높다.
관련 Figure

구성요소의 복잡도 증가에 따른 모델의 견고성 및 점진적 성능 향상을 보여주는 핵심 ablation 도표다.
폴리곤 코너 수에 따른 성능 변화(Room/F1, Corner/F1, Angle/F1).

다양한 트레이닝-테스트 조합에서의 일반화 성능 차이를 한 눈에 보여주며, Ours의 강력한 일반화 특성을 강조한다.
학습-테스트 구성 간 일반화를 시각화한 cross-eval heatmap.

ablation 연구의 GT 이미지로, 각 구성요소의 예측 품질과 비교를 위한 기준을 제공한다.
ablation 예시의 GT 이미지(정답 floorplan).
기술 상세
아키텍처: 12-layer encoder-decoder, hidden size 256, 8 heads의 attention, 512개의 learnable anchors. 좌표의 continuous 값을 1D embedding space로 양자화하기 위해 bilinear quantizer를 도입하고, 각 좌표는 4개의 인접 포인트의 임베딩으로 보간된다. 디코더의 입력은 (f_img, 좌표 임베딩, v_anchor)의 세 가지로 구성되며 FeatFusion으로 초기 타임스탬프 정보를 포함한다. Masked Attention으로 왼쪽-오른쪽 생성 제약을 적용하고 Deformable Attention으로 sampling point를 anchor 근처에 위치시켜 이미지 피처 맵의 informative 영역을 추출한다. 출력 헤드는 token type, semantic label, 좌표를 예측하며, 좌표는 앵커에 대한 잔차로 합성된다. 손실은 L_coord (L1), L_token (Cross-Entropy 3-token), L_sem (Cross-Entropy)로 구성되며, L = λ_coord L_coord + λ_token L_token + λ_sem L_sem이다. 학습은 Structure3D와 CubiCasa5K에서 교차-사전학습 후 semantic finetuning으로 진행되며, 구조적 순서는 좌상단 기준 스캔 순서로 정의된다. 추론 시 EOS가 나올 때까지 시퀀스를 생성하고, 방의 시맨틱 라벨은 토큰 수준 예측의 다수결로 결정된다.
한계점
논문에서 명시한 한계로, 덜 흔한 시맨틱 구조(창문/문)에서의 정확도는 향상이 필요하다. Fig. 8에서 창문/문의 위치가 불안정하게 예측되는 경우가 있으며, 이들을 더 잘 다루기 위한 설계 변경이 필요할 수 있다.
관련 Figure

한계점에 대한 시각적 예시를 제공하며, 창문/문의 안정성 이슈를 시각화한다.
제한점(limitation)과 관련된 GT 이미지 예시.
실무 활용
래스터 floorplan 이미지를 벡터화해 CAD 및 3D 재현 등에 활용 가능하며, 벡터화된 결과를 이용한 3D 장면 제어도 가능하다. 벡터화는 후처리나 후학습 없이도 구조적/시맨틱 정보를 함께 제공하므로 다양한 응용에 활용 가능하다.
- CAD/도면 편집 및 자동화 워크플로우에서 벡터화된 floorplan으로 직접 편집
- 지오메트리 제약을 가진 VLM 기반의 벡터-정제 파이프라인과의 결합으로 벽 정합성 강화
- 실세계 데이터에 대한 zero-shot 일반화 테스트 및 도메인 간 매핑 데이터 생성
- 3D 바깥 공간 생성 및 컨트롤 가능한 실내 장면 합성
- 대규모 바닥계획 데이터셋의 자동 라벨링 보조
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.