멀티뷰 카메라와 temporal 정보를 활용하는 vision-only end-to-end 자율주행에서 비전 토큰 수 증가로 인한 연산량 문제를 해결하기 위해, 카메라 입력을 BEV 공간에서 통합하고 시간적 맥락을 반영한 뒤 이를 고정된 개수의 compact 토큰으로 압축하는 구조를 제안한다. 또한 객체 탐지와 semantic segmentation을 보조 학습으로 활용하고, 언어 레이블 기반 contrastive learning을 통해 BEV 표현의 의미 정보를 강화한다. 시뮬레이터 기반의 Closed-loop 평가에서 waypoint 예측 오차 감소(WPADE, WPFDE)와 Driving Score 향상을 통해 주행 성능 및 안정성을 개선했으며, 멀티뷰·temporal 입력에도 불구하고 약 90 ms 수준의 낮은 추론 지연을 유지했다.