Does Visual Information Play a Decisive Role in Vision-Language-Action Model Driving Behavior?

ArXi:2605.31041v1 Announce Type: cross Vision-Language-Action (VLA) models have nstrated promising capability in autonomous driving, highlighting the potential of unified multimodal architectures for jointly modeling perception and planning. However, how current VLA-based driving behavior is grounded in visual information remains poorly understood. Existing evaluation protocols mainly focus on aggregate performance metrics, lacking structured and practical diagnostics to quantify visual-behavior dependency. In this work, we