Mitigating State Aliasing in Vision-Language-Action Models via Inverse Dynamics Learning

ArXi:2605.29577v1 Announce Type: new Vision-Language-Action (VLA) models have emerged as a promising framework that unifies perception, reasoning, and control for robot manipulation by adapting pretrained vision-language models (VLMs) to action prediction. However, VLM-derived representations are often insensitive to subtle visual distinctions required for low-level control, causing state aliasing between visually similar states that require substantially different actions.