DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

ArXi:2605.30350v1 Announce Type: cross Robot manipulation critically depends on perception that preserves the action-relevant aspects of a scene. Yet most robot learning pipelines are built upon visual encoders pre-trained for static recognition or vision-language alignment, leaving motion understanding to downstream policies. We