Grounded 3D-Aware Spatial Vision-Language Modeling

ArXi:2605.30307v1 Announce Type: new We present GR3D, a spatial vision language model equipped with three complementary grounding capabilities--explicit 2D grounding, implicit 2D grounding, and monocular 3D grounding--within a single framework