GAP3D: Generative Alignment of VLM Latents to Patch-Level Embeddings for 3D Generation

ArXi:2605.28995v1 Announce Type: new Recent approaches integrating vision-language models (VLMs) as prompt encoders for generative model conditioning typically rely on expensive end-to-end