MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models

ArXi:2507.09574v3 Announce Type: replace-cross Recent text-to-image models produce high-quality results but still struggle with precise visual control, balancing multimodal inputs, and requiring extensive