On the Limits of Token Reduction for Efficient Unified Vision Language Training

ArXi:2606.01503v1 Announce Type: cross Unified vision-language models (VLMs) integrate visual understanding and visual generation within a single autoregressive backbone, but their joint