Once-For-All: A Train-Once and Select-Anytime Framework for Multimodal Instruction Tuning

ArXi:2605.26761v1 Announce Type: new Multimodal instruction tuning is the de facto recipe for adapting vision language models (VLMs), yet instruction data are highly redundant, making data selection critical for