Learning to Route Languages for Multilingual Policy Optimization

ArXi:2605.25360v1 Announce Type: new Large language models~(LLMs) are trained on heterogeneous multilingual corpora, yet existing policy optimization methods often implicitly restrict each