Lagrangian Perturbation Diffusion Steering: Latent Reinforcement Learning for Generative Policies

ArXi:2606.01151v1 Announce Type: new Behavior cloning with high-capacity generative policies achieves strong imitation performance, but is often limited by nstration coverage and distribution shift. Direct reinforcement learning fine-tuning can improve performance, but updating large action decoders is frequently unstable and sample inefficient. We propose Lagrangian Perturbation Diffusion Steering (LP-DS), a lightweight adaptation method that improves a frozen generative policy by learning a compact noise-space perturbation before decoding.