Multivariate Distributional Reinforcement Learning Using Sliced Divergences

ArXi:2605.31222v1 Announce Type: new Distributional reinforcement learning (DRL) models the full return distribution rather than expectations, but extending it to multivariate settings remains challenging. Many common metrics do not naturally generalize beyond one dimension or lose computational tractability, and the multivariate case