Invariant Gradient Alignment for Robust Reasoning Distillation

ArXi:2606.05025v1 Announce Type: cross Large language models (LLMs) suffer from shortcut learning: they systematically fail on out-of-distribution (OOD) inputs whose semantic surface differs from