Consistency Training while Mitigating Obfuscation via Rate Matching

ArXi:2606.02211v1 Announce Type: cross Large language models are often influenced by extraneous input features, such as cues revealing a user's preferred answer. Consistency