When Context Flips, Safety Breaks: Diagnosing Brittle Safety in Aligned Language Models

ArXi:2605.27851v1 Announce Type: new Safety benchmark scores provide incomplete evidence of deployment readiness: aligned language models often adhere to rigid rules even when a situational update flips which action is safe. We term this failure brittle safety. To diagnose it, we