Caliper: Probing Lexical Anchors versus Causal Structure in LLMs

ArXi:2606.04915v1 Announce Type: new Large language models reach 50 to 70% accuracy on causal reasoning benchmarks such as CLadder, but it is unclear whether this reflects structural reasoning or lexical pattern matching. We