Steering LLMs? Actually, Sparse Autoencoders can outperform simple baselines

ArXi:2605.31183v1 Announce Type: cross Sparse Autoencoders (SAEs) have been seen as a promising avenue for exploring the internals of Large Language Models (LLMs) and for steering model output generation. When AxBench - a model steering benchmark - was