Universal Activation Verbalizer: A Unified Framework for Cross-Model Activation Explanation

ArXi:2605.25903v1 Announce Type: cross Activation verbalization explains hidden representations in natural language, but existing methods are mostly limited to self-explanation, where each model explains only its own activations. We