GeneralThinker: Domain-General Reasoning through Likelihood-Guided Answer-Conditioned Optimization

ArXi:2605.27934v1 Announce Type: new Reinforcement learning with verifiable rewards improves language model reasoning, but its reliance on domain-specific verifiers, sparse outcome rewards, and coarse-grained credit assignment limits its applicability. We