THRD: A Training-Free Multi-Turn Defense Framework for Jailbreak Attacks on Large Language Models

ArXi:2606.01738v1 Announce Type: cross Multi-turn jailbreak attacks pose a growing threat to LLMs by exploiting conversational dynamics such as gradual escalation and cross-turn coordination. Existing defenses either rely on costly re