Teaching Language Models to Check Grounded Claim Factuality with Human Test-Taking Strategies

ArXi:2605.29712v1 Announce Type: cross Grounded claim factuality checking is important for large language model (LLM) applications such as retrieval-augmented generation, as it helps users assess the correctness of generated outputs. Existing metrics using entailment classifiers require dataset-specific threshold tuning, while LLM-based approaches often use direct prompting, which underutilises the reasoning capabilities of LLMs.