Evaluating Sample Utility for Efficient Data Selection by Mimicking Model Weights

ArXi:2501.06708v5 Announce Type: replace-cross Large-scale web-crawled datasets contain noise, bias, and irrelevant information, necessitating data selection techniques. Existing methods depend on hand-crafted heuristics, downstream datasets, or require expensive influence-based computations -- all of which limit scalability and