New DeepSWE benchmark finds Claude Opus cheats

r/LocalLLaMA • May 27, 2026

Generative AI AI Research

Sadly the open models seem far behind. submitted by /u/DeltaSqueezer [link] [comments]