TextSculptor: Training and Benchmarking Scene Text Editing

ArXi:2605.21090v1 Announce Type: new Recent advances in Multimodal Large Language Models (MLLMs) and diffusion-based generative models have substantially improved prompt-driven image editing. However, scene text editing remains challenging, as it requires models to precisely modify textual content while preserving visual realism and non-target regions.