Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models

We introduce Lens, a 3.8B-parameter T2I model that achieves performance competitive with, and in several cases surpassing, state-of-the-art models with than 6B parameters across various benchmarks, while requiring significantly less training compute. The training efficiency of Lens stems from two key strategies beyond its compact model size. First, we maximize data information density per training batch by