ETC: Extreme Token Compression via Task-aware Visual Information Distillation in VLMs

ArXi:2606.00543v1 Announce Type: new In Vision-Language Models (VLMs), high-resolution images produce a large number of visual tokens, resulting in high computational costs and KV-cache overhead during inference. To address this problem, we propose an Extreme Token Compression (ETC) framework that minimizes task loss when reducing the number of input tokens based on the principle of variational information distillation.