LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

ArXi:2605.22012v1 Announce Type: new Joint audio-visual reasoning is essential for omnimodal understanding, yet current multimodal large language models (MLLMs) still struggle when reasoning requires fine-grained evidence from both modalities. A central limitation is that explicit text-based chain-of-thought (CoT) compresses continuous audio-visual signals into discrete tokens, weakening temporal grounding and shifting intermediate reasoning toward language priors.