MuPHI: Learning Implicit Multimodal Harm Reasoning via Semantically Grounded Reward Optimization

ArXi:2605.29951v1 Announce Type: new Understanding how harm emerges from interaction between otherwise benign image-text pairs requires intent-aware cross-modal reasoning beyond surface-level features. Existing vision-language models (VLMs) excel at literal reasoning over perceptual cues but often fail to derive harmful semantics that rely on implicit, context-dependent reasoning. To evaluate VLMs on compositional harm detection and reasoning, we