Multimodal Fusion via Self-Consistent Task-Gradient Fields

ArXi:2410.15475v2 Announce Type: replace Multimodal learning aims to preserve as much task-related information as possible from different inputs. However, current fusion designs often distort the feedback loop to feature extractors. Aggressively merging modalities entangles their representations, making the feature extractors fragile to incomplete inputs. Meanwhile, attempting to separate features via auxiliary losses frequently