多模态学习前沿综述：从控制生成到自主推理

Yusuf Dalva 等人的 Canvas-to-Image: Compositional Image Generation with Multimodal Controls 提出了一个统一框架，将文本提示、主题参考、空间布局和姿势约束等多种控制信号整合到单一画布界面中。关键创新在于将多模态控制信号编码为复合画布图像，从而使模型能够直接进行视觉-空间推理。该方法通过多任务数据集和联合训练策略，显著提升了生成图像的身份保持能力和控制遵从性。

Weihao Bo 等人的 Agentic Learner with Grow-and-Refine Multimodal Semantic Memory 提出了一种双流记忆框架 ViLoMem，分别编码视觉干扰模式和逻辑推理错误，使多模态大模型能够从成功与失败的经验中学习。该系统遵循渐进式积累原则，在多个基准测试中显著减少了视觉和逻辑错误。

Xiang Gu 等人的 Multimodal Robust Prompt Distillation for 3D Point Cloud Models 提出了一种高效的师生框架 MRPD，通过将学生点云模型的特征与多个教师的鲁棒嵌入对齐来学习轻量级提示。核心创新是引入置信门控机制动态平衡输入模态的贡献，在推理时无需额外计算成本。

Qian Hong 等人的 Lost in Time? A Meta-Learning Framework for Time-Shift-Tolerant Physiological Signal Transformation 提出了 ShiftSyncNet，一个基于元学习的双级优化框架，用于缓解时间错位导致的性能下降。该成果于2026年发表于 AAAI 会议。

Fei Tian 等人的 Step-Audio-R1 Technical Report 介绍了首个音频推理模型 Step-Audio-R1。通过模态接地推理蒸馏（MGRD）框架，该模型能够生成与声学特征深度接地的推理链，在语音、环境音和音乐理解任务上超越了 Gemini 2.5 Pro。

Adeela Islam 等人的 E-M3RF: An Equivariant Multimodal 3D Re-assembly Framework 提出了一种基于等变多模态特征的3D碎片重组框架，通过结合几何与颜色特征及 SE(3) 流匹配技术，有效解决了传统方法在对称碎片重组中的难题。

Jiyun Bae 等人的 Do Reasoning Vision-Language Models Inversely Scale in Test-Time Compute? 研究了视觉干扰物对多模态模型推理的影响。研究发现，视觉干扰会直接降低准确率，而不会像文本干扰那样增加推理长度。

Qixun Wang 等人的 Monet: Reasoning in Latent Visual Space Beyond Images and Language 提出了一种潜在视觉空间推理框架 Monet，通过三阶段蒸馏流程，使模型能直接生成连续嵌入作为中间“视觉思维”。

Ariful Islam 等人的 BanglaMM-Disaster 开发了针对孟加拉语的灾难分类系统，通过结合 BanglaBERT 与 ResNet50，显著提升了社交媒体数据的分类准确率。

Stefanos Koutoupis 等人的 The More, the Merrier: Contrastive Fusion for Higher-Order Multimodal Alignment 提出了对比融合框架 ConFu，能够捕获 X-OR 类高阶依赖关系，并在检索任务中保持了良好的兼容性。

Qiwei Ma 等人的 SARVLM: A Vision Language Foundation Model for Semantic Understanding and Target Recognition in SAR Imagery 提出了针对合成孔径雷达（SAR）图像的视觉语言基础模型，通过大规模数据与领域迁移策略，显著提升了 SAR 图像的语义理解能力。

Selene Cerna 等人的 BotaCLIP: Contrastive Learning for Botany-Aware Representation of Earth Observation Data 提出了一种轻量级对比学习框架，将地球观测模型适配到植物学领域，在数据稀缺场景下表现优异。

Xinyue Guo 等人的 AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control 提出了 AV-Edit 框架，实现了对视频中音轨的细粒度编辑，在音效生成领域达到了领先水平。

Mengran Li 等人的 Learning Cell-Aware Hierarchical Multi-Modal Representations for Robust Molecular Modeling 提出了 CHMR 框架，通过联合建模分子与细胞响应的层次结构，在生物医学建模任务中取得了显著性能提升。

Zhihang Liu 等人的 CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness 提出了 CAPability 基准测试，从 12 个维度全面评估视觉描述的正确性与全面性，揭示了多模态模型在问答与描述能力间的差距（NeurIPS 2025）。

Long Li 等人的 Saliency-R1: Incentivizing Unified Saliency Reasoning Capability in MLLM with Confidence-Guided Reinforcement Learning 提出了 Saliency-R1 框架，实现了显著目标检测、实例分割和共显著检测任务的统一处理。

Zhaolong Su 等人的 UniGame: Turning a Unified Multimodal Model Into Its Own Adversary 提出了自对抗训练框架 UniGame，通过在共享令牌接口引入扰动，迫使生成分支挑战理解分支，从而显著提升了模型的一致性与鲁棒性。

Chujie Wang 等人的 OVOD-Agent: A Markov-Bandit Framework for Proactive Visual Reasoning and Self-Evolving Detection 提出了一种基于马尔可夫-多臂老虎机的开词汇目标检测框架，将检测转化为主动视觉推理链（Visual-CoT）。

Eunjee Choi 等人的 CroMe: Multimodal Fake News Detection using Cross-Modal Tri-Transformer and Metric Learning 开发了 CroMe 模型，利用度量学习增强模态间关系建模，有效提升了多模态假新闻检测的准确率。

Yolo Y. Tang 等人的 Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination 提出了“视觉反刍”机制，通过迭代像素级推理强化文本密集视频的分析能力。

Changjiang Jiang 等人的 IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection 发布了大规模可解释 AIGC 检测基准 Ivy-Fake，并提出 Ivy-xDetector，将检测准确率提升至 96.32%。

Yuxiao Xiang 等人的 GuardTrace-VL: Detecting Unsafe Multimodel Reasoning via Iterative Safety Supervision 提出了一种针对多模态推理模型（MLRMs）的安全审计方法，实现了对推理过程中不安全内容的实时监控与检测。

Meishan Zhang 等人的 On The Role of Pretrained Language Models in General-Purpose Text Embeddings 系统综述了预训练语言模型在通用文本嵌入中的关键作用及其在多模态整合中的潜力。

Jiaxin Liu 等人的 ReasonAct: Progressive Training for Fine-Grained Video Reasoning in Small Models 提出了一种三阶段训练框架，结合生物力学启发的子动作分解机制，显著增强了小规模模型的视频推理能力。

Wilson Chango 等人的 A review on data fusion in multimodal learning analytics and educational data mining 综述了教育数据挖掘中的多模态数据融合技术。

Thanh-Dat Truong 等人的 MANGO: Multimodal Attention-based Normalizing Flow Approach to Fusion Learning 提出了一种新型可逆跨注意力架构，在语义分割任务中达到了 SOTA 性能。

Thanh-Dat Truong 等人的 Directed-Tokens: A Robust Multi-Modality Alignment Approach to Large Language-Vision Models 引入了定向标记机制，显著提升了视觉语言模型的模态对齐能力。

Zuhao Yang 等人的 LongVT: Incentivizing “Thinking with Long Videos” via Native Tool Calling 提出了 LongVT 框架，通过交错的多模态工具链思维实现长视频理解。

Xuelu Feng 等人的 RubricRL: Simple Generalizable Rewards for Text-to-Image Generation 提出了一种基于结构化量规的强化学习框架，为图像生成提供可解释的模块化监督信号。

Jing Bi 等人的 Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning 系统梳理了多模态推理的挑战与解决方案。

Xin Wang 等人的 Towards Multimodal Graph Large Language Model 探讨了多模态图大语言模型的统一框架及其关键特性。

Yuwei Niu 等人的 Does Understanding Inform Generation in Unified Multimodal Models? 通过 UniSandbox 框架揭示了统一模型中“理解”与“生成”之间的鸿沟，并提出思维链（CoT）是有效的桥接工具。

Shamima Hossain 等人的 Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models 提出了一种结合结构化知识图谱的推理框架，显著提升了视觉语言模型生成内容的事实准确性。

Kiril Vasilev 等人的 MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology 提出了肿瘤学临床决策基准测试，评估了模型在复杂临床环境中的多模态整合能力。

主要研究方向与趋势

当前多模态研究正从简单的模态融合转向深度自主推理，并日益关注模型的可解释性、安全性和领域适配能力。趋势包括：从静态任务向动态推理演进、从黑盒模型向可解释架构转型，以及在医疗、植物学等垂直领域实现深度定制化应用。