视频生成与多模态理解领域前沿进展速递

本期汇总了近期在视频生成、多模态理解及相关评估基准领域的重要研究成果，涵盖了指令引导视频编辑、零样本跟踪、科学实验分析及高效视频压缩等前沿方向。

研究精选

Ayush Shrivastava 等人的 Point Prompting: Counterfactual Tracking with Video Diffusion Models 提出了一种利用预训练视频扩散模型进行零样本点跟踪的新方法。该方法通过在查询点放置彩色标记，并从中间噪声级别重构视频，实现标记的轨迹传播。关键创新在于使用未编辑的初始帧作为负提示，确保标记在反事实生成中保持可见。

Yinan Chen 等人的 IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment 提出了首个专门针对指令引导视频编辑的评估基准套件。该套件包含600个高质量源视频，覆盖7种语义维度和8类编辑任务，并建立了包含视频质量、指令遵从性和视频保真度的三维评估协议。

Yicheng Xu 等人的 ExpVid: A Benchmark for Experiment Video Understanding & Reasoning 提出了首个科学实验视频理解基准。ExpVid 通过细粒度感知、流程理解和科学推理三个层次，系统评估了多模态大语言模型（MLLM）的能力，揭示了开源与专有模型在状态跟踪和推理方面的差距。

Hongyu Zhu 等人的 MS-Mix: Unveiling the Power of Mixup for Multimodal Sentiment Analysis 提出了一种情感敏感的多模态数据增强框架，通过情感感知样本选择和动态混合比例模块，显著提升了多模态情感分析的鲁棒性。

Wenyue Chen 等人的 SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction 提出了首个同步2D多视图与3D原生生成模型的框架，通过像素对齐的注意力机制，将2D细节提升至3D人体重建，在挑战性姿势下实现了高保真重建。

Liu Yang 等人的 ODI-Bench: Can MLLMs Understand Immersive Omnidirectional Environments? 提出了 ODI-Bench，首次系统评估了 MLLM 在全向图像环境中的理解能力，并引入了 Omni-CoT 推理方法，增强了模型对沉浸式上下文的感知。

Trinh T. L. Vuong 等人的 ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos 提出了计算病理学领域首个整合多种病理视频场景的多模态模型，通过生成组织学描述与诊断推理，为病理视频分析建立了新标准。

Jianhao Yuan 等人的 LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference 提出了 LikePhys，利用似然偏好评估视频扩散模型的直观物理理解能力，引入的 PPE 指标与人类偏好高度一致。

Zi-Yuan Hu 等人的 NeMo: Needle in a Montage for Video-Language Understanding 提出了 NeMoBench，旨在评估视频大语言模型在长上下文回忆和时间定位方面的关键推理能力。

Li Chen 等人的 GADA: Graph Attention-based Detection Aggregation for Ultrasound Video Classification 提出了 GADA 框架，将视频分类问题转化为时空图中的节点推理问题，提升了超声视频分类的判别性。

Zirui Song 等人的 Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies 提出了一种社交推理游戏中的策略对齐评估框架，揭示了当前顶尖 LLM 在欺骗和反事实推理方面的不足。

Ralf Römer 等人的 Failure Prediction at Runtime for Generative Robot Policies 提出了 FIPER 框架，通过分布外检测和动作不确定性量化，实现了生成式模仿学习策略的实时失败预测。

Liyang Chen 等人的 Detecting and Mitigating Insertion Hallucination in Video-to-Audio Generation 定义并解决视频到音频生成中的“插入幻觉”问题，通过后验特征修正（PFC）显著降低了无关音频的生成。

Ole-Johan Skrede 等人的 Generalisation of automatic tumour segmentation in histopathological whole-slide images across multiple cancer types 开发了一种通用的跨癌种肿瘤分割模型，在多种数据集上实现了与专用模型相当的性能。

Rohit Gupta 等人的 Open Vocabulary Multi-Label Video Classification 提出了一种利用 LLM 生成语义引导软属性的开放词汇视频分类方法，优化了对新类别的识别。

Xiucheng Wang 等人的 Graph Neural Network-Based Multicast Routing for On-Demand Streaming Services in 6G Networks 提出了一种基于 GNN 的组播路由框架，通过强化学习保障 6G 网络中高带宽应用的服务质量。

Jiahui Lei 等人的 MoMaps: Semantics-Aware Scene Motion Generation with Motion Maps 提出了一种基于运动图（MoMap）的 3D 场景运动预测方法，为 2D 视频合成提供了新的流程。

Jiahao Yu 等人的 TranSUN: A Preemptive Paradigm to Eradicate Retransformation Bias Intrinsically from Regression Models in Recommender Systems 提出了一种消除推荐系统重变换偏差的预emptive范式，已成功应用于淘宝 App。

Junlong Tong 等人的 Context Guided Transformer Entropy Modeling for Video Compression 提出了一种基于上下文引导 Transformer 的视频压缩模型，利用时空上下文重采样机制显著提升了压缩效率。

Kunyun Wang 等人的 Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism 提出 ParaStep，通过重用-预测机制实现扩散模型的通信高效并行化，大幅加速了推理过程。

Zheyuan Zhang 等人的 VideoAds for Fast-Paced Video Understanding 构建了广告视频理解基准 VideoAds，揭示了现有模型在复杂时序建模方面与人类专家存在的差距。

Runyu Yang 等人的 Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding 提出了一种通过迁移比特分配知识来增强 VVC 编码感知质量的低复杂度方法。

Yuzhuo Chen 等人的 TAG-WM: Tamper-Aware Generative Image Watermarking via Diffusion Inversion Sensitivity 提出了一种针对生成图像的篡改感知水印方法，在保持质量的同时实现了鲁棒的篡改定位。

Jiaben Chen 等人的 TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation 发布了 TalkCuts 数据集，并提出了 Orator 框架，显著提升了多镜头人声视频的连贯性。

Xinyu Shao 等人的 More than A Point: Capturing Uncertainty with Adaptive Affordance Heatmaps for Spatial Grounding in Robotic Tasks 提出 RoboMAP 框架，将空间目标表示为自适应功能热度图，增强了机器人操作的稳健性。

Peyman Gholami 等人的 Streamlining Image Editing with Layered Diffusion Brushes 提出分层扩散笔刷（LDB），通过中间潜在缓存实现了极速的细粒度编辑。

Xuankai Zhang 等人的 Dynamic Gaussian Splatting from Defocused and Motion-blurred Monocular Videos 提出了统一处理散焦和运动模糊的动态高斯泼溅方法，优化了新型视图合成。

Jinxuan Li 等人的 Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey 对基于图像-语言基础模型的图像到视频迁移学习进行了全面综述，系统分类了现有技术路线。

Yu Li 等人的 AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes 提出了一种将文本到视频模型适配于 4D 场景视点预测的两阶段范式。

Peiyin Chen 等人的 DEMO: Disentangled Motion Latent Flow Matching for Fine-Grained Controllable Talking Portrait Synthesis 提出 DEMO 框架，利用流匹配和运动解耦实现了高保真的音频驱动人像合成。

研究趋势分析

特定任务适配：研究重心从通用生成转向零样本跟踪、视点预测等特定领域适配。
评估基准体系化：构建针对指令遵循、物理理解及科学推理的全面基准。
多模态融合：强化视频与音频、3D场景及多语言上下文的深度融合。
效率优化：通过算法压缩、通信优化提升生成与推理的实时性。
深度语义理解：关注模型在逻辑推理、因果感知及物理一致性方面的表现。