arXiv AI 论文精选：2025 年末扩散模型（Diffusion Models）研究前沿与趋势总结

核心论文摘要

Stream-DiffVSR (Hau-Shiang Shiu 等人)：提出了一种基于因果条件扩散框架的低延迟视频超分辨率方法。通过自回归时间引导模块（ARTG）和轻量级解码器，该方法在保持高感知质量的同时，将延迟降低了 130 倍，是首个适用于在线部署的扩散视频超分辨率方案。
Diffusion Knows Transparency (Shaocong Xu 等人)：利用视频扩散模型进行透明物体的深度和法线估计。通过轻量级 LoRA 适配器，该研究在 TransPhy3D 数据集上实现了零样本 SOTA 性能，并成功应用于机器人抓取。
Improving Reasoning for Diffusion Language Models (Kevin Rojas 等人)：针对扩散语言模型（DLMs）提出了 Group Diffusion Policy Optimization (GDPO) 算法，通过半确定性蒙特卡洛采样降低了 ELBO 估计方差，在数学与代码生成任务上表现优异。
OpenPBR (Jamie Portsmouth 等人)：详细阐述了 OpenPBR 材质模型的物理渲染理论，涵盖了金属、电介质、次表面散射及薄膜干涉等实现细节，为标准化材质框架提供了理论支撑。
Symbolic recursion method (Igor Ermakov 等人)：引入符号化递归方法研究强关联费米子，验证了算子增长的普适性，并发现电荷扩散常数在宽相互作用范围内遵循 $1/V^2$ 标度律。
RoboPerform (Zhe Li 等人)：实现了首个音乐与语音驱动的人形机器人舞蹈生成框架，通过 ResMoE 教师策略与扩散学生策略的结合，赋予机器人极高的物理合理性与音频对齐能力。
RoboMirror (Zhe Li 等人)：提出了基于视频理解的免重定向人形机器人运动控制，利用视觉语言模型直接驱动扩散策略，大幅降低了远程临场感的控制延迟。
Memorization in 3D Shape Generation (Shu Pu 等人)：系统研究了 3D 生成模型中的记忆效应，发现其与数据多样性及条件粒度高度相关，并提出了减轻记忆的有效策略。
Learning to Refocus (SaiKiran Tedla 等人)：提出了一种基于视频扩散模型的后对焦技术，通过生成逼真的焦堆栈视频序列，支持高质量的交互式重对焦功能。
LiveTalk (Ethan Chern 等人)：构建了实时多模态交互视频生成框架，通过改进策略蒸馏解决了视觉伪影问题，在多轮交互中展现出优于 Sora2 等模型的实时表现。
ThinkGen (Siyu Jiao 等人)：首个基于思维链（CoT）的视觉生成框架，通过解耦架构与 SepGRPO 训练范式，实现了跨场景的通用生成能力。
PurifyGen (Zongsheng Cao 等人)：一种无需训练的安全生成框架，通过语义距离评估与双空间变换，有效净化了文本到图像生成过程中的有害内容。
AnyMS (Binhe Yu 等人)：提出了一种无需训练的多主题定制框架，通过自底向上的注意力解耦机制，在保持身份一致性的同时实现了复杂的布局控制。
HY-Motion 1.0 (Yuxin Wen 等人)：大规模文本到 3D 人体运动生成模型，基于 10 亿参数的 DiT 流匹配架构，在广泛的运动覆盖能力与文本对齐精度上表现卓越。

主要研究方向

扩散模型在视频处理中的应用：侧重于低延迟超分辨率、深度估计及动态场景生成（如 Stream-DiffVSR, DriveGen3D）。
扩散语言模型优化：致力于通过强化学习策略提升模型的逻辑推理与复杂任务处理能力（如 GDPO）。
3D 生成与机器人控制：通过扩散模型实现物理合理的人形机器人运动控制及 3D 内容生成（如 RoboPerform, RoboMirror, HY-Motion）。
安全与模型优化：研究无需训练的安全净化技术及更高效的偏好对齐算法（如 PurifyGen, DDSPO）。
物理仿真应用：将扩散模型与流体、动力学方程结合，提升高维方程的求解效率（如 Fokker-Planck 方程求解）。

研究趋势分析

2025 年末，扩散模型的研究呈现出明显的“跨界融合”趋势：从单纯的生成质量竞争转向低延迟在线部署、物理规律的隐式学习以及与大语言模型推理能力的深度结合。技术路径上，研究者正通过注意力解耦、流匹配（Flow Matching）扩展以及无需训练的轻量化适配（LoRA）来实现更高效、更安全的生成任务。随着机器人具身智能与科学计算需求的增长，扩散模型正在从“视觉生成工具”转型为“通用智能决策与仿真底座”。