ZH ·
🌏 English arXiv AI 论文精选:2025 年末扩散模型(Diffusion Models)研究前沿与趋势总结
核心论文摘要
- Stream-DiffVSR (Hau-Shiang Shiu 等人):提出了一种基于因果条件扩散框架的低延迟视频超分辨率方法。通过自回归时间引导模块(ARTG)和轻量级解码器,该方法在保持高感知质量的同时,将延迟降低了 130 倍,是首个适用于在线部署的扩散视频超分辨率方案。
- Diffusion Knows Transparency (Shaocong Xu 等人):利用视频扩散模型进行透明物体的深度和法线估计。通过轻量级 LoRA 适配器,该研究在 TransPhy3D 数据集上实现了零样本 SOTA 性能,并成功应用于机器人抓取。
- Improving Reasoning for Diffusion Language Models (Kevin Rojas 等人):针对扩散语言模型(DLMs)提出了 Group Diffusion Policy Optimization (GDPO) 算法,通过半确定性蒙特卡洛采样降低了 ELBO 估计方差,在数学与代码生成任务上表现优异。
- OpenPBR (Jamie Portsmouth 等人):详细阐述了 OpenPBR 材质模型的物理渲染理论,涵盖了金属、电介质、次表面散射及薄膜干涉等实现细节,为标准化材质框架提供了理论支撑。
- Symbolic recursion method (Igor Ermakov 等人):引入符号化递归方法研究强关联费米子,验证了算子增长的普适性,并发现电荷扩散常数在宽相互作用范围内遵循 标度律。
- RoboPerform (Zhe Li 等人):实现了首个音乐与语音驱动的人形机器人舞蹈生成框架,通过 ResMoE 教师策略与扩散学生策略的结合,赋予机器人极高的物理合理性与音频对齐能力。
- RoboMirror (Zhe Li 等人):提出了基于视频理解的免重定向人形机器人运动控制,利用视觉语言模型直接驱动扩散策略,大幅降低了远程临场感的控制延迟。
- Memorization in 3D Shape Generation (Shu Pu 等人):系统研究了 3D 生成模型中的记忆效应,发现其与数据多样性及条件粒度高度相关,并提出了减轻记忆的有效策略。
- Learning to Refocus (SaiKiran Tedla 等人):提出了一种基于视频扩散模型的后对焦技术,通过生成逼真的焦堆栈视频序列,支持高质量的交互式重对焦功能。
- LiveTalk (Ethan Chern 等人):构建了实时多模态交互视频生成框架,通过改进策略蒸馏解决了视觉伪影问题,在多轮交互中展现出优于 Sora2 等模型的实时表现。
- ThinkGen (Siyu Jiao 等人):首个基于思维链(CoT)的视觉生成框架,通过解耦架构与 SepGRPO 训练范式,实现了跨场景的通用生成能力。
- PurifyGen (Zongsheng Cao 等人):一种无需训练的安全生成框架,通过语义距离评估与双空间变换,有效净化了文本到图像生成过程中的有害内容。
- AnyMS (Binhe Yu 等人):提出了一种无需训练的多主题定制框架,通过自底向上的注意力解耦机制,在保持身份一致性的同时实现了复杂的布局控制。
- HY-Motion 1.0 (Yuxin Wen 等人):大规模文本到 3D 人体运动生成模型,基于 10 亿参数的 DiT 流匹配架构,在广泛的运动覆盖能力与文本对齐精度上表现卓越。
主要研究方向
- 扩散模型在视频处理中的应用:侧重于低延迟超分辨率、深度估计及动态场景生成(如 Stream-DiffVSR, DriveGen3D)。
- 扩散语言模型优化:致力于通过强化学习策略提升模型的逻辑推理与复杂任务处理能力(如 GDPO)。
- 3D 生成与机器人控制:通过扩散模型实现物理合理的人形机器人运动控制及 3D 内容生成(如 RoboPerform, RoboMirror, HY-Motion)。
- 安全与模型优化:研究无需训练的安全净化技术及更高效的偏好对齐算法(如 PurifyGen, DDSPO)。
- 物理仿真应用:将扩散模型与流体、动力学方程结合,提升高维方程的求解效率(如 Fokker-Planck 方程求解)。
研究趋势分析
2025 年末,扩散模型的研究呈现出明显的“跨界融合”趋势:从单纯的生成质量竞争转向低延迟在线部署、物理规律的隐式学习以及与大语言模型推理能力的深度结合。技术路径上,研究者正通过注意力解耦、流匹配(Flow Matching)扩展以及无需训练的轻量化适配(LoRA)来实现更高效、更安全的生成任务。随着机器人具身智能与科学计算需求的增长,扩散模型正在从“视觉生成工具”转型为“通用智能决策与仿真底座”。