具身智能前沿动态：从3D场景生成到多智能体协作

Beichen Wen 等人的 3D Scene Generation: A Survey 对 3D 场景生成技术进行了全面综述。该论文系统性地总结了当前主流的四大范式：程序生成、神经网络生成、图像生成及视频生成，并深入分析了各方法的技术基础、优缺点及未来在高保真度、物理感知和交互生成领域的发展潜力。

Wenqi Wang 等人的 SITE: towards Spatial Intelligence Thorough Evaluation 提出了用于评估空间智能的基准数据集 SITE。该数据集通过视觉问答形式，评估多模态模型在空间可视化与空间定向等维度上的表现，实验揭示了当前模型在空间推理能力上仍与人类存在差距。

Zhaohan Feng 等人的 Multi-agent Embodied AI: Advances and Future Directions 回顾了多智能体具身 AI 的现状。文章指出，现实世界的复杂任务需要多智能体之间的协作与实时学习，并针对动态开放环境提出了未来研究方向。

Ranjan Sapkota 等人的 Vision-Language-Action Models: Concepts, Progress, Applications and Challenges 综述了视觉-语言-动作（VLA）模型。文章探讨了 VLA 在感知、语言理解与动作执行一体化方面的进展，并提出了应对实时控制及系统扩展性挑战的方案。

Liam Boyle 等人的 RobotxR1 提出了一种利用闭环强化学习在小型大语言模型（LLM）上实现具身智能的方法。实验证明，经过闭环交互的小规模模型在自动驾驶等任务中可超越更大规模模型，验证了小型化部署的可行性。

Huangyue Yu 等人的 MetaScenes（CVPR 2025）构建了一个大规模、可模拟的 3D 场景数据集，并提出了 Scan2Sim 模型，能够实现资产的自动化高质量替换，降低对人工设计的依赖，有效提升了具身 AI 的模拟到现实（Sim-to-Real）转化能力。

Irene Wang 等人的 Carbon Aware Transformers 提出了 CATransformers 框架，通过联合优化模型与硬件架构，在保证多模态模型性能的同时，显著降低了系统碳排放。

Roberto Bigazzi 的 Autonomous Embodied Agents 探讨了从概念设计到部署的具身智能体全流程开发，为模拟环境下的智能体训练提供了参考。

Wayne Wu 等人的 URBAN-SIM（CVPR 2025）提供了一个高性能机器人学习平台，通过分层城市生成与异步场景采样，提升了机器人学习的真实性与效率。

Lang Feng 等人的 CoSo（ICML 2025）提出了一种针对视觉语言智能体的在线微调方法，通过反事实推理评估 Token 的因果影响，显著提升了探索效率。

Ruochen Jiao 等人的 Can We Trust Embodied Agents?（ICLR 2025）构建了针对具身决策系统的后门攻击框架（BALD），通过词注入、场景操纵等手段揭示了系统安全漏洞，呼吁加强具身系统的安全性设计。

Jiwen Yu 等人的 A Survey of Interactive Generative Video 梳理了交互式生成视频（IGV）技术，提出了包含生成、控制、记忆等模块的理想系统框架，分析了实时生成与物理模拟的挑战。

Zhuoqi Zeng 等人的 TinyMA-IEI-PPO 提出了一种结合 Stackelberg 博弈与微型强化学习的框架，通过动态结构化剪枝提高了车辆具身智能体的迁移效率。

Seonghee Lee 等人的 IRL Dittos 探讨了共享办公空间中 AI 代理的社交互动，研究了如何通过模拟存在感增强人机交互体验。

Yibin Yan 等人的 StreamFormer 通过因果时间注意力机制，实现了高效的流媒体视频处理，在在线动作检测等任务中表现优异。

Run Luo 等人的 VCM 提出了一种隐式对比学习框架，在无需昂贵标注的情况下构建了视觉概念模型，大幅降低了计算成本。

Rajeev Gupta 等人的 Personalized AGI 引入了神经科学启发的持续学习架构，通过快慢学习模块解决了资源受限环境下的灾难性遗忘问题。

Yiren Xu 等人的 Balancing Creativity and Automation 探讨了 AI 在电影制作中的伦理，建议将 AI 定义为“体现工具”而非“他者伙伴”，以保留人类创作的完整性。

Li Jin 等人的 Embodied World Models 研究发现，持续的感知运动交互足以自发涌现出紧凑的具身世界模型，为导航策略提供了理论依据。

Zishen Wan 等人的 Generative AI in Embodied Systems（ISPASS 2025）分析了生成式 AI 在具身系统中的性能瓶颈，针对规划延迟与内存一致性问题提出了优化策略。

Tianliang Yao 等人的 Advancing Embodied Intelligence in Robotic-Assisted Endovascular Procedures 综述了具身智能在血管内手术中的应用，探讨了数据驱动方法如何增强手术感知与实时控制能力。

Pei Lin 等人的 PP-Tac（RSS 2025）提出了一种利用触觉反馈抓取纸张类物体的系统，通过高分辨率传感器实现了实时滑动检测与摩擦力控制。

Yun Li 等人的 STI-Bench 评估了多模态模型在时空理解上的能力，指出当前模型在精确距离估计与运动分析方面仍面临挑战。

Haotian Xu 等人的 GeoNav 提出了一种具有地理空间推理能力的无人机导航代理，通过动态构建场景图显著提升了导航成功率。

Haoming Li 等人的 PLANET 汇总了评估 LLM 规划能力的基准测试，覆盖了从具身环境到日常任务自动化的多个维度。

Steeven Janny 等人的 Reasoning in visual navigation（CVPR 2025）分析了端到端机器人导航中的推理能力，探讨了价值函数与长期规划之间的联系。

Jirui Yang 等人的 Concept Enhancement Engineering 提出了一种轻量级防御框架（CEE），通过表示工程引导模型内部激活，有效缓解了具身 AI 中的越狱攻击。

Jiaxin Lu 等人的 HUMOTO 提出了一个高精度人-物交互数据集，通过 LLM 脚本生成与多传感器捕捉，为运动生成与具身研究提供了宝贵数据。

Haiyong Yu 等人的 Efficient Task-specific Conditional Diffusion Policies（CVPR 2025 Workshop）提出了 CF-SDP 方法，通过捷径加速与 SO(3) 旋转优化，实现了扩散策略的 5 倍推理加速。

研究总结与趋势

具身智能的研究正在向多模态融合、多智能体协作、系统安全性以及生成式 AI 的高效应用方向深化。从 3D 场景生成到手术机器人，具身智能正通过更逼真的模拟环境与更强的空间推理能力，逐步迈向复杂现实世界。未来，如何在保证系统安全与实时效率的前提下，构建具备持续学习能力的智能体将是核心议题。