热门资讯

D4RT – 谷歌推出的动态4D重建与追踪模型

业界来源：AI工具集 2026-01-26 02:55:53

D4RT是什么

D4RT（Dynamic 4D Reconstruction and Tracking）是谷歌 DeepMind 推出的动态 4D 重建模型。模型通过统一的「时空查询」接口，将 3D 重建、相机追踪和动态物体捕捉等任务整合，用全局场景表征和并行计算，实现高效处理。D4RT 的速度比现有技术快 18 到 300 倍，能精准还原动态场景和预测物体轨迹。D4RT为具身智能、自动驾驶和增强现实等领域提供强大的技术支持，标志着 AI 从二维识别迈向四维时空洞察的重要进步。

D4RT的主要功能

全像素级动态追踪：D4RT能追踪视频中每一个像素的3D轨迹，对静止物体和高速运动，都能精准还原时空位置。
实时3D重建：模型实时重建动态场景的3D结构，生成高质量的点云数据，支持从任意视角查看场景。
相机位姿估计：D4RT能准确估计相机在视频中的运动轨迹和姿态，为多视角重建提供支持。
未来轨迹预测：基于对动态场景的理解，D4RT可预测物体在未来时间点的位置和运动轨迹。
交互式4D重建：用户可通过查询接口获取任意时间点和空间位置的信息，实现高度灵活的场景分析和重建。

D4RT的技术原理

全局场景表征：D4RT用一个大型Transformer编码器将整段视频压缩成一个全局场景表征（Global Scene Representation），作为视频的“长期记忆”，为后续查询提供基础。
时空查询机制：通过设计一种通用的查询接口，D4RT支持模型独立查询任意像素在任意时间点的3D位置。查询中包含像素坐标、时间戳、相机视角以及周围9×9图像块，提供丰富的上下文信息。
并行计算优化：由于每个查询独立，D4RT可充分用GPU/TPU的并行计算能力，同时处理大量查询，实现比传统技术快18到300倍的高效推理。
轻量级解码器：D4RT的解码器基于轻量级设计，能快速响应查询请求，无需复杂的逐帧解码，大大提高效率。