返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Seed Research│Depth Anything 3:单一Transformer架构实现任意视角空间重建

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;text-indent: 0em;">人类能够通过一张照片、一段视频,迅速在脑海中构建出一个空间的立体样貌。这种能力源于我们对不同视角空间几何关系的理解与推理,而机器想要理解、参与物理世界,就需要提升空间智能,对场景精准重建。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;text-indent: 0em;">当前的视觉空间重建模型大多依赖复杂的架构和多任务学习方法,通过不同的网络模块分别处理深度估计、相机姿态估计和多视图几何重建等任务。然而,这些方法常常面临架构过于庞大、任务间耦合性强等问题,导致模型难以灵活应对多任务场景。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;text-indent: 0em;">近日,字节跳动 Seed 团队发布视觉空间重建模型Depth Anything 3(DA3)

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;text-indent: 0em;">作为 Depth Anything 系列最新开源续作,它突破性地将单目深度估计的能力扩展至任意视角。与传统的多视图几何重建方法相比,DA3 不再依赖复杂的专用架构,通过一个简洁高效的 Transformer 模型,即可精准实现不同视角下的空间感知。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;text-indent: 0em;">DA3 两大关键特征如下:

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;text-indent: 0em;">(1)架构简洁仅需一个 Transformer,无需额外的定制化架构,模型即具备强大的视觉预训练能力,因架构轻量,训练与部署更高效。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;text-indent: 0em;">(2)表征统一:采用单一的 “深度-射线” 表征法,无需引入额外的多任务训练方式,统一表征让模型专注于核心空间几何关系的学习,并在多个任务上获得更稳定的表现,实现精度与效率的双重优化。

DA3 能够快速完成不同场景的 3D 重建任务

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;text-indent: 0em;">通过采用“简洁设计 + 精准聚焦”思路,DA3 刷新了业界视觉空间重建 SOTA 水平:在相机姿态精度任务中,DA3 较此前主流模型 VGGT 提升 35.7%;在几何重建精度上,DA3 较 VGGT 提升 23.6%;在单目深度估计任务上,DA2 此前已经达到 SOTA 性能,DA3 则在其基础上进一步提升。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;text-indent: 0em;">


1. 去繁从简,提炼空间重建底层机制

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);line-height: 1.75em;text-indent: 0em;">在空间智能领域,3D 感知重建技术是连接二维视觉信息与三维物理世界的关键桥梁,广泛应用于自动驾驶、机器人、虚拟现实、建筑测绘等领域。不过,当前主流模型面临架构冗杂与输出表征耦合低效两大挑战,阻碍了 3D 感知重建技术的进一步发展。

DA3 回到空间几何建模的本质,以“最小建模方式”作为核心设计原则,重新界定了模型应具备的关键基础能力。

DA3 使用单一 Transformer,并引入输入自适应的跨视图自注意力机制,通过双 DPT 头,从视觉特征中预测深度图和射线图。

  • 用单一架构聚焦几何本质

传统方法中,视觉空间重建模型应对不同任务时,需要分别搭建网络模块和接口,导致架构复杂,对计算资源要求极高。DA3 团队判断,几何空间重建在本质上都依赖跨视图特征关联和全局空间建模,这些可以在同一套建模机制中统一处理,无需为各任务额外设计专用模块。

基于任务抽象,团队回到模型能力的底层机制进行了推导:Transformer 的自注意力机制天然支持长距离依赖捕捉,能灵活处理任意数量输入视图,动态交换跨视图信息。它无需额外设计特征融合模块,即能匹配空间几何建模的核心需求。

实验结果也进一步表明,复杂的定制化架构虽可能在特定任务上带来微小的性能提升,但整体收益有限,训练与部署成本显著提高,且限制了在移动端和嵌入式场景的应用。

基于上述推导,DA3 采用单一 Transformer 作为基础结构,实现了简洁的模型设计,且可在不同 3D 任务上保持稳定、高效的推理表现。

  • 打造视觉空间重建最小完备输出

在3D重建任务中,输出形式与特定任务强绑定,不同形式之间缺乏统一逻辑关联,导致信息难以复用和共享。同时,冗余输出也增加了训练负担,干扰了核心几何信息的学习和推理效率。

DA3 团队回到几何建模的本质问题:一个模型到底需要输出什么,才能完整描述 3D 空间?团队最终提出以 “深度-射线” 作为统一表征深度能给出像素到相机的距离,射线能给出像素在三维空间中的投影方向。这种表征法能够完整且简洁地涵盖3D 重建所需的核心几何信息,无需额外输出冗余的任务专用表征。

现有主流方法通常采用 3D 点云作为核心表征,并在同一坐标系下预测不同视角的点云,以约束空间几何一致性。然而点云将空间几何结构与相机运动绑定,使模型必须同时学习两类信息,增加了优化难度。为缓解这一耦合,现有主流方法被迫添加额外的预测头来分别输出深度、相机运动信息、图片坐标下的点云,进一步加大了系统复杂度。

相比之下,“深度-射线”表征则将几何与运动自然解耦。通过这种方式,模型能更轻易地获取高精度的几何信息和相机运动信息,还能快速恢复 3D 点云,实现了输出表征的极简与高效。


2. 一步完成高精度输出,无需迭代优化

采用上述策略,DA3 通过一次前馈即可生成高精度输出,避免了传统方法中需多次迭代优化的复杂过程。这种设计显著提升了推理速度,简化了训练与部署,同时确保了3D 重建任务的精确和高效。

在“跑酷”难度级别的任务中,DA3 表现出优良的空间感知能力。如下图所示,给模型输入长度 28 秒的视频,相机镜头快速移动,运动视角与场景处于高速变化中,DA3 能够在单次反馈中捕捉到相机运动、人物运动轨迹和场景的细节变化。

在大范围的环境中,精确的视觉几何估计对 SLAM(同步定位与地图构建)至关重要。如下所示,DA3 在处理 10 公里超大场景 SLAM 重建任务中维持了优良性能。这一优势表明,DA3 的架构思路不仅适用于小规模、静态的场景,也能在大规模动态环境中,提供可靠的几何重建结果。

实验表明,DA3 在任意图像的前馈 3D 高斯重建和新视角渲染任务中,也可快速恢复 3D 空间结构,并在新视角合成上具备极强的泛化性。

车辆拍摄到多个不同视角的图像时,DA3 能够无缝地估计稳定且可融合的深度图。通过这种方式,DA3 可帮助自动驾驶系统更精确地理解周围环境的三维结构,提升车辆在复杂场景中的感知能力和决策能力。


3. 团队展望:实现人类水平的视觉识别能力

在认知神经科学中,人类大脑皮层通过两条视觉通路处理信息:一条通路负责理解语义信息,如物体身份和颜色,另一条通路则负责理解空间几何信息,如物体位置、运动和空间关系。人类能够通过这两条通路的协作,高效地完成视觉识别任务。Depth Anything 系列研究的初心,便是让 AI 具备类人的空间感知能力。

目前,视觉语言模型已在语义理解方面取得显著突破,部分任务的表现已接近甚至超越人类水平。然而,空间几何感知依然是一个核心挑战,AI 在此领域尚处于初步阶段,需要进一步的技术突破。

DA3 的进展为视觉空间重建提供了新的可能性,它突破了单目深度估计和多视角重建的技术瓶颈,向精准的空间几何感知又迈进一步。团队期望,随着空间智能的发展,AI 不仅能理解图像中的语义信息,还将融合语义识别与空间感知,最终实现完整的视觉识别能力。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ