Wonder3D:从单张图像生成3D高保真纹理网格的创新方法
正文:
将单张图像重建为三维几何结构一直是计算机图形学和三维计算机视觉领域的基础性任务。这个任务的重要性在于它在虚拟现实、视频游戏、三维内容生成和机器人操作精度等领域都有广泛应用。然而,由于缺乏直接的解决方案,这个任务非常困难,需要能够推断出可见和不可见物体的三维形状的能力。
在一项研究中,作者提出了一种创新方法Wonder3D,用于从单张图像高效生成高保真纹理网格。虽然最近的方法,特别是使用Score Distillation Sampling (SDS)的方法在从二维扩散先验中恢复三维几何时表现出了希望,但它们往往需要耗费大量时间进行逐形状优化,并且几何结构不一致。相反,一些现有的技术直接通过快速网络推理产生三维信息,但其结果通常质量低且缺乏重要的几何细节。
Wonder3D的示意图如上所示。给定单张图像,Wonder3D通过将输入图像、CLIP模型产生的文本嵌入、多视角的相机参数和域切换器作为条件,生成一致的多视角法线图和彩色图像。随后,Wonder3D采用一种创新的法线融合算法从二维表示中稳健地重建高质量的三维几何结构,生成高保真纹理网格。
为了保持生成过程的一致性,研究人员采用了多视角跨领域注意力机制,促进不同视角和模态之间的信息交换。此外,作者还引入了一种几何感知的法线融合算法,从多视角二维表示中提取高质量表面。通过广泛的评估,他们的方法在高质量重建结果、鲁棒的泛化性能和相比之前的方法的提升效率方面取得了成果。
下图展示了Wonder3D在各种动物对象上的定性结果。尽管Wonder3D在从单张图像创建三维形状方面表现出了希望,但它也存在一些局限性。其中一个局限性是它目前只能使用六个不同视角的对象。这使得重建非常薄或有隐藏部分的对象变得困难。此外,如果要使用更多视角,训练过程中需要更多的计算机资源。为了克服这个问题,Wonder3D可以采用更高效的方法处理额外的视角。
在这里,我们可以看到 Wonder3D 在各种动物物体上的定性结果。尽管 Wonder3D 在从单个图像创建3D 形状方面显示出前景,但它有一些局限性。一个限制是,它目前只适用于一个对象的六个不同视图。这使得很难重建非常薄或具有隐藏部分的物体。此外,如果我们想使用更多视图,在训练期间需要更多的计算机能力。为了克服这个问题,Wonder3D可以使用更有效的方法来处理额外的视图。
论文网址:https://arxiv.org/abs/2310.15008
项目网址:https://www.xxlong.site/Wonder3D/