新突破!Adobe研究人员在5秒内将2D图像转化为3D模型(adobe creative university)
11月10日 消息:Adobe研究人员与澳大利亚国立大学的团队合作,成功开发了一种突破性的人工智能(AI)模型,能够在短短5秒内将单一2D图像转化为高质量的3D模型。
这一突破性技术在他们的研究论文《LRM:单一图像到3D的大型重建模型》中有详细介绍,有望彻底改变游戏、动画、工业设计、增强现实(AR)和虚拟现实(VR)等领域。
研究人员表示,他们的目标是从一张任意对象的2D图像中迅速创建一个3D形状。这一技术有着广泛的应用前景,对于工业设计、动画、游戏以及AR/VR等领域都具有巨大的潜力。此前的方法通常是针对特定类别的小型数据集进行训练,而这一模型采用了高度可扩展的基于变压器的神经网络架构,拥有超过5亿个参数,并在端到端的方式上训练,从输入图像直接预测神经辐射场(NeRF)。
研究人员强调,这一高容量模型和大规模训练数据的结合使他们的模型具有高度通用性,可以从各种测试输入中生成高质量的3D重建,包括从真实世界野外捕捉的图像以及来自生成模型的图像。
研究中的主要作者Yicong Hong表示,LRM代表了单一图像3D重建的一项突破。他指出,LRM是首个大规模3D重建模型,包含超过5亿个可学习参数,经过训练的数据包括各种类别的约100万个3D形状和视频数据。实验结果显示,LRM可以从真实世界的图像以及由AI生成模型(如DALL-E和Stable Diffusion)创建的图像中重建高保真的3D模型,同时保留复杂的纹理,如木纹。
这一技术有望在多个领域产生深远影响,从工业设计到娱乐和游戏。在视频游戏或动画制作中,它可以简化创建3D模型的流程,降低时间和资源开支。在工业设计领域,该模型可以通过从2D草图中创建准确的3D模型,加快原型制作的过程。在AR/VR领域,LRM可以通过实时生成详细的3D环境,提升用户体验。
此外,LRM的能力在处理野外捕捉的图像方面具有潜力,为用户生成内容和3D建模的民主化开辟了新的可能性。用户有望从使用智能手机拍摄的照片中创建高质量的3D模型,从而开辟了创意和商业机会。
尽管有着令人兴奋的前景,研究人员也承认LRM存在一些限制,如处理遮挡区域的模糊纹理生成。但他们表示,这项工作展示了基于大规模数据集训练的大型变压器模型具有学习通用的3D重建能力的潜力。
项目网址:https://yiconghong.me/LRM/