近日,Stability AI推出了全新的AI模型Stable Fast 3D,可以在0.5秒内快速生成高质量的3D模型,现已上线Hugging Face平台。
不同于传统的3D重建模型,Stable Fast 3D基于TripoSR架构,通过引入多个新模块来改进输出质量。增强的Transformer网络预测更高分辨率的三平面,有助于减少混叠伪影。该网络从DINO切换到改进的DINOv2以获取图像标记,低分辨率(64×64)的三平面会引入明显伪影,而通过提高分辨率可以混叠伪影这一问题。
Stable Fast 3D通过“Material Net”的网络来增强反射对象的输出网格外观,从而在渲染时生成更好的模型材质。该网络从输入图像中预测整个物体的单一金属和粗糙度值。
Stable Fast 3D采用了一种概率预测方法,预测Beta分布的参数,并通过最小化对数似然来训练网络。这样做对于稳定训练并防止直接回归时的网络崩溃很有效果。
为了解决因光照变化(如阴影)导致的问题,Stable Fast 3D还引入了“Light Net”的网络来预测输入图像中的光照。Light Net通过使用从变换器得到的高分辨率Triplane来预测球形高斯照明图。这种巧妙设计允许Stable Fast 3D在渲染时考虑到3D空间关系和物体表面的照明变化,从而生成没有混入光照效果的均匀物体。
Stable Fast 3D使用了一种光照解耦损失函数,确保学习到的照明与训练数据中观察到的照明条件一致,从而解决了外观和阴影之间的歧义。
以上都是Stable Fast 3D在多个方面采取的不同方法,在解决传统的3D重建模型困难的同时,提升Stable Fast 3D的整体性能。
据研究人员的测评显示,Stable Fast 3D优于当前主流3D模型,能够重建准确的形状产生更详细的纹理,并且视觉质量更高。