Stable Diffusion 3即将在6月12日开源

6月3日,Stability AI的联合首席执行官在AMD的产品发布会宣布,文生图模型Stable Diffusion 3即将在6月12日正式开源。

Stable Diffusion 3

此次开源的Stable Diffusion 3的Medium模型有20亿参数,在照片真实感、样式、图片质量、算力资源消耗等方面都进行了大幅度优化,将比前两代更好。同时Stable Diffusion 3也是对标闭源文生图产品Midjourney、DALL·E 3的最佳模型之一,该系列已经被全球数百万开发者使用,很多文生视频/3D模型也借鉴了该架构。

与英伟达相比,AMD在大模型、生成式AI的部署、开发等方面略处于落后,Stability AI开源的大语言模型、扩散模型等的下载量合计超过千万级别,拿下它等同于收获了一大批开发者。

Stable Diffusion 3架构介绍

据悉,Stable Diffusion 3使用了与Sora相同的架构Diffusion Transformer。Diffusion模型作为生成模型的一种,主要通过数据到噪声的逆过程来创造新的数据点。这种方法在图像和视频生成方面应用非常广泛。但是随着Diffusion不断迭代,预训练、推理对算力需求呈指数级增长,对于中小企业、个人开发者来说非常不友好。所以,在Diffusion基础之上又融合了大模型界非常知名的Transformer架构,通过独立的权重处理图像和文本模态,并实现了这两种模态之间的双向信息流。

Diffusion Transformer架构引入新的噪声采样技术,改进了训练Rectified Flow模型的方法。通过偏向感知上相关的尺度,提高了训练的效率和性能。该架构采用了模拟无关的流训练方法,直接回归一个向量场,用于生成数据分布和噪声分布之间的概率路径,有效避免了求解常微分方程所带来的超高算力成本,同时也极大增强了文本语义理解、文字嵌入和图片样式等。

Stable Diffusion 3生成展示

1、将传统教室的概念与牛油果学生的奇特形象融为一体.

2、一只半透明的猪,里面是一只更小的猪.

3、一只青蛙坐在20世纪50年代的快餐厅里,穿着皮夹克,戴着礼帽。桌子上有一个巨大的汉堡和一个写着“Froggy Fridays”的牌子.

4、一只巨大、威严的白色巨龙,它有多个角和类似须的触角,翱翔在崎岖的山脉景观之上。

目前,Stable Diffusion 3 Medium模型只能用于学术研究无法商业化。如果在正式开源后,想商业化的开发者可以联系Stability AI。想使用Stable Diffusion 3 Turbo和其他版本的需要开通Stability AI的会员。

行业动态

OpenAI推出面向高等教育的ChatGPT Edu

2024-5-31 9:59:49

行业动态

浙大、蚂蚁集团联合发布MaPa

2024-6-10 10:20:19

相关推荐