Stable Audio亮相文本直接生成20多种背景音乐

服务商动态
2023年9月14日
0
编辑

9月14日，著名开源平台Stability AI在官网发布了音频AIGC产品Stable Audio。用户通过文本提示就能直接生成摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋克、乡村等20多种类型背景音乐。

目前，Stable Audio有免费和付费两个版本，免费版每月可生成20个音乐，最大时长45秒，不能用于商业；付费版每月11.99美元(约87元)，可生成500个音乐，最大时长90秒，可用于商业。

Stable Audio

Stable Audio所使用的潜在扩散模型(Latent Diffusion Models)是一种基于扩散的生成模型，主要在预训练的自动编码器的潜在编码空间中使用。这是一种结合了自动编码器和扩散模型的方法。

自动编码器首先被用来学习输入数据(例如图像或音频)的低维潜在表示。这个潜在表示捕捉了输入数据的重要特征，并且可以被用来重构原始数据。然后，扩散模型在这个潜在空间中进行训练，逐步改变潜在变量，从而生成新的数据。

这种方法的主要优点是可以显著提高扩散模型的训练和推理速度。因为扩散过程在一个相对较小的潜在空间中进行，而不是在原始数据空间中进行，因此可以更高效地生成新的数据。

此外，通过在潜在空间中进行操作，这种模型还可以提供对生成数据的更好控制。例如，可以通过操纵潜在变量来改变生成数据的某些特性，或者通过对潜在变量施加约束来引导数据生成过程。

与原始音频相比，使用大幅度下采样的音频潜在表示可以实现更快的推理效率。通过最新稳定音频模型，Stable Audio能在不到一秒的时间内，使用NVIDIA A100 GPU渲染出95秒的立体声音频，采样率为44.1 kHz。

在训练数据方面，Stable Audio使用了一个超过80万个音频文件组成的数据集，包含音乐、音效以及各种乐器。该数据集包含总计超过1.95万小时的音频，同时与音乐服务商AudioSparx进行合作，所以，生成的音乐可以用于商业化。

AI AIGC 人工智能

服务商动态

亚马逊云科技推出多项存储新服务及功能

2023-9-13 10:35:27

服务商动态

蚂蚁集团发布金融大模型提供六大类服务

2023-9-14 10:22:27

相关推荐

TOP1

宝塔面板怎么买划算专业版、企业版价格和购买建议
9小时前
TOP2

雨云和尊云香港云服务器对比测评：线路、防护、价格和购买建议
10小时前
TOP3

关于聚名网新增域名隐私保护设置功能的通知
2026年6月16日
UCloud安全加固Hermes Agent指南
2026年6月16日
萤光云韩国云服务器方案怎么选跨境业务和亚洲访问场景分析
2026年6月16日
硅云和亿速云香港云服务器对比测评：线路、场景和购买建议
2026年6月16日