Stable Audio亮相 文本直接生成20多种背景音乐

9月14日,著名开源平台Stability AI在官网发布了音频AIGC产品Stable Audio。用户通过文本提示就能直接生成摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋克、乡村等20多种类型背景音乐。

目前,Stable Audio有免费和付费两个版本,免费版每月可生成20个音乐,最大时长45秒,不能用于商业;付费版每月11.99美元(约87元),可生成500个音乐,最大时长90秒,可用于商业。

免费使用地址:https://www.stableaudio.com/generate

Stable Audio

Stable Audio所使用的潜在扩散模型(Latent Diffusion Models)是一种基于扩散的生成模型,主要在预训练的自动编码器的潜在编码空间中使用。这是一种结合了自动编码器和扩散模型的方法。

自动编码器首先被用来学习输入数据(例如图像或音频)的低维潜在表示。这个潜在表示捕捉了输入数据的重要特征,并且可以被用来重构原始数据。然后,扩散模型在这个潜在空间中进行训练,逐步改变潜在变量,从而生成新的数据。

这种方法的主要优点是可以显著提高扩散模型的训练和推理速度。因为扩散过程在一个相对较小的潜在空间中进行,而不是在原始数据空间中进行,因此可以更高效地生成新的数据。

此外,通过在潜在空间中进行操作,这种模型还可以提供对生成数据的更好控制。例如,可以通过操纵潜在变量来改变生成数据的某些特性,或者通过对潜在变量施加约束来引导数据生成过程。

与原始音频相比,使用大幅度下采样的音频潜在表示可以实现更快的推理效率。通过最新稳定音频模型,Stable Audio能在不到一秒的时间内,使用NVIDIA A100 GPU渲染出95秒的立体声音频,采样率为44.1 kHz。

在训练数据方面,Stable Audio使用了一个超过80万个音频文件组成的数据集,包含音乐、音效以及各种乐器。该数据集包含总计超过1.95万小时的音频,同时与音乐服务商AudioSparx进行合作,所以,生成的音乐可以用于商业化。

服务商动态

亚马逊云科技推出多项存储新服务及功能

2023-9-13 10:35:27

服务商动态

蚂蚁集团发布金融大模型 提供六大类服务

2023-9-14 10:22:27

相关推荐