Meta宣布开源文本生成音乐模型Audiocraft

8月3日,全球社交、科技巨头Meta宣布开源文本生成音乐模型Audiocraft。据悉,Audiocraft是一个混合模型,由MusicGen、AudioGen和EnCodec组合而成,仅用文本就能生成鸟叫、汽车喇叭声、脚步等背景音频,或更复杂的音乐,适用于游戏开发、社交、视频配音等业务场景。

Audiocraft

Audiocraft是目前功能最强大的开源音乐模型之一,由MusicGen、AudioGen和EnCodec三个模型组合而成:

MusicGen是一个文本生成音乐的自回归语言模型,大约使用了40万份文本描述和元数据的录音,总计2万小时的授权音乐进行训练,可通过文本自动生成摇滚、流行、重金属、RPA等类型音乐。

AudioGen是一个文本生成音频的自回归语言模型,具备分离音频功能,例如,可识别背景声、说话声和物体发出的声音等。这有助于仅使用文本生成音频时,更准确贴近用户的目标音乐。

EnCodec是一个高保真音频、音乐的压缩和解压器,可以用最小的体积尽可能还原原始音乐,这对于打造高质量音频模型来说至关重要。EnCodec由编码器、量化器和解码器三大块组成。

编码器:通过获取未压缩的数据,并将其转换为更高维度和更低帧速率的表示。

量化器:将编码器生成的“表示”压缩到目标大小,同时保留最重要的信息来重建原始信号。

解码器:将压缩信号转换回,与原始信号尽可能相似的波形。因为在低比特率下不可能进行完美的重建,所以,使用了鉴别器来提高音频生成样本的质量。

服务商动态

阿里云语言AI市场份额连续四年排名第一

2023-8-2 10:25:02

服务商动态

阿里云大模型应用产品持续升级 通义听悟上线三大实用功能

2023-8-4 9:30:02

相关推荐