Meta新开源模型MusicGen亮相 文本直接生成音乐

6月13日,全球社交巨头Meta宣布开源一款新的语言模型MusicGen。MusicGen不仅可以通过文本直接生成音乐,还支持用户上传示例音乐,以增强音乐生成的准确性。

开源地址:https://github.com/facebookresearch/audiocraft

论文地址:https://arxiv.org/abs/2306.05284

免费在线测试地址:https://huggingface.co/spaces/facebook/MusicGen

MusicGenMusicGen基于谷歌在2017年发布的Transformer模型,ChatGPT也借鉴了该模型。该模型使用32kHz EnCodec分词器,4个50 Hz采样的码本进行训练,并且一次可以生成4个样本。

Meta团队一共使用了两万小时的音乐,这之中包括一万条内部搜集的高质量音轨以及ShutterStock和Pond5素材库中的数据,来自后两者的数据量分别为2.5万和36.5万。这些音乐数据在32kHz下被重新采样,都配有流派、BPM等基本信息和复杂一些的文字说明。

MusicGen

除了上述训练数据,Meta团队还准备了评价数据集MusicCaps。MusicCaps由5500条专业作曲家谱写的10秒长的音乐构成,其中包括一千条平衡各个音乐流派的子集。

MusicGen的工作流程:

第一步是将声音信息转化为token。这一步使用的是Meta去年研发的卷积网络编码器EnCodec。至于编码方式,Meta团队通过实验对四种不同的方式进行了测试。最终,团队选择了延时模式并进行了精准建模。

最核心的Transformer部分,团队训练了300M、1.5B、3.3B三个不同参数量的自回归式Transformer。在混合精度下,训练上述三个参数量的Transformer分别使用了32、64和96块GPU。

对于文字处理,在评估了多个前人成果后Meta团队最终选用了Google团队2020年提出的T5模型。对于音乐旋律的调整,团队选用了无监督的方式进行,规避了监督数据不佳导致的过拟合问题。最终,Transformer输出的数据被转换为对数形式,然后根据编码本生成最终的成品。

目前常见的音乐模型有MusicLM、Riffusion、Mousai和Noise2Music等。MusicGen与 MusicLM、Riffusion、Musai等类似产品采用了不同的技术,不依赖自我监督的语义表示。而是以文本描述或旋律特征为条件,可以更好地控制音乐输出符合文本提示标准。MusicGen拥有300M、1.5B和3.3B三种参数。如果在本地使用,16G GPU内存就能运行。

Meta表示,目前MusicGen还处于迭代、优化阶段,未来将开放模型训练代码以及更多的音乐功能,从而颠覆音乐行业的创作流程。

AI俱乐部,致力于打造最专业的AI交流社群。

星球将分享:

1、ChatGPT的使用方法,最新资讯,商业价。

2、邀请顶尖行业大佬,每周给大家发现一个商业落地案例。

3、组织星球小伙伴一起参与实战项目,亲身感受AI浪潮。

4、系列课程和训练营,手把手带着大家去实操ChatGPT。

5、一些副业思考、创业案例、落地案例分享。

6、最早期、专业的AI交流社群。探讨未来关于ChatGPT的机遇,帮助大家解决遇到的问题。

如果有小伙伴感兴趣的话,可以一起加入星球哦!

AI俱乐部

服务商动态

360智脑大模型4.0版本发布 已具备跨模态生成能力

2023-6-14 9:47:48

服务商动态

ChatGPT系列模型大更新 API价格大幅降低

2023-6-15 9:30:08

相关推荐