用文本生成音乐,Meta 发布开源 AI 工具 AudioCraft

  • 来源:36氪
  • 时间:2023-08-03 20:42:46

作者 | 虞景霖


(资料图片)

编辑 | 邓咏仪

美东时间 8 月 2 日,Meta 发布了一款开源人工智能(AI)工具 AudioCraft,可以根据用户给出的文本提示创作音频和音乐。

相较于 AI 在生成图像、视频、文本的应用,AI 生成音乐领域的发展相对落后。这是由于生成高质量的音频需要对不同类型的信号、模块进行不同层级的建模,加上该领域开源的代码较少,可以说是 AI 生成内容中最具挑战性的领域。

本次 AudioCraft 以开源的形式进行发布,目的也是为了能够让 " 研究人员和从业人员能够使用自己的数据集训练自己的模型,减少由于训练数据的局限性带来的偏误,推动 AI 生成音乐或音频的发展。"

AudioCraft 包括 AudioGen、EnCodec(改进版)和 MusicGen 三个核心部件。通过 MusicGen 和 AudioGen,AudioCraft 可以将用户给出的文本指令转变为任何类型的音频或者音乐,再由 EoCodec(改进版)进行优化。

AudioGen 是一个 AI 生成音频模型。它能够扩展现有音频,或者通过文本提示生成音频,例如生成狗叫声、汽车喇叭声或者木地板上的脚步声。此外,AudioGen 还能从声学角度区分不同对象的声音,对其进行分类。Meta 使用公开的音效素材对该模型进行训练。

EnCodec(改进版)是一个基于神经网络的音频压缩解码器,能够帮助用户生成人工痕迹更少、更高质量的音乐,还能对音频文件进行无损压缩。

MusicGen 是 Meta 在今年 6 月初推出的开源 AI 模型,能够根据文本提示生成音乐。Meta 使用自有或经过授权的音乐对其进行训练,累计使用约 40 万个音频及文本素材,训练总时长超过 20000 小时。

MusicGen 和 AudioGen 生成音频 / 音乐

尽管 Meta 使用了多个音频素材对模型进行训练,但 Meta 也承认,用于训练 AudioCraft 的数据集缺乏多样性,素材大多为西式音乐,且使用的文本提示语言仅限于英语。通过 AudioCraft 生成的音乐质量尚不足以取代专业人士制作的商用音乐。

Meta 本次采取的策略类似于此前发布 Llama 2 大语言模型——无需商业授权即可使用。因此,AudioCraft 的开源发布可能可以吸引大量用户,而不仅只是那些对文本生成音频感兴趣的用户,扩大 Meta 的知名度。

根据 Meta 的 FAIR 团队介绍,与早期文本生成音频的 AI 模型相比,AudioCraft 大大简化了生成流程。用户能够使用 AudioGen 和 MusicGen 进行音频生成,甚至可以从头开始开发自己的文本生成音频模型。

Meta 并不是第一家 AI 生成音乐的公司。此前,OpenAI 曾在 2020 年推出 AI 音乐生成器 Jukebox,谷歌在今年发布的音乐生成模型 MusicLM,其他常见的类似模型还有 Riffusion、Mousai 和 Noise2Music 等。

关键词:

精彩推送

起底李铁投资版图
旅游 2023/08/03
新疆黄玉属于什么档次
饲料 2023/08/03
和田墨玉的产量
家电 2023/08/03

资讯播报

墨玉 越脏越好
黄金 2023/08/03
炖腊牛肉的家常做法?
科教 2023/08/03
博德之门3铲子位置一览
发现 2023/08/03
怎样写植物
观点 2023/08/03