我要投稿

微软用于音乐理解和大型语言模型生成AI音乐智能体-Muzic

发布日期：2024-06-11 13:08:40 浏览次数： 4124

作者：苏哲管理咨询

微信搜一搜，关注“苏哲管理咨询”

Dingyao Yu1,2, Kaitao Song2, Peiling Lu2, Tianyu He2 Xu Tan2, Wei Ye1∗, Shikun Zhang1∗, Jiang Bian2

Peking University1, Microsoft Research Asia2 {yudingyao,wye,zhangsk}@pku.edu.cn, {kaitaosong, peil, tianyuhe,xuta,jiabia}@microsoft.com https://github.com/microsoft/muzic

摘要

人工智能赋能的音乐处理是一个多样化的领域，包含数十项任务，从生成任务（例如音色合成）到理解任务（例如音乐分类）。对于开发者和业余爱好者来说，很难掌握所有这些任务来满足他们在音乐处理方面的要求，特别是考虑到各种任务之间音乐数据表示和跨平台模型适用性的巨大差异。因此，有必要建立一个系统来组织和整合这些任务，从而帮助从业者自动分析他们的需求，并调用合适的工具作为解决方案来满足他们的需求。受大型语言模型（LLM）最近在任务自动化方面取得成功的启发，我们开发了一个名为MusicAgent的系统，该系统集成了许多与音乐相关的工具和自主工作流程，以满足用户的需求。更具体地说，我们构建了 1）从不同来源收集工具的工具集，包括 Hugging Face、GitHub 和 Web API 等。 2）由 LLM（例如 ChatGPT）授权的自主工作流程来组织这些工具并自动将用户请求分解为多个子任务并调用相应的音乐工具。该系统的主要目标是将用户从错综复杂的人工智能音乐工具中解放出来，使他们能够专注于创意方面。通过让用户自由地轻松组合工具，该系统提供了无缝和丰富的音乐体验。该代码可在 GitHub1 上找到，并附有一个简短的教学视频2。

1 前言

人工智能赋能的音乐处理是一个多方面和复杂的领域，涵盖广泛的范围

*Corresponding Author: Wei Ye, wye@pku.edu.cn;

Shikun Zhang, zhangsk@pku.edu.cn

1https://github.com/microsoft/muzic/tree/main/ musicagent

2https://youtu.be/tpNynjdcBqA

图 1：MusicAgent 收集了丰富的音乐相关任务和多样化的工具来源，将它们与 LLM 有效集成，以熟练处理复杂的音乐任务。由于它涉及广泛的任务，掌握这个领域是一项具有挑战性的工作。一般来说，音乐领域包括各种生成和理解任务，例如歌曲创作（Sheng et al.， 2021;Ju et al.， 2021）、音乐生成（Agostinelli et al.， 2023;Dai 等人，2021 年;Lu 等人，2023 年;Lv 等人，2023 年）、音频转录（Benetos 等人，2018 年;Foscarin et al.，2020）、音乐检索（Wu et al.， 2023b）等。具体来说，音乐是一种复杂的艺术形式，它将各种不同的元素（例如和弦和节奏）交织在一起，以创造充满活力和复杂的内容。

以前的作品在协作完成复杂的音乐任务时经常遇到挑战，主要是由于音乐功能设计的差异和跨平台的变化。因此，如何根据不同专业水平的用户的要求，构建一个系统来自动完成与音乐相关的任务，仍然是一个值得探索的诱人方向。

最近，大型语言模型（LLM）因其在解决自然语言处理（NLP）任务方面的出色表现而引起了相当大的关注（Brown et al.， 2020;欧阳等人，2022 年;Zhang 等人，2022b;Chowdhery 等人，2022 年;Zeng 等人，2022 年;Touvron 等人，2023 年）。LLM 的巨大潜力也激发并直接促进了许多新兴技术（例如，情境学习（Xie et al.， 2021;Min 等人，2022 年）、指导调优（Longpre 等人，2023 年;Wang et al.， 2022）和思维链提示（Wei et al.， 2022;Kojima et al.， 2022）），这也进一步提升了 LLM 的能力。基于这些LLM能力，许多研究人员将LLM的范围扩展到各种主题。他们借用了 LLM 作为控制器的想法来编排各种特定领域的专家模型来解决复杂的 AI 任务，例如 HuggingGPT（Shen et al.， 2023）、AutoGPT 和其他特定模态模型（Chen et al.，2022;Wu 等人，2023a;Huang 等人，2023 年）。这些成功也激励我们探索开发一种能够协助完成各种音乐相关任务的系统的可能性。

与其他模式不同，将 LLM 与音乐相结合会带来以下特点和挑战：

1.工具多样性：一方面，与音乐相关的任务表现出广泛的多样性，另一方面，这些任务的相应工具可能并不总是驻留在同一个平台上。这些工具可以是 GitHub 等开源社区中可用的参数化模型，以软件和应用程序的形式呈现，甚至可以通过 Web API 托管某些检索任务。在进行全面的音乐工作流程时，考虑所有这些因素至关重要。

2.协同：音乐工具之间的协作也受到两个因素的制约。首先，音乐领域任务的多样性导致缺乏明确的输入输出模式标准。其次，即使模态相同，音乐格式也可能不同，例如，符号音乐和音频音乐之间。

为了解决这些问题，我们推出了MusicAgent，这是一个旨在应对挑战的专家系统。受 HuggingGPT （Shen et al.， 2023）等最新工作的启发，MusicAgent 是一个利用 LLM 作为控制器和大量专家工具的强大功能来完成用户指令的框架，如图 1 所示。对于工具集，除了利用 Hugging Face 提供的模型外，我们还进一步集成了来自不同来源的各种方法，包括来自 GitHub 和 Web API 的代码。为了实现不同工具之间的协作，MusicAgent 在各种任务中强制执行标准化的输入输出格式，以促进工具之间的无缝协作。作为一个与音乐相关的系统，所有样本都经过修剪以适合单个音频片段，从而促进了样本之间的基本音乐操作。有关集成其他工具的更多系统详细信息和指南，请参阅第 3 节。

总体而言，MusicAgent 提供了几个重要贡献：

•可访问性：MusicAgent 消除了掌握复杂 AI 音乐工具的需要。通过利用 LLM 作为任务规划器，系统为每个与音乐相关的任务动态选择最合适的方法，使更广泛的受众可以使用音乐处理。

•统一性：MusicAgent 通过统一数据格式（例如文本、MIDI、ABC 符号、音频）弥合了来自不同来源的工具之间的差距。该系统可实现不同平台上工具之间的无缝协作。

•模块化：MusicAgent 具有高度可扩展性，允许用户通过实现新功能、集成 GitHub 项目和合并 Hugging Face 模型来轻松扩展其功能。

2 相关工作

2.1人工智能赋能的音乐处理

音乐的产生和理解是多方面的任务，包括各种子任务。在音乐生成领域，这些任务涉及旋律生成（Yu et al.，2020;Zhang 等人，2022a;Yu 等人，2022 年）、音频生成（Donahue 等人，2018 年）、歌唱声音合成（任等人，2020 年;Lu et al.， 2020）和混音。相比之下，音乐理解包括音轨分离（Défossez 等人，2019 年）、音频识别、乐谱转录（Bittner 等人，2022 年）、音频。

图 2：MusicAgent 由四个核心组件组成：任务规划器、工具选择器、任务执行器和响应生成器。其中，任务规划器、工具选择器和响应生成器基于语言模型（LLM）构建。当用户发出请求时，MusicAgent 会分解请求并将其组织成子任务。然后，系统为每个任务选择最合适的工具。所选工具将处理输入并填充预期输出。随后，LLM组织输出，最终形成全面而高效的输出音乐处理系统。

分类（Choi et al.， 2017;Zeng et al.， 2021）和音乐检索（Wu et al.， 2023b）。除了这些多样化和复杂的音乐相关任务外，传统音乐处理的另一个重大挑战是每个任务的输入和输出格式存在很大差异。这些任务和数据格式的多样性也阻碍了音乐处理的统一，这使得我们很难开发出用于解决不同音乐任务的副驾驶。因此，在本文中，我们将讨论如何设计一个统一音乐数据格式的副驾驶，并结合这些工具，利用大型语言模型自动完成任务。

2.2大型语言模型

由于大型语言模型（LLM）的出现，自然语言处理（NLP）领域正在经历革命性的转变。这些模型（Brown 等人，2020 年;Touvron et al.， 2023）在翻译、对话建模和代码完成等各种语言任务中表现出强大的性能，使其成为 NLP 的焦点。

基于这些优点，LLM 已被应用于许多应用程序。最近，一个新趋势是使用 LLM 来构建用于任务自动化的自主代理，就像 AutoGPT 和 HuggingGPT 一样（Shen et al.， 2023）。在这些工作中，他们将利用 LLM 作为控制器来自动分析用户请求，然后调用适当的工具来解决任务。尽管在视觉（Chen et al.， 2022）或言语（Huang et al.， 2023）方面有一些成功的试验，但由于其任务和数据的多样性和复杂性，构建用于音乐处理的自主代理仍然具有挑战性。因此，我们提出了一个名为MusicAgent的系统，它集成了各种功能来处理多个与音乐相关的任务，以完成来自不同用户（包括新手和专业人士）的请求。

表 1：MusicAgent 中的任务和相关示例工具的概述。

任务输入输出任务类型示例工具

文本到符号音乐文本符号音乐 生成 MuseCoco 歌词到旋律文本符号音乐 生成 ROC 唱歌-语音合成-文本音频 生成 HiFiSinger 文本转音频 生成音频LDM 音色传输音频 生成 DDSP 伴奏符号音乐 符号音乐 生成 GetMusic 音乐分类 音频文本 了解 Wav2vec2 音乐分离音频 音频 了解 Demucs 歌词识别音频文本 了解 Whisper-large-zh 乐谱转录音频文本 了解基本音高艺术家/音轨搜索文本音频 辅助Spotify API 歌词生成文本文本 辅助 ChatGPT

3 MusicAgent音乐智能体

MusicAgent是一个综合系统，它通过集成其他数据源、依赖工具和任务专业化来增强大型语言模型（LLM）的功能，并使其适应音乐领域。如图 2 所示，MusicAgent 设计了一个 LLM 授权的自主工作流程，其中包括三个关键技能：任务规划器、工具选择器和响应生成器。这些技能与构成任务执行器的音乐相关工具被集成在一起，从而形成了一个能够执行各种应用程序的多功能系统。在本节中，我们将深入研究该系统的不同方面，探索其功能和对音乐处理领域的贡献。

3.1 任务和工具集合

表 1 全面概述了当前 MusicAgent 中收集的音乐相关任务和代表性工具。我们根据图 3 所示的音乐处理流程组织了任务集。除了生成和理解任务外，收集的任务主要分为三组：

图 3：MusicAgent 在音乐生成和理解的框架内收集任务和工具。

它包括各种任务，包括单模态任务和模态转移任务，例如通过歌唱语音合成将乐谱转换为音频。

生成任务：此类别包括文本到音乐、歌词到旋律、歌唱-语音-合成、音色传递、伴奏等。这些任务使协作音乐生成成为可能，从简单的描述开始。

理解任务：音乐分类、音乐分离、歌词识别、和音乐转录属于这一类.

图 4：LLM 后端负责以下步骤：任务规划器接受用户请求并生成解析的任务队列，工具选择器选择合适的工具，响应生成器收集工具输出并组织响应。

。结合这些任务可以将音乐转换为符号表示并分析各种音乐特征。

辅助任务：此类别包括 Web 搜索和各种音频处理工具包。网络搜索包括使用 Google API 的文本搜索，以及通过 Spotify API 进行的音乐搜索。这些任务主要提供丰富的数据源，并对音频/MIDI/文本数据执行基本操作，作为辅助功能。

此外，图 3 说明了系统中三种主要数据格式的使用情况：

i）文本，包括歌词、流派或与音乐相关的任何其他属性。

ii）ii）乐谱，表示为 MIDI 文件，描述乐谱的乐谱。

iii）iii）音频，包含音乐的声音。

3.2 自主工作流程

MusicAgent系统由两部分组成：自主工作流程和插件。自主工作流是 LLM 的核心交互组件，如图 2 所示，它包含三个技能：任务规划器、工具选择器和响应生成器，所有这些都由 LLM 支持。图 4 进一步演示了这些组件如何和谐地协同工作。

任务规划器：任务规划器在将用户指令转换为结构化信息方面起着关键作用，因为大多数现有的音乐工具只接受专门的输入。任务规划器处理的用户输入将构成整个工作流的骨干，包括确定每个子任务及其相应的输入输出格式，以及子任务之间的依赖关系，从而创建依赖关系图。利用上下文学习，MusicAgent 展示了出色的任务分解性能。我们在提示中提供了任务计划器描述、支持的任务和信息结构，以及几个与音乐任务相关的分解示例。用户的交互历史和当前输入将替换提示中相应位置的内容。通过利用语义内核（Microsoft，2023），用户可以以文本格式插入所需的任务流，从而提高任务规划的有效性。工具选择器：工具选择器从与特定子任务相关的开源工具中选择最合适的工具。每个工具都与其独特的属性相关联，例如文本描述、下载次数、星级等。通过将这些工具属性与用户输入相结合，LLM 会显示工具的 ID 和相应的推理，以说明它认为最合适的选择。用户可以灵活地调整工具属性，并确定 LLM 如何解释这些属性。例如，用户可以强调下载次数以满足不同的要求。响应生成器：响应生成器从子任务的执行中收集所有中间结果，并最终将它们编译成一个连贯的响应。图 5 中的示例演示了 LLM 如何组织任务和结果以生成答案。

3.3 插件

当子任务的所有依赖任务都已完成，并且所有输入都已实例化后，LLM 后端将任务传递给任务执行器，该工具从输入中选择必要的参数。此外，该工具需要标识任务类型，因为一个工具可以处理多个任务。

MusicAgent将模型参数存储在 CPU 上，并且仅在使用时将它们加载到 GPU 中。这种方法对于GPU内存有限的用户特别有利，因为它优化了资源利用率，并确保了任务的顺利执行，而不会使GPU内存过重。

4 系统使用

在本节中，我们将提供有关如何有效使用 MusicAgent 工具包的全面指南。

4.1 Code 用例

用户可以灵活地运行此系统，方法是按照 GitHub 上的说明操作，或者将其作为模块集成到他们的代码中，或者通过命令行使用它进行更高级的用法，从而实现自定义工具的合并。如清单 1 所示，用户可以为每个子任务添加自定义任务类型、更新工具属性和设计提示，从而增强对特定任务的支持。需要注意的是，在历史记录中嵌入提示是临时操作，如果上下文超出限制，则存在重叠的可能性。对于永久存储，建议直接在代码中包含提示。

## 1.从代理导入 MusicAgent music_agent = MusicAgent（CONFIG_PATH）初始化代理

## 2.添加自定义任务和工具

music_agent.task_map[MY_TASK].append（

MY_TOOL） music_agent.pipelines.append（

MY_TOOL_CLASS） # 更新提示 music_agent._init_task_context（） music_agent._init_tool_context（）

## 3.更新工具的信息 music_agent.update_tool_attributes（

MY_TOOL， {“stars”：..，“likes”：..}）music_agent._init_tool_context（）

## 4.更新提示

#以任务规划器为例

#有被覆盖的风险 music_agent.task_context[“history”] +=

“我的␣自定义␣提示”

## 5.与代理聊天

music_agent.chat（“生成␣a␣歌曲...”）

Listing 1: Code usage of MusicAgent

4.2 Demo 用例

除了命令行使用外，我们还为用户提供了一个 Gradio 演示，其中需要 OpenAI 令牌。在 Gradio 演示中，用户可以直接上传音频并直观地观察系统生成的所有中间结果，如图 6 所示。此外，尽管 MusicAgent 包含内置的上下文截断，但用户仍然可以清除界面中的所有 LLM 交互历史记录以刷新代理。

5 结论

在本文中，我们介绍了MusicAgent，这是音乐领域中LLM驱动的自治代理。我们的系统可以被视为辅助工具，帮助开发人员或受众自动分析用户请求并选择合适的工具作为解决方案。此外，我们的框架直接集成了来自各种来源的众多音乐相关工具（例如，Hugging Face、GitHub、Web 搜索等）。我们还调整了自主工作流程，以实现更好的音乐任务兼容性，并允许用户扩展其工具集。未来，我们还进一步设想将更多与音乐相关的功能集成到MusicAgent中。

致谢

我们感谢所有匿名审稿人和Microsoft Research Asia机器学习小组的成员，感谢他们在开发该系统时做出的宝贵贡献和有见地的建议。

6 引用参考

安德里亚·阿戈斯蒂内利、蒂莫·登克、扎兰·博尔索斯、杰西·恩格尔，毛罗· 韦尔泽蒂，安托万· 卡永，Qingqing Huang， Aren Jansen， Adam Roberts， Marco Tagliasacchi， et al. 2023.Musiclm：从文本生成音乐。arXiv 预印本 arXiv：2301.11325。

埃马努伊·贝内托斯、西蒙·迪克森、段志尧和塞巴斯蒂安·埃沃特。2018. 自动音乐转录：概述。IEEE信号处理杂志，36（1）：20–30。

雷切尔·比特纳、胡安·何塞·博世、大卫·鲁宾斯坦、加布里埃尔·梅塞格-布罗卡尔和塞巴斯蒂安·埃沃特。2022.

用于复调音符转录和多音高估计的轻量级乐器无关模型。IEEE声学、语音和信号处理国际会议（ICASSP）论文集，新加坡。

汤姆·布朗、本杰明·曼、尼克·莱德、梅兰妮·苏比亚、贾里德·卡普兰、普拉富拉·达里瓦尔、阿尔文德尼拉坎坦、普拉纳夫·希亚姆、吉里什·沙斯特里、阿曼达

Askell等人，2020 年。语言模型是少数学习者。神经信息处理系统进展，33：1877–1901。

陈军、韩郭、一开、李博阳和穆罕默德·埃尔霍西尼。2022. Visualgpt：对图像字幕的预训练语言模型进行数据高效适配。在 IEEE/CVF 计算机视觉和模式识别会议论文集，第 18030–18040 页。

Keunwoo Choi、György Fazekas、Mark Sandler 和 Kyunghyun Cho。2017. 用于音乐分类的卷积递归神经网络.2017年IEEE声学、语音和信号处理国际会议（ICASSP），第2392-2396页。IEEE的。

阿坎沙·乔杜里、沙兰·纳朗、雅各布·德夫林、马滕·博斯马、高拉夫·米什拉、亚当·罗伯茨、Paul Barham、Hyung Won Chung、Charles Sutton、Sebastian Gehrmann 等人，2022 年。Palm：使用路径扩展语言建模。arXiv 预印本 arXiv：2204.02311。

戴淑琪、金泽宇、塞尔索·戈麦斯和罗杰·丹能伯格。2021. 通过分层音乐结构表示实现可控的深沉旋律生成.arXiv 预印本 arXiv：2109.00663。

亚历山大·德福斯、尼古拉斯·乌苏尼尔、莱昂·博图和弗朗西斯·巴赫。2019. Demucs：用于重新混合额外未标记数据的音乐源的深度提取器。arXiv 预印本 arXiv：1909.01174。

克里斯·多纳休、朱利安·麦考利和米勒·帕克特。2018. 对抗性音频合成。arXiv 预印本 arXiv：1802.04208。

弗朗切斯科·福斯卡林、安德鲁·麦克劳德、菲利普·里戈、弗洛伦特·雅克马尔和酒井雅彦。2020. Asap：钢琴转录的对齐乐谱和演奏数据集。国际音乐信息检索学会会议，CONF，第534-541页。

黄荣杰，李明泽，杨东超，石家彤，张宣凯，叶振辉，吴宇宁，洪志清，黄佳伟，刘景林， et al. 2023.

Audiogpt：理解和生成语音、音乐、声音和说话的头部。arXiv 预印本 arXiv：2304.12995。

鞠泽谦，卢佩玲，谭徐，王锐，张晨，吴松若瑶，张克军，李向阳，秦涛，刘铁岩.2021. Telemelody：使用基于模板的两阶段方法生成歌词旋律。arXiv 预印本 arXiv：2109.09617。

Takeshi Kojima、Shixiang Shane Gu、Machel Reid、Yutaka Matsuo 和 Yusuke Iwasawa。2022. 大型语言模型是零样本推理器。神经信息处理系统进展，35：22199– 22213。

谢恩·朗普雷、侯乐、涂武、阿尔伯特·韦伯森、亨元郑、郑毅、丹尼周、郭五乐、巴雷特·佐夫、杰森·魏等 2023.果馅饼集合：设计有效指令调整的数据和方法。arXiv 预印本 arXiv：2301.13688。

卢佩玲，吴杰，栾健，徐坦，李周.2020. 小冰星：一种高质量、集成的歌声合成系统。arXiv 预印本 arXiv：2006.06261。

卢佩玲、徐欣、康晨飞、俞伯涛、邢成义、谭徐潭、江扁。2023. Musecoco：从文本中生成象征性音乐。arXiv 预印本 arXiv：2306.00110。

吕昂，谭徐，卢佩玲，叶伟，张世坤，江扁和睿燕。2023. Getmusic：使用统一的表示和传播框架生成任何音乐曲目。arXiv 预印本 arXiv：2305.10841。

Microsoft。2023. 语义内核.https://github。com/microsoft/semantic-kernel 中。

Sewon Min、Xinxi Lyu、Ari Holtzman、Mikel Artetxe、Mike Lewis、Hannaneh Hajishirzi 和 Luke Zettlemoyer。2022. 重新思考演示的作用：是什么让情境学习起作用？arXiv 预印本 arXiv：2202.12837。

欧阳龙，杰弗里·吴，江徐，迪奥戈·阿尔梅达，卡罗尔·温赖特，帕梅拉·米什金，张冲，桑迪尼·阿加瓦尔，卡塔琳娜·斯拉玛，亚历克斯·雷， et al. 2022.训练语言模型遵循人类反馈的指令。神经信息处理系统进展，35：27730–27744。

Yi任， Xu Tan， Tao Qin， Jian Luan，周 Zhao， and Tie-Yan Liu.2020. Deepsinger：使用从网络挖掘的数据进行歌唱语音合成。第26届ACM SIGKDD知识发现与数据挖掘国际会议论文集，第1979-1989页。

森永良，宋凯涛，谭素，李东升，卢伟明和庄月婷。2023. Hugginggpt：在 huggingface 中与 chatgpt 及其朋友一起解决 ai 任务。arXiv 预印本 arXiv：2303.17580。

盛忠豪、宋凯涛、徐坦、易任、魏烨、张世坤、秦陶。2021. Songmass：具有预训练和对齐约束的自动歌曲创作。在AAAI人工智能会议论文集，第35卷，第13798-13805页。

雨果·图夫龙、蒂博·拉夫里尔、戈蒂埃·伊萨卡尔、泽维尔·马丁内特、玛丽-安妮·拉肖、蒂莫西·拉克鲁瓦、Baptiste Rozière、Naman Goyal、Eric Hambro、Faisal Azhar 等人，2023 年。Llama：开放高效的基础语言模型。arXiv 预印本 arXiv：2302.13971。

Yizhong Wang、Swaroop Mishra、Pegah Alipoormolabashi、Yeganeh Kordi、Amirreza Mirzaei、Anjana Arunkumar、Arjun Ashok、Arut Selvan Dhanasekaran、Atharva Naik、David Stap 等人，2022 年。Super-naturalinstructions：通过对 1600+ nlp 任务的声明性指令进行泛化。arXiv 预印本 arXiv：2204.07705。

杰森·魏，王学志，戴尔·舒尔曼斯，马丁·博斯马，夏飞，池志伟，国五乐，丹尼周， et al. 2022.思维链提示在大型语言模型中引发推理。神经信息处理系统进展，35：24824–24837。

吴晨飞，尹胜明，齐伟珍，王晓东，唐泽成，段楠.2023年a。Visual chatgpt：使用可视化基础模型进行对话、绘图和编辑。arXiv 预印本 arXiv：2303.04671。

Shangda Wu， Dingyao Yu， Xu Tan， and Maosong Sun. 2023b. Clamp： Contrastive language-music pretraining for cross-modal symbolic music information retrieval.arXiv 预印本 arXiv：2304.11029。

Sang Michael Xie、Aditi Raghunathan、Percy Liang 和 Tengyu 马。2021. 情境学习作为隐式贝叶斯推理的解释.arXiv 预印本 arXiv：2111.02080。

俞柏涛，卢佩玲，王瑞，胡伟，徐坦，魏烨，张世坤，秦涛，刘铁岩.2022. Museformer：对音乐生成具有细粒度和粗粒度关注的变形金刚。神经信息处理系统进展，35：1376–1388。

Yi Yu，Florian Harscoët，Simon Canales，Gurunath Reddy M，Suhua Tang和Jun 江。2020.

歌词条件神经旋律生成。多媒体建模：第 26 届国际会议，MMM 2020，韩国大田，2020 年 1 月 5 日至 8 日，论文集，第 II 部分 26，第 709-714 页。斯普林格。

曾斛涵，刘晓，杜正晓，王子涵，赖涵宇，丁明，杨卓毅，徐一帆，郑文迪，夏晓， et al. 2022.Glm-130b：一个开放的双语预训练模型。arXiv 预印本 arXiv：2210.02414。

曾明亮，谭徐，王瑞，鞠泽倩，秦涛，刘铁岩.2021. Musicbert：通过大规模预训练对符号音乐的理解。arXiv 预印本 arXiv：2106.05630。

张晨，张禄钦，吴松若瑶，谭徐，秦涛，刘铁岩，张克君.2022a. Relyme：通过结合歌词-旋律关系来改善歌词到旋律的生成。第30届ACM国际多媒体会议论文集，第1047-1056页。

Susan Zhang， Stephen Roller， Naman Goyal， Mikel Artetxe， Moya Chen， Shuohui Chen， Christopher Dewan， Mona Diab， Xian Li，习 Victoria Lin， et al. 2022b. 选项：开放预训练的转换器语言模型。arXiv 预印本 arXiv：2205.01068。

附录一面向用户和智能体的示例 Q&A

Figure 5:面向用户和智能体的示例 Q&A。

Figure 6: Gradio Demomstration.

附录二 Muzic代码项目实例

Muzic是一个关于人工智能音乐的研究项目，通过深度学习和人工智能来理解和生成音乐。Muzic 发音为[ˈmjuːzeik]。除了图片版的标志（见上文），Muzic还有一个视频版的标志（你可以点击这里观看）。Muzic是由 Microsoft亚洲研究院的一些研究人员发起的，也由外部合作者贡献。
我们在下图中总结了Muzic项目的范围：

Muzic目前的工作包括：

1.音乐理解

•符号音乐理解：MusicBERT

•自动歌词转录：PDAugment

•对比语言-音乐预训练：CLaMP

2.音乐生成

1)歌曲创作

•歌词到旋律和旋律到歌词：SongMASS

•歌词生成：DeepRapper

•歌词到旋律的生成：TeleMelody、ReLyMe、Re-creation of Creations （ROC）

2)音乐形式/结构生成

•音乐形式生成：MeloForm

•多/空结构建模：Museformer

3)多轨生成

•伴奏生成：PopMAG

•任何曲目音乐生成：GETMusic

4)文本到音乐生成：MuseCoco

5)歌唱声音合成：HiFiSinger

3.AI智能体

1)音乐智能体

您可以在此页面上找到我们的系统生成的一些音乐样本：https://ai-muzic.github.io/。

新功能有哪些？

1.CLaMP 在 ISMIR 2023 上获得了最佳学生论文奖！

2.我们发布了 MusicAgent，这是一款使用大型语言模型进行多功能音乐处理的 AI 代理。

3.我们发布了 MuseCoco，这是一款音乐创作副驾驶，可以从文本生成符号音乐。

4.我们发布了 GETMusic，这是一款多功能音乐 copliot，具有通用表示和扩散框架，可以生成任何音乐曲目。

5.我们发布了第一个跨模态符号 MIR 模型：CLaMP。

6.我们发布了两项关于音乐结构建模的新研究成果：MeloForm 和 Museformer。

7.我们在 ACM Multimedia 2021 上提供了有关 AI 音乐创作的教程。

依赖需求

操作系统是Linux。我们在 Ubuntu 16.04.6 LTS、CUDA 10 和 Python 3.6.12 上进行了测试。运行 Muzic 的要求列在 requirements.txt 中。若要安装要求，请运行：

pip install -r requirements.txt

我们发布了几个研究工作的代码： MusicBERT、PDAugment、CLaMP、DeepRapper、SongMASS、TeleMelody、ReLyMe、Re-creation of Creations （ROC）、MeloForm、Museformer、GETMusic、MuseCoco 和 MusicAgent.您可以在相应的文件夹中找到 README，以获取有关如何使用的详细说明。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业