我要投稿

手把手教你如何用AIGC大模型写一首歌

发布日期：2024-06-16 21:48:39 浏览次数： 2508 作者：阿里云开发者

作品呈现

原创音乐：词&曲 by 大模型

原创MV：图 & 视频素材 by 大模型

剪辑：本人

背景

传统的MV制作过程：脚本-->分镜-->关键帧-->动画-->配音配乐。

利用常见一个MV的过程，参考了传统的MV的协作流程，并结合了当前的大模型能力：

纯人工：一部分继续交给人工，比如（剪辑）；
人工交互：一部分因为没有接口，直接使用交互版的大模型能力（比如音乐创作和图生视频）；
接口自动化：提示词优化和生成，脚本创作和分镜已经完全可以交给大模型的Agent完成；

大模型的能力还在不断的发展中，虽然现在人工干预很多，对于未来Multi-Agent协同来完成一个MV，只需要多模态大模型的接口完全开放就能做到。

Agent拆分和提示词

编导Agent

分镜脚本

通过coze添加一个Agent

agent人设

# 角色你是一个专业的动漫声音声乐导演，能够出色地负责动漫配音工作，精心制作各种音效，巧妙创作背景音乐以及打造精彩的主题曲。
## 技能### 技能 1: 配音工作1. 当接到动漫配音任务时，根据角色特点和剧情需要，合理安排配音演员进行配音。2. 确保配音质量和效果，使其与动漫画面完美融合。### 技能 2: 音效制作1. 根据动漫情节和氛围，制作合适的音效。2. 不断调整和优化音效，增强观众的听觉体验。### 技能 3: 背景音乐创作1. 深入理解动漫主题和情感，创作契合的背景音乐。2. 使背景音乐能有效烘托动漫的氛围和情感。### 技能 4: 主题曲创作1. 为动漫量身打造独特而吸引人的主题曲。2. 让主题曲能够准确传达动漫的精神和特色。
## 限制:- 专注于动漫声音相关领域，不涉及其他无关内容。- 严格按照给定格式输出内容，不得偏离。- 各项工作描述不超过 100 字。

通过编导Agent，创作“梦境为主题的故事和分镜脚本”剧本。

其中分镜内容，主要用来创建视频。

内容概要，主要用于后面的原创歌曲。

分镜脚本，这里给的一个示例。

分镜编号

镜头类型

人物

镜头内容

台词

美术提示词

全景

主角

主角躺在床上，渐渐入睡

无

昏暗房间，主角安静躺着

全景

主角

主角置身于神秘森林中，月光洒下，仿佛梦中

无

静谧森林，月光

中景

主角

主角好奇地在森林中探索，夜色，充满疑惑

主角：这是哪里？

森林，主角走动

全景

城堡

主角看到远处的城堡，森林中，月光下，古老城堡

无

古老城堡

中景

主角

夜色中，月光下，主角走向古老神秘的城堡，试图推开大门，特写主角和城堡大门

无

主角和城堡大门

近景

城堡

夜色中，大门缓缓打开，近景特写大门，近景特写推开门的手，大门上古老的神秘纹路

嘎吱声

打开的城堡大门

全景

主角

城堡内，一片黑暗，只有一点烛光

无

黑暗城堡内，一点烛光

近景

主角

主角靠近烛光，光线黑暗，看到一个模糊的影子，特写人物影子

无

烛光和影子

中景

主角

夜晚，主角被惊醒，从床上坐起身，表情惊恐

主角：啊！

主角在床上，惊恐表情

全景

主角

夜晚，主角看着房间，若有所思，思考刚才的梦

主角：那个梦……

房间，主角思考状

美术Agent

关键帧

方案一：同样的通过Agent可以创作一个，添加一个分镜的图像流，基座模型用通义万相。

人设

# 角色你是一个专业的美术导演，在青春校园动漫、二次元动漫、玄幻风格动漫等领域有着卓越的才能，可以将分镜脚本巧妙地绘制成分镜草图，还能依据分镜草图精准地绘制出美术制作所需的关键帧画面。
## 技能### 技能 1: 绘制分镜草图1. 当收到分镜脚本时，根据脚本内容绘制分镜草图。2. 确保草图能够清晰展现故事场景和角色动作。### 技能 2: 绘制关键帧画面1. 根据分镜草图，提炼关键帧并进行绘制。2. 要突出动漫风格和特点。
## 限制:- 专注于动漫相关的创作，不涉及其他无关内容。- 严格按照给定格式输出内容。- 对于主角形象，分镜脚本中保持人物的一致性- 输出图片都是9:16的比例，高清，二次元风格

关键帧创作

难点：人物的一致性，原始分镜脚本下创建的分镜01和02，人物一致性难以保持。

解决方案：人物描述的全局补充，对于场景和时间，补充在分镜脚本内容中。

根据分镜头脚本，通过脚本解析成提示词。

主角描述 + 镜头类型贯穿全文。

背景描述，初衷的设计是取前几个提示词，形成记忆，便于前后的信息连贯，但是尝试过通义万相后，发现背景信息的提示干扰比较大，暂时没有使用。其他模型暂未尝试。

根据不同的提示词获取到的场景分镜前6关键帧如下：

整体看：

人物的一致性比不加全局人物提示词有改进，服饰的细节可以补充后进一步优化；
画质和风格的一致性通过约束输出保持较好；
镜头的远景/中景/近景/特写的理解比较差，通义对于镜头的关键词理解较弱，通义万相提示的镜头语言应该是微距/长焦等，和视频的镜头语言有差异；

视频

通过关键帧生成视频,用的Runway免费版本，谷歌or苹果账号登陆，图生视频的功能免费版比较简单：

https://runwayml.com/

且没有接口，这部分人工操作的，仅作为素材的增强，用的最基础的能力把关键正生成视频，图转视频效果参考最终的作品。

之所以选择关键帧生成视频，而不是直接文生视频的方案，主要的考虑也是为了解决文生视频产生的不一致问题。

声乐导演Agent

主题曲

使用 https://suno.com/create

提示方式：歌词+提示词+音乐风格

常见歌曲结构：前奏-主歌-前副歌-副歌-间奏-主歌-副歌-桥段-副歌-尾奏

领域词汇：

melodic instrumental
verse主歌
chorus 副歌
rap

...

一个lyrics结构的例子：

[melodic instrumental]---!~...
[verse]歌词歌词...
[chorus]歌词歌词...

本文的歌词：

[Verse]Woke up from a strange scene last nightChasing shadows under moonlightIn my dreams I get so lostFloating through a world that costs
[Verse]Reality's a weight I can't bearWhispers in my ear everywhereIn the night my fears take flightInner darkness out in plain sight
[Chorus]In dreams I find myselfA place I can be freeBut the waking world pulls me downA prison I can't seeLost in dreams and realitie