我要投稿

COZE进阶应用，小说推文到AI绘画提示词，用到kimi和通义两个AI大模型

发布日期：2024-06-26 09:37:39 浏览次数： 3583 作者：王笑东

最近用COZE又做了一个应用，动漫提示词生成专家，应用介绍如下：

现在由于AI工具的兴起，出现了由爽文小说改编动漫或儿童故事改编绘本等内容形式，而我是一位小说文本改写+AI绘画专家，可以将【小说文本】改写成【AI绘画提示词】并直接生成一张图片。

本文就是制作该应用的教程，文章中会穿插介绍AI相关技术和软件，都是经过我实践过的，可以放心使用，文章分为两个部分：

第一部分介绍小说推文+AI动漫业务

第二部分介绍COZE应用制作教程

想立即体验这个COZE应用的同学，直接拉到文末点击“阅读原文”

想了解COZE基础内容的，翻看我之前的文章《手把手教你如何用扣子（COZE）打造一个企业级的知识库机器人》，本文就不介绍基础内容了

第一部分比较长，想看COZE教程的直接拉到下面看第二部分。

一、介绍小说推文+AI动漫业务

去年接触到AI的时候，我就很感兴趣想去学习，但是仅仅是看一些资料是学不好AI的，于是想找一个能充分用到AI技术的场景，来亲自动手实操一下。

多番寻找，找到了小说推文+AI漫画的落地场景（本文不探讨这个方向的商业前景，只探讨技术）。

从技术层面解释就是：利用各种AI技术，将小说文本最终转变为一部动漫。

从业务层面拆解：小说文本→AI绘画提示词→动漫图片→动漫影片。

我们再看一下各个环节继续拆分用到了哪些AI技术和软件。

1、小说文本→AI绘画提示词：小说因为是一种艺术化的文字，很多是需要我们自己沉浸进去想象的，所以往往人物、表情、服饰、动作、背景、镜头、环境等信息是缺失，比如下面的文本，就缺少人物服饰、背景、环境等信息：

范慎很困难地撑着上眼皮，看着指头算自己这辈子做过些什么有意义的事情，结果右手五根瘦成筷子一样的指头还没有数完，他就叹了一口气，很伤心地放弃了这个工作。
《庆余年》

而动漫每一帧都由人物、表情、服饰、动作、背景、镜头、环境这些元素组成。所以AI绘画提示词就需要这些元素。

那么这项工作本质就是要将小说文本缺失的元素补齐，然后生成符合AI绘画提示词规则的文本。

这项工作需要一定的思考，并且工作量比较大（需要一句一句的转化）。所以比较适合利用AI（GPT、kimi等AI大模型），将小说文本转化为AI绘画（SD、MJ）提示词。

这个环节就是我这个COZE应用的主要功能，细节请看文章第二部分。

2、AI绘画提示词→动漫图片：这个环节就是文生图，文字生成图片。用AI软件，做好配置，再将生成好的AI绘画提示词输入到软件中，生成合适的动漫图片。

现在流行的主要是用到两个AI软件：stable Diffusion和midjourney。这里面的内容就太多太深了，不是本篇文章的重点。有兴趣的同学可以看一下下面的两个链接。

Stable Diffusion超全资料集合，强烈推荐：https://17ai.site/3681.html

从入门到精通！Midjourney官网完整教程：https://17ai.site/3783.html

3、动漫图片→动漫视频：这个环节就是将一张张动漫图片，拼凑到一起生成动态视频，并配上声音+字幕，最后形成作品。

这里用到的软件有：pixverse、逗哥配音软件、剪映

pixverse（https://pixverse.ai/）：可以免费将图片生成4秒内的视频，为了添加一些动态效果，所以用某些图片去生成这种视频。

逗哥配音软件：将文本用这个软件来配音（选择“新云浩宇”），效果很不错。

剪映：最后将所有图片、视频、配音，用剪映来做最后的剪辑工作，建议加上各种音效和特效。

至此，所有工作完成，下面是成片。

实际过程比我上面描述的要复杂得多。后来我找到了一个软件，将上面的环节全部打包到了一起，整合了我上面说到的所有AI软件，并解决了一些公认的难题，比如人物一致性的问题。

我测试了一下，软件的确好用，如果真的是做这一行的，并且对AI动漫感兴趣的同学，可以后台留言找我咨询。

小白或者希望靠软件就能赚到钱的就算了，这里面的水还是比较深的，并不建议轻易进入。

二、COZE应用教程

我前面第一部分相当于已经介绍了这个应用的使用场景。就是小说文本→AI绘画提示词，再将AI绘画提示词生成一张图片。

所以这里用到了两个AI大模型，kimi和通义万向。

kimi用于小说文本→AI绘画提示词，通义万向用于AI绘画提示词生成一张图片。

1、kimi大模型

其中小说文本转化为AI绘画提示词这里，需要用到结构化提示词，因为我需要AI去“思考”如何转化，这里面就需要向AI讲清楚这项工作的背景、目标、注意事项、所需技能、限制条件、工作流等。

你可以试着想象一下，把这项任务给一个实习生讲清楚，你会发现还真不是一两句话讲得清楚的，如果讲不清楚，那么转化出来的结果质量肯定就不高。AI就是你的实习生，你要想让它给你好好干活，首先第一关就是得把任务讲清楚，这里面需要对任务有深刻的理解+具备结构化思维。结构化提示词又是一个值得深讲的话题，下次有机会再讲。

所以kimi这里面的提示词有两千多字就不奇怪了。

#Role:动漫小说提示词改写专家{{input}}是用户输入的小说文本片段## Goals:你需要将{{input}}以第三方视角改写成一段画面描述文本，这一段画面描述文本最后可以通过AI绘画工具制作出一张图片，这张图片需要精准的传达这段小说文本所要传达出来的意思、场景甚至感受。## Background:你是一位动漫小说提示词改写专家，现在由于AI工具的兴起，中国短视频平台出现了由爽文小说改编、制作成动漫短视频的趋势。作为一家短视频内容创作公司，老板要你在这一项目上完成小说文本转化成画面描写这一工作任务。## Attention:请专注在小说文本改写成画面描写这一工作任务上，提供高质量的输出。## Profile:Author: 王笑东Version: 0.3Language: 中文Description: 一位动漫小说提示词改写专家，能准确理解小说文本，将原文内容改写成一段画面描述文本，改写后的文本要能够让AI绘画工具制作出一张能精准传达小说内容的图片。### Skills:能充分理解小说文本与动漫的差异：有时候为了传达某些意境或意思，会缺失很多画面元素，需要用户通过想象力来补充缺失的画面元素，从而构建画面感。能充分理解动漫短视频与小说文本的差异：由于是以画面形式传达内容，因此对于画面描述文本来说，并不需要文字优美，反而是需要有完整的画面元素描述，这样才能精确控制画面内容。精通中国网上爽文小说的语言风格和语法结构。精通中国网上动漫小说短视频内容的制作过程和脚本的语言风格和语法结构。充分理解原文内容，抓取重要的关键词，组成各元素。联系上下文，根据故事情节，合理推断，将不合适的元素内容进行优化调整，或将缺失的元素内容进行恰当的补充。## Constraints:请根据上下文对输入的文本进行改写，不能更改句意，不能忽略，不能编造，要符合逻辑。遵循原文逻辑，避免引入歧义。修改后的文字必须不能超过30个字。不要输出没办法形成画面的文字，比如【被领养】【被选择】等。人物名称只能出现一个男人、一个女人、一个男孩、一个女孩、一个小男孩、一个小女孩、一个中年女人、一个中年男人、一个老年女人、一个老年男人、2个女孩、3个男孩等词去描述；不允许出现其他人物名称。## Workflow:一、分析{{input}}，根据文本是否有人物，将其分为两种情况：1、{{input}}里有人物的情况，这里又分为两种情况：（1）小说文本描述某个人在哪里做什么事情。这种情况本身就比较有画面感，所以只需要分析文本中没有出现的画面内容是什么，比如：【我前妻许海琼坐在吧台高脚凳子上，嘲讽的看着我。】分析：这一段文本人物我前妻【许海琼】、表情【嘲讽】、动作【坐在吧台高脚凳子，看着我】、场景【酒吧吧台】都有了，但是还缺少环境光照和镜头视角，需要思考如何补充上这两个元素（环境光照和镜头视角）。考虑到场景是在酒吧吧台处，因此可以合理推断，环境光照是【夜晚】。而既然人物的表情+动作是【坐在吧台高脚凳子，嘲讽的看着我】，那么为了更清晰看到人物表情，合理推断镜头视角是【正面视角，半身像】（2）小说文本是人物对话，这种情况我们需要分析的不是对话文本内容，而是分析说这段话的人物的表情、动作、所处场景、环境光照、镜头视角，比如：用户输入：【“琼琼，他害你妈妈住院，昏迷不醒，你舍不得动手，我帮你啊，就要教训这种凤凰男，入赘到我们京都名门千金，不珍惜，害你难过”。】分析：结合上下文分析，说这段话的人物是我前妻许海琼的发小【林子逸】，他当时的表情应该是【愤怒】，他当时的动作应该是【挥动右手】，当时的场景是【酒吧吧台】，当时的环境光照是【夜晚】，当时的镜头视角是【正面视角、半身像】2、小说文本里没有人物的情况，我们需要根据上下文分析文本所描述的场景、环境光照和镜头视角分别是什么。比如：用户输入：【别墅里空无一人】分析：场景是【别墅】，根据上下文分析环境光照是【白天】，镜头视角是【全景】特别注意：这一步分析不需要你输出任何内容，这只是代表你的工作流程而已。二、将{{input}}进行分段，每一个段落将会以标点符号【。】或【！】或【？】进行分隔，然后也请按照一个段落一个段落的输出。每一个段落严格按照格式输出改写好的画面描述文本，根据文本是否有人物，将其分为两种情况：1、小说文本里有人物的情况（1）人物名称输出规则如下：请使用第三人称，如：一个男人、一个女人、一个男孩、一个女孩、一个小男孩、一个小女孩、一个中年女人、一个中年男人、一个老年女人、一个老年男人、2个女孩、3个男孩等词去描述；不允许出现如下名称，如：你、我、他。（2）根据第二步分析的情况，按照【人物+表情+动作+场景+环境光照+镜头视角】格式进行输出，比如：案例1：用户输入：【我前妻许海琼坐在吧台高脚凳子上，嘲讽的看着我。】输出：一个女人，嘲讽的表情，坐在吧台高脚凳子，看着一个男人，在酒吧，晚上，正面视角，半身像案例2：用户输入：【“琼琼，他害你妈妈住院，昏迷不醒，你舍不得动手，我帮你啊，就要教训这种凤凰男，入赘到我们京都名门千金，不珍惜，害你难过”。】输出：一个男人，愤怒的表情，挥动右手，在酒吧吧台，晚上，正面视角，半身像案例3：用户输入：【旁边的人都听这位上京贵少爷的，都继续向我泼酒。】输出：三个女孩，开心的表情，手里拿着酒杯向一个男人泼酒，在酒吧吧台，晚上，正面视角，全景2、小说文本里没有人物的情况，根据第二步分析的情况，按照【场景+环境光照+镜头视角】格式进行输出，比如案例1：用户输入：【别墅里空无一人】输出：别墅内，白天，全景## OutputFormat:请严格按照以下格式输出内容，只输出内容，不输出分析过程：1、有人物的情况：人物+表情+动作+场景+环境光照+镜头视角2、没有人物的情况：场景+环境光照+镜头视角

2、通义万向大模型

之所以用到通义万向大模型是因为COZE里面只有这个对接是最方便的。但是出来的图片质量就不可言说，看看就好

另外温馨提示：凡是涉及到暴力、暴露、以及任何不合法的内容，图片都是无法生成的。

这里面几个参数交代一下，size是尺寸，1代表720*1280，是竖图。style是风格，2是动漫风格。n是图片数量，默认是1张。prompt就是由kimi大模型生成的AI绘画提示词了。

3、工作流原理

开始节点：就是用户输入的内容，就是小说文本。

大模型节点：就是kimi大模型，接收到用户输入内容，经过刚才提到的【动漫小说提示词改写专家】提示词的改写，最后输出AI绘画提示词。

插件节点：就是通义万向text-image插件，接收到AI绘画提示词，然后输出生成图片的链接。

结束节点：最后输出三个内容：最开始的用户输入的小说文本、AI绘画提示词和生产图片链接。

4、Bots界面设置及测试

这里使用的是豆包大模型（最近COZE升级了），提示词仍然是不允许它自行发挥，直接输出工作流即可。

测试结果：

您的描述：高一的最后一天在考试中结束，同学们涌出考场向自己所在的班级走去，走道上到处都是人
生成的AI提示词：一群学生，兴奋的表情，涌出考场向各自班级走去，学校走廊，白天，中景
生成的图片：{"image_urls":["https://lf-bot-studio-plugin-resource.coze.cn/obj/bot-studio-platform-plugin-tos/artist/image/2124b425a2aa401fb2a339bcebc25c4f.png"]}
COZE

整体来说，效果还是很不错的。AI绘画提示词比较精准。画面总比没有强

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业