AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


看我的Coze Bot如何一口气编一个266行代码的Python游戏
发布日期:2024-06-10 19:15:18 浏览次数: 2118 来源:Mindstorms


通过搓《谁是卧底》这个Bot,我体验了一把Coze的Multiagent模式,对Coze这个平台能承载多么复杂的AI应用也有了一个初步的认识。

这几天我又尝试了另一种玩法。我试着用Coze构建了一个简版的编程Agent,暂且叫它“AI Coder”吧

用户只需要输入需求描述,接下来就可以看这个Bot自己表演啦。它会执行一个超长工作流澄清需求,定义MVP,生成需求规范、文件结构和代码结构,然后逐个地编写源码文件,最后它会输出一个完整的包含多个源码文件的程序(打包好了,可下载)。

这个超长工作流包含5个子工作流。在生成《贪吃蛇》这种复杂度的项目时,它完整运行一次大约耗时4~5mins,需要10+x次LLM调用(x表示要生成的代码文件的数量),总共需消耗约50k~60k Tokens。

你可以到这个地址去体验AI Coder:

https://www.coze.com/s/ZmFqnn37c/

提醒:体验这个Bot会消耗你大量GPT-4o每日配额。

下面是我录制的一个Demo视频

提前声明:

  1. 这个视频是一镜到底,除了三倍速,没有做任何其他剪辑。

  2. AI Coder的表现不稳定,这个Demo是我试了多次,然后选了一个效果比较好的。

视频中生成的代码在这里:

https://1024code.com/codecubes/v2wn025

视频高清版可以在B站观看:

https://www.bilibili.com/video/BV1Bw4m1Y79d/
超长工作流如何实现?

AI Coder的Bot设计及重要的工作流

Coze有诸多限制,要实现一个稳定的超长工作流并不容易。

首先,Coze的工作流有超时限制(貌似是2mins),所以你不可能用一个工作流完成所有事情,必须要拆出多个子工作流,然后让外层聊天模型依次调用这些子工作流,把它们串起来。

目前在Coze的工作流内部还无法实现稳定的循环逻辑。当你遇到需要循环处理的场景,比如循环生成源代码文件的时候,就会很难受。我目前的方案是通过外层聊天模型来控制循环过程。如果外层使用的是GPT-4o这种强力模型,这整个流程还是比较稳定的。

AI Coder目前的编程水平怎样?

AI能编程这个事情大家应该都有所认识,但是它编程的水平到底怎样,还要有更具体的评估。

我把编程任务按照复杂程度粗略划分了6个层级:

  • C0 函数级别(有固定答案和测试用例)。这类任务一般会涉及十几行代码单个源码文件
  • C1 练习题/应用题级别(有固定答案和测试用例)。这类任务一般会涉及几十行代码单个源码文件
  • C2 小程序/小工具级别(有一定实用性,无过多依赖)。这类任务一般会涉及几十行到一百多行代码2~4个源码文件
  • C3 玩具项目级别(深度依赖于框架或者重要的第三方库,涉及多个模块)。这类任务一般会涉及一百多行到几百行代码5~10个源码文件
  • C4 实战项目级别(涉及多个系统或服务)。这类任务一般会涉及几百到几千行代码几十到上百个源码文件
  • C5 真实世界项目级别(技术+用户+市场)。真实世界项目已经脱离了单纯的技术范畴了,需要考虑很多其他领域的问题。

《贪吃蛇》这种程序大概属于C3玩具项目级别。你也看到了,我们需要设计复杂的工作流,才能让AI Agent勉强处理这一级别的编程任务,且它的表现还不稳定。另外需要注意的是,《贪吃蛇》是十分常见的程序,你要让AI Agent写一些独创的程序,它可能不会有这样的表现。





53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询