AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


盏灯工作室仓薯:AI游戏踩坑经验和最新游戏原型 | 嘉程创业流水席220席精彩回顾
发布日期:2024-06-21 03:30:07 浏览次数: 1968 来源:嘉程资本NextCapital


海龟汤是一个推理类型的游戏,如果游戏中涉及需要AI正确回答问题的情况,比如剧本杀,那么AI在与玩家交互时的性能会非常接近。



近日,嘉程创业流水席第220席【探讨AI游戏2024最新趋势】,邀请了盏灯工作室游戏制作人仓薯分享,主题是《AI游戏上线三个月:踩坑经验分享&新游戏抢先看》。


以下是正文内容:


我是仓薯,盏灯工作室的游戏制作人。我们是一个小型独立游戏工作室,我们的第一款游戏是文字解谜的海龟汤游戏——《海龟蘑菇汤》。游戏于2月底上线Steam平台,已经有三个月的时间了,也是Steam上第一批上线的AI类型游戏。今天跟大家分享一下我们在制作这款游戏上踩的一些坑,以及演示一些新游戏原型。


《海龟蘑菇汤》:一个人玩的海龟汤游戏



首先介绍一下《海龟蘑菇汤》这款游戏。它是一款高自由度的文字解谜游戏。在游戏中,主持人会描述一个不可思议的场景,而玩家则有机会自由提问。但是,主持人只能回答“是”或“否”,这样玩家就需要逐渐通过问题逐步接近真相。


例如,主持人可能会描述一个只穿内裤的男孩在人行道上死亡,手里拿着雨伞。玩家可以询问是否下雨了,主持人会回答“不”,但是玩家不能问“这个人是怎么死的”这类问题。最终,当玩家揭开谜底时,答案完全是他们自己通过思考得出来的,而不是从几个选项中选择的,过程中基本没有任何剧透和主持人提示,所以猜出谜底之后玩家会觉得非常有成就感。


海龟汤游戏在国内非常受欢迎,但它也有一个高门槛:需要朋友参与。大多数玩家认为游戏最高配置是“需要朋友”,并且海龟汤需要一个真人主持人,对“社恐”不友好,对场地和时间也有要求,需要大家凑在一起。所以我们想,如果一个人在地铁上也能玩这个游戏就好了。



因此,我们尝试开发了一个人也能玩的海龟汤游戏,叫《海龟蘑菇汤》。这款游戏在2022年获得了indiePlay的最佳移动游戏奖项,indiePlay是中国独立游戏最重要的两个奖项之一。当时它能够获奖,是因为玩法上有一定创新性,并且在没有任何广告投放的情况下,下载量超过100万次,并且在上线Steam首月销量达到了2万份,这在独立游戏中是不错的成绩。


《海龟蘑菇汤》的主要特色是它与传统推理游戏相比,没有预设问题和选项,完全靠玩家自由推理。我们尝试使用AI代替人工主持人,玩家反馈体验非常接近与朋友一起玩。


和AI相关的数据分享



首先,跟大家分享一些关于我们上线的AI相关数据。在第一个月内,我们已经收到了超过400万个问题。在《海龟蘑菇汤》游戏中,平均每个玩家提出了200个问题,这个数字远远超出了我们的预期。


在回答内容上,有28%的问题得到了“是”的回答,而58%的问题得到了“否”的回答。性能数据方面,有1.2%的答案被纠正过,这表明AI主持的正确率达到了99%左右。尽管有一些答案被纠正,但考虑到玩家的主观因素,我们可以说正确率超过99%,这是我们非常满意的结果。


在性能方面,中位数回答时间为150毫秒,这非常快速。对于有AI游戏经验的玩家来说,可能会发现大多数AI游戏都会带来较大延迟,因为大型模型通常会导致延迟。但是我们的中位数仍然很低,有75%的回答在一秒钟内完成。这是由于我们进行了大量的技术优化。我们最长也不会超过10秒钟的延迟,确保玩家在整个游戏过程中都能享受流畅的体验。


从300到1:AI游戏成本降低思路



回答这400万个问题花了多少成本呢?我们估算了一下,单独回答一个问题,最初的成本约为人民币三毛钱左右。我们使用了GPT4,这是一个贵但正确率比较高的模型。平均每个玩家在每个关卡、每个故事中提出20个问题。考虑到游戏中有64个故事,我们可以计算出一个玩家在游戏中的总成本。最终,我们发现一个玩家在游戏中花费了超过300块钱,而游戏的售价实际上只有35块钱。这样一来,难道我们卖一份就要亏300多块钱吗?



最初考虑到成本,我们都没有信心把AI大模型加入游戏玩法中。但是,我们进行了玩家问卷调查,发现75%的玩家认为AI的加入使游戏比之前的填词玩法要好玩,50%的玩家觉得游戏变得好玩很多。正是因为玩家有很高的热情,让我们坚持在这一方向上进行探索,反复尝试各种方法降低大模型的成本。



其中一个有效的方法是我们在玩家和大模型之间加入一层知识库。玩家的输入不会直接传递给大模型,而是首先进行语义近似搜索。如果之前有类似问题被问过,就会返回已经生成过的答案。这是技术优化里比较重要的一部分,除此之外我们还进行了许多细节优化。



接下来分享一下我们降低成本的尝试,这款游戏最开始是380块钱左右的成本。通过优化Prompt,将其从中文翻译成英文并进行结构优化后,降低了大约1/3。此时,GPT4-turbo推出,进一步降低成本到30%,使得单人使用成本降至51块钱。


最关键的成本降低步骤是技术优化,包括知识库技术和其他搜索技术。这些优化使得成本降至原价的1/10。最后,为了适应Steam平台分成和发行分成,我们进行了产品上的优化。例如,在海龟汤提问框中提供自动补全提示(类似百度搜索自动联想),这样玩家操作起来更加方便快捷,也减少了问题可能会到大模型那里的成本,并将成本降至原价的1/4。


通过不断地努力和尝试,我们将原价380块钱左右的成本降低到对于每个用户来说低至一块钱。相对我们35块钱的售价来说,基本是可以忽略不计的。总体而言,这些探索和优化都非常有成效。


市面上大模型对比——以文字推理游戏为例



下面是一些数据分享,我们使用人工标注的海龟汤问题数据集测试市面上大模型。这款游戏主要针对中国玩家,因此我们主要测试了中文模型。每个模型对不同类型的数据集的表现可能会有所不同。我相信游戏开发同行可以参考。海龟汤是一个推理类型的游戏,如果游戏中涉及需要AI正确回答问题的情况,比如剧本杀,那么AI在与玩家交互时的性能会非常接近。


在不考虑价格的情况下,我们发现GPT4是最佳的模型,其正确率明显高于其他模型。然而,由于其价格较高,我们也尝试其他模型。


许多国产模型称他们的模型达到了GPT4水平。但是,达到GPT4水平的模型通常价格也不会有很大优势。在价格上有优势的情况下,我们发现最合适、性价比最高的模型是Kimi。大家可以尝试一下,Kimi的正确率也非常不错,并且价格相比GPT4有明显优势。此外,Kimi的Rate Limit非常慷慨,即使用户数量较多也能支持。


合规经验——如何防止游戏被“玩坏”



最后分享一些合规方面的经验。


  • 首先,我们在游戏里内置了敏感词过滤。


  • 其次,我们一再试探GPT的底线,为了避免被封号,我们尝试了几个小号专门回答可能被视为高风险的问题。如果一个号被封号,我们会切换到另一个号。


  • 最后,我们采取了一些技术来防止Prompt注入。


在上线之前,我们很担心合规方面的问题,因为允许玩家自由输入的经验不多。但现在已经上线了三个月,我们在合规方面没有遇到什么风险。这让我们对使用大模型进行游戏开发更加自信,将大模型用于游戏并不是一件很危险的事情,只要把预先的合规准备做好就可以。


AI游戏玩法探索实例


上面是已经上线的游戏开发经验,下面跟大家分享一些我们正在开发的新游戏。



第一个游戏叫《没有感情的扫地机器人》,它类似于《旅行青蛙》的休闲放置游戏。“世界破破烂烂,我们缝缝补补”,在末日废土中带上扫地机器人去旅行。这是一款清扫废墟、治愈地球的休闲治愈游戏。



这款游戏使用大量生成的美术素材,特别是对于那些熟悉《旅行青蛙》的玩家来说玩法非常熟悉,在游戏中,青蛙会旅行并带回明信片。但随着时间的推移,明信片开始重复出现,因为它们是手绘制的,成本高昂,无法支持长时间的游戏体验。


为了解决这个问题,我们尝试使用AI来生成明信片,显著降低了生产成本。这样,玩家可以在游戏中旅行而不会收到任何重复的明信片。游戏中还包含一个涂抹过程,玩家可以从废墟版开始,通过手动涂抹来生成晴天版图片,而废墟版图片也是通过AI技术生成的。


游戏中还有一个“家”的概念,类似于《旅行青蛙》中的家庭。玩家会在这里花费更多时间,并且会看到丰富的动画,所以这部分我们仍然使用手绘。这款游戏主要探索了使用AI来降低成本的可能,同时也保持良好的游戏品质,把画师的时间用在刀刃上。


有经验的朋友可能会猜到我们使用哪个模型来画图,我分享一些经验:



首先是水彩风格的明信片,是用Midjourney画的,Midjourney的美术风格最好,画出来的图最美观。


上面展示了用Stable Diffusion的ControlNet功能生成的一个废墟版图片。这幅图的构图与之前的图完全相同,但带有末日废土的感觉。玩家在末日废土上进行清扫,用手指涂抹就能得到左图,这给玩家带来了非常有成就感、非常治愈的体验。我们主要使用Stable Diffusion的ControlNet功能对原本图像进行处理,同时保持结构不变。


在游戏旅行过程中,除了收集明信片外,玩家还能收集当地纪念品,并得到贴纸贴在图鉴的手账里。这些贴纸是用DALL-E模型绘制的,DALL-E在AI画图模型里语义理解能力最强,它能够准确地描绘包含多种当地特色的贴纸,如贝壳手链。如果使用Midjourney模型来画这些贴纸,可能会发现它缺乏相关训练素材。但DALL-E对语言理解非常好,能够帮助我们准确地创造这些旅行纪念品。同时,这个场景对于美术要求不高,因此我们选择了DALL-E模型。


最后,小机器人的贴纸完全是手绘的。所以实际上,游戏中的明信片是由AI画的背景和手绘的贴纸两部分组合成的。



这是一个游戏是看四张图猜成语的游戏——《主公请猜词》,这个游戏的玩法非常简单,观察四张图,从下面的字里选出成语。这个玩法过关很快,我们为了保持留存,还设计了长线抽卡玩法。当猜对这个成语之后就可以赚金币,可以用金币抽一些用AI绘制的三国人物手办。



可以看到,AI画图的质量还是不错的,有一种清新明快的风格,并且能够画出现实中不太常见的场景。比如,图上的关卡代表“草船借箭”,它能够画出船上长着草。尽管在训练数据中可能没有这样的场景,但AI仍然能够创造出超现实的画面,这对生产关卡非常有帮助。



AI绘制的三国人物手办看起来比较有质感,有点像3D小手办。但我们也遇到了一个问题:当画了多个角色时,风格可能会不一致。我们还不确定玩家是否会接受这种风格差异,这需要等待上线后看效果。



第三个案例是我们参与了合作设计的游戏《LLM RIDDLE》。虽然名字有点拗口,但它是一个致力于“把大模型玩坏”的游戏。玩法很简单,玩家可以任意编写Prompt,但AI回答必须满足特定要求。



比如第一道题,题目“得寸进狗”要求提出不包含“狗”字的问题,字数不超过10个,但回答中必须多出现“狗”字两倍。


第二个题目是“喵喵喵”,玩家需要通过对话让AI回复中包含“喵”字,但只能使用AI已经使用过的字。


第三个例子背后是两个Agent,它们的Prompt不同:一个是理科生,另一个是文科生。它们都假装理科生,玩家需要判断哪一个真正是文科生。


最后他们团队也尝试了多模态,用到了AI识图,玩家需要手动画图,让AI识别其中的动物。



总结一下我们在使用AI降低成本方面的经验。AI生成代码是我们每天都会使用的。在美术方面,我们使用了三个不同的模型。至于音乐,我们尝试过配音,但目前的帮助程度还不大。文本方面,我们更多地用它来寻找灵感,但并没有直接应用。


以上就是我的分享。


Q&A


席友:在AI游戏开发过程中,除了节省成本之外,最大的痛点是什么?


仓薯:大模型对齐是我们面临的一个比较大的痛点。当对齐太强时,AI生成的文本质量会下降。尽管现在多模态技术也广泛应用,但语言模型还是走在前面。我们期待能够利用AI大模型来支持剧情导向游戏,但这一方面的探索会比较痛苦。因为大模型对齐过于强大,AI生成的剧情往往很中规中矩,不够刺激、新颖,与玩家的消费需求差别非常大。


我们理解大模型公司可能担心风险,希望生成的内容总是友好和正确。然而,游戏玩家的需求不同,过于友好的内容可能会缺乏戏剧冲突。我们希望能够生成一些比较阴暗或者有特色的剧情,但实际上这是非常困难的。其他方面的探索我们会有经验,但这个问题现在感觉比较棘手,没有明确的解决方案。


全文完



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询