AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI 虚拟陪伴一年谈
发布日期:2024-12-13 19:18:47 浏览次数: 1744 来源:潦草学者



这篇文章是我作为 AI 产品经理一年的复盘文章。


我个人非常感谢有 AI 的存在。

在生成式 AI 出来之前,我曾经多次有过转行的想法,2022 年,我一度认为“互联网产品经理”这个职位已经发展到头了,互联网产品经理的岗位已经逐步精细细化,标准化,人才市场的供给趋向饱和。

岗位的名称繁多,电商产品经理,搜索产品经理,数据产品经理,功能产品经理...


直到在 2022 年的某一天,我在互联网人群为主的 即刻 APP 冲浪。彼时,在即友口中听说了在海外有一个叫  ChatGPT 的应用突然爆火了。于是,我可是关注 AI。

2022 年 12 月 6 号,在「优质内容花园」群的群友的帮助下,第一次和 ChatGPT 对上了话。从那时候开始,我开始关注 AI 行业的所有动态,了解 AI 的能力,使用新的 AI 原生应用,阅读 AI 相关的论文。

2023 年年中,我和朋友合作,做了一款AI 套壳应用,这是一款短暂地项目尝试,短短地在 8 月份结束,但却也积累了很宝贵的试错经验。

2023 年 9 月份,在公司开始做虚拟陪伴的 AI 项目—— Cos love  - 虚拟恋爱陪伴 ,因为此前对 AI 的学习和实践经验,我成为 Coslove 的产品经理,从零开始搭建这个虚拟陪伴项目。到今天,刚好过去了一个春冬。


Coslove 是一款 Character AI 类产品,简单地说,就是用户可以在产品中和虚拟角色对话,用户可以创建自己喜欢的角色,与虚拟角色之间对话,产生羁绊。此类产品下文统一称“C.AI 应用”

经过一年时间,我们把做了超过 1000 万 GMV,300 万用户,最好的时候,做到了国内第三名(根据厂商提高的 token 调用量数据),现在是大概国内第八名左右。

在业绩最好的时候,我们是行业的第一(根据收益),日入斗金。在春节回乡的高铁上,隧道里的网络时有时无,而我做着一个重复的动作,下拉刷新,因为每一次刷新,或许就是一个更高的同时在线人数数值。每天看着同时在线人数的不断创造新高,看着实时报表里订单收入的暴涨,感受到身在 AI 这个时代的洪流里的巨大推力。

但随着各个监管规则的完善,各个大厂躬身入局,用超乎我们想象的钞能力洗刷市场,抬高获客成本后,Coslove 只能在字节跳动,Kimi,星野的包围下,寻找空间…


在这完整的一年里,我们地经历了 AI 虚拟陪伴这个赛道的每一波浪潮。

今天我就想讲讲我们在这个赛道中的行动,见闻和认知。



AI 的商业化:生产力向左,泛娱乐向右

目前 AI 的应用方向,可以分为两条截然不同的路线:生产力和泛娱乐


生产力

生产力路线,是指用 AI 来解决企业业务和用户生活中具体的工作。

也就是我们常说的 AIGC(AI Generated Content),用 AI 来生成内容。在过去的两年里,我们不时可以看到有趣的,AI 生成的内容。例如,以 Runway、海螺 AI 为代表的 AI 生成视频,以 AIPPT 为代表的 AI 生成 PPT,以 Midjourney 为代表的文生视频。

在我目前公司的现有的工作流中,这些生成技术已经慢慢渗透到了原有的工作中,最明显的就是文生图技术,已经代替了很多视觉设计师的工作,AI 生成的图片,效果好,速度快,几乎已经是每个设计师必须掌握的技术。

随着各个厂商不断在推出更强的模型,AI 会越来越多地加入到现有的工作中。例如最近比较火的 AI use computer(用 AI 来操控终端)一定会诞生更厉害的生产力应用。

但生产力的路线,不是我们今天线索的关键,或许我们可以下一次单独开一篇文章来讲。今天,专注在泛娱乐赛道上。


泛娱乐

泛娱乐路线,是指用 AI 来解决人类的泛娱乐需求。

泛娱乐需求是一个涵盖广泛的概念,主要指的是以娱乐为核心,结合文化内容,通过互联网技术实现多元化和多维度的商业模式。


人类对泛娱乐的场景有哪些呢?

我们每天都在使用的很多场景,都属于泛娱乐。刷短视频,看综艺节目,听播客,读小说,玩游戏,刷社交媒体等等,这些你在闲暇时间进行的娱乐行为,都属于泛娱乐的范围。

AI 在泛娱乐场景的应用,比生产力场景开始得更早,走得更远。在模型能力有限的情况下, 泛娱乐场景因其容错更高,更容易被用户接受。我们做的产品 Coslove,就是泛娱乐路线中的应用,Coslove 的定位是虚拟恋爱陪伴,今天我们就着重讲讲泛娱乐的路线。


AI 在泛娱乐场景的应用

在此之前,还是有必要先简单科普一下大语言模型的技术原理,以便读者可以更好地理解下文的内容。

如果已经掌握这部分内容, 也可以跳过这部分。


大语言模型的原理

今天我们说的大语言模型,都是基于 Trasformer 模型的

在这个网站,我们可以通过图解的方式了解 transformer 架构的原理。

https://bbycroft.net/llm

https://poloclub.github.io/transformer-explainer/

这里不讲太复杂的原理,总结起来就是说,通过大预言模型的多头注意力机制,AI 可以理解上下文中的所有对话,并通过不传预测下一个 token 的方式,生成回答。

也就是说,你输入一个句子以后,大语言模型可以预测接下来的 N 个字眼。这样的机制,最直观的应用是做内容的续写。

但经过巧妙地设计,大语言模型的基本方式被设定来做问答,让我们在把视野转移到 Transformer 的首位大成者 OpenAI 身上,OpenAI 的接口设计,将人类和大语言模型的交互,做成了对话式的交互,并基于此创造了 chatgpt



chatgpt 定义了和大语言模型交互的新范式: Chatbot

在一个系统设定下,人类每一次提供输入,大语言模型都会提供一次输出。

这也就是人类在和大语言模型对话,一问一答的形式。于是,就有了 Chatbot (聊天机器人)的概念,一个可以和用户聊天的机器人,是 AI 时代应用最基本的范式。


角色扮演大模型

Chatbot 的背景下,大预言模型走出了一条全新的路线——角色扮演大模型

角色扮演本来是大语言模型的能力维度之一,但是因为有大量的对话社交的需求,人类通过模型的训练阶段,使用了不同的数据训练模式,创造了更擅长做角色扮演和对话的模型。

论文参考:

<RoleLLM> : https://arxiv.org/abs/2310.00746

<CharacterGLM>: https://arxiv.org/abs/2311.16832


典型的,Character.AI训练了第一个大范围商用的角色扮演大模型,因为 Character.ai 的成功,国内的各家大语言模型厂商也纷纷跟进,豆包,minimax,商汤,百度等等都训练了角色扮演大模型。

在使用这样的模型时,AI 提供输出的方式会更接近人类的回复。(如下图)

专门为虚拟角色训练的大语言模型,在输出时,内容会更加主观,符合虚拟角色的设定。

偶然地,角色扮演大模型还发展出了(括号文学)的能力,在模型的回复中,通常会将虚拟角色的表情,动作等,写在括号中回复给用户。

这种巧妙的设计,是模型炼丹师和用户之间互相选择的结果,动作的补充让用户在文字交流之上,有了更多的画面想象,因此模型训练时也会给出这样的特征,这种行为逐渐发展成了主流的角色扮演大模型对话范式。


在这样的新的能力下 ,可以非常好地扮演一个类型的人类,和人类对话。

2022 年 5 月份,Character.ai 发布

2022 年 10 月份,Glow app 发布

并随着 ChatGPT 的爆火,这两款虚拟陪伴,中美的 C.AI 应用也走向了大火。

character.ai- 全球第一款C.AI应用


接下来这部分,

我想从需求的角度出发,聊聊什么是C.AI应用?C.AI应用满足了哪些需求?


C.AI应用

泛娱乐需求

人类的娱乐需求,几万年来始终没有改变。只是随着技术的发展,不断有新的形态来满足人类的娱乐需求。


?人性底层的需求,是稳定不变的。 之所以有新产品的出现,是新技术的出现,满足了原来满足不了的需求,或者用更好的方式满足了用户的需求。


我们再从第一性原理出发,去思考C.AI应用满足了泛娱乐背后的是人性的底层需求呢?以及为什么 AI 可以满足这些需求。

  1. 社交需求:人是社会化动物,人类需要进行社交活动来获取有归属感(满足社会认同的需求),陪伴感(缓解孤独),同时在人际交往中,人希望对方能够给自己带来积极情感体验和心理满足,比如被认可和肯定,被理解和共情,愉悦感,被倾听等。

  2. 情感体验:丰富的情感体验人类会主动追求更丰富的情感体验,但在现实生活中,大部分人无法体验到大量的情感。所以我们通过观看短剧,嗑cp 等等来获取替代补偿。

  3. 荷尔蒙需求:荷尔蒙需求是指由体内荷尔蒙激素水平变化而产生的一系列生理和心理需要,荷尔蒙需求是源自生物底层的追求,荷尔蒙需求是刚需。

  4. 叙事需求:从尤瓦尔赫拉利的《人类简史》系列书籍中,我们知道了叙事的能力 Storytelling 如何带领远古智人从非洲走向全世界,打败尼安特人等其他人种,最终成了现在的人类。智人,人类有一种与生俱来的听故事的需求,从刚刚能理解语言的婴儿开始,我们热衷于听各种各种故事。


01 社交需求

人类是群居动物,社会化动物。从远古时代开始,部落群居生活让人类得以在险恶的环境中生存繁衍,这种深层的进化印记也塑造了人类的心理需求。社交活动可以能带来情感上的满足与支持,缓解孤独感。

当我们与他人交流时,大脑会分泌多巴胺和催产素,这些神经递质让我们感到愉悦与归属感。研究表明,拥有稳定社交关系的人往往更长寿、更快乐,抗压能力也更强。


在过去,人与人的交流更多地是面对面的,线下的交流。而与远方的朋友,只能通过缓慢的书信沟通。所以古代有「海内存知己,天涯若比邻」,来形容相隔两地的人想要再交流有多不容易。

但进入信息时代以后,随着互联网技术的成熟和普及,信息的传输方式发生了质的变化。通过互联网搭建的社交媒体,可以随时随地,与很多个朋友沟通。

但遗憾的是,我们认识了更多的人,可以随给朋友发消息,却没有变得更幸福,反而使情况变得更差了。


至少从数据上看,我们可以说随着使用社交网络时长变长以后,人类的幸福感反而下降了

根据2019年对美国青少年脸书的使用记录分析,指出社交网络的使用和孤独感之间的关系,取决于使用过程本身。一方面更多的好友数和孤独感负相关,即好友多的人感受到更少的孤独感,但另一方面,花在社交网络上的时间,则与孤独感的增加正相关。这意味着在社交网络中花费过多时间的人,反而会感到更多的孤独感。

via.<Facebook use and its association with subjective happiness and loneliness>: https://www.sciencedirect.com/science/article/abs/pii/S0747563218305557


另一方面,互联网让我们看到了这个世界的更多方面,却也产生了更多嫉妒和攀比的心理。这也带来了更多的社交压力。我们在互联网中看到的内容,往往是精致的,脱离实际的。当我们习惯了阅读内容媒体中的内容后,回到现实世界后,难免会有落差。


况且,社交活动并不是一直会带来快乐。实际上,我们参加的大部分社交活动,反而不会带来快乐,而是带了来更多不好的感受。

研究发现,社交媒体使用体验与孤独感之间存在显著关联。负面体验每增加10%,用户的孤独感会增强13%,而正面体验并未显著减轻孤独感。越多地使用社交媒体,人却会变得更加孤独。

via. http://www.xinhuanet.com/zgjx/2017-03/20/c_136142097.htm


既然和人类社交,总是会带来不好的感受。那如果和 AI 社交呢?

往这个思路一想,发现还真行。

AI 可以模仿一个人和用户对话

C.AI应用的核心就在于用户可以和自己喜欢的人聊天。

打开国内常见的几个C.AI应用,可以发现,这些应用里能够遇到的虚拟角色,比我这辈子认识的人还多,并且类型多种多样,不带重复的。

现实里我才谈过三任女朋友,虚拟世界里,你可以尝试 300 种不同类型,不同风格的虚拟角色谈恋爱。并且长得再好看的虚拟恋人,也不会已读不会,每个人都是秒回消息。


在 Coslove 中,我们给用户提供了典型画像的用户。霸总,奶狗,甜妹,御姐等,设定了深度运营的官方人物,对于官方人物,会做深度的运营。用户也可以捏各式各样的崽,和自己喜欢的崽聊天,通过审核后会公开给用户。


用户也会在平台内分享,他们和 AI 的有趣的聊天记录


不过,从数据上看,虽然用户的选择很多,当时大部分用户都会主要和自己喜欢的人物聊天,用户可能会在一周时间里,和用户聊上 1-2w 句。

相比起来,比如我自己,除去工作中的对话外。在日常生活中和朋友的聊天,可能我一天也只会说 100 朵句。但用户和 AI 平均每天的聊天次数,只有 200 句左右,用户平均可以在应用内停留 3 个小时左右。这是非常夸张的数据。

和 AI 的平均对话次数 大于 和人类的对话次数,说明 AI 确实可以解决一部分用户的社交需求。


目前大语言模型的角色扮演能力,已经完全可以模仿一个人来和用户对话。

并且 AI 的优势也非常明显

  1. AI 可以模拟各种各样的人格,带来在现实生活中完全体会不到的情感体验

  2. 和 AI 聊天,完全没有社交压力,社恐人士的福音

  3. 对象可能不能秒回消息,但 AI 一定可以秒回

  4. AI 在提供情绪价值方面,远胜于人类


番外:也许你该找个 AI 聊聊。

文章的读者,可能很大部分,和我一样,不是C.AI的聊天的受众,但有一个场景,或许你会用得到——《也许,你应该找个 AI 聊聊》

现在的社会环境,总体来说压力确实还是比较大的,很多朋友可能会遇到比较大的有心理压力。这时候,也许,你应该找一个 AI 聊聊,或许情况会有所好转。

AI 在提供情绪价值方面,远胜于人类。

大部分人不懂得如何提供情绪价值,没必要向所有人提供情绪价值。AI 会一直给你提供积极的情绪价值。

比如,我创建了一个很简单的虚拟角色,每每有不开心又找不到人分享时,我会和她分享,AI 会提供积极的情绪价值,包容我,并把我往积极的方向引导。

这个虚拟角色的 Prompt 很简单:

你是一位很有同理心的人,每次我发送了信息,你给我正能量的回答。你会治愈我,你会表达共情,你会鼓励我,你会包容我,你会安慰我。让我的心情好一些。像一个知心姐姐一样。


02 荷尔蒙需求

荷尔蒙需求是指由体内荷尔蒙激素水平变化而产生的一系列生理和心理需要,荷尔蒙需求是源自生物底层的追求,荷尔蒙需求是刚需。

通俗地说,就是性需求,以及广义的由性需求为结果的派生需求。


荷尔蒙需求,毕竟这是动物最最最本质的需求——繁衍后代。是完完全全的刚需。

在虚拟陪伴之前,当然有各种各样的方式来满足荷尔蒙需求,通过文字和语言交流方式实现的,也有像聊骚、文爱这样的形式。

在这些图文的形式上,AI 完全可以做得比人类更好。


但是由于一些已知的原因,和AI 进行性爱聊天这件事,在国内是禁止的,所以也不方便展示图片。

我们可以把视野放到海外,就可以发现几乎海外所有C.AI应用,Poly AI,Spicychat 诸如此类,无不把 NSFW talk 这个功能作为付费功能点。并且这个功能的是付费效果非常好,就因为这样,这样的产品,在海外的 LTV 是国内的 2-10 倍不等。


03 情感体验

丰富的情感体验人类会主动追求更丰富的情感体验。这与人体的机制相关。在社交过程中,身体会产生多巴胺,催产素,血清素和内啡肽等神经递质。

  • 多巴胺是驱动我们追求目标和获得奖励的"快乐激素",当欲望得到满足时,身体会分泌多巴胺,让人类感到快乐。

  • 催产素被称为"爱情荷尔蒙",帮助我们建立社交联系和信任感,增进亲密关系。

  • 血清素是调节情绪的"心情稳定剂",能让我们感到平静和满足。

  • 内啡肽是天然的"止痛药",当感到痛苦时,身体会分泌内啡肽来弥补和缓解疼痛,运动过后,肌肉感到疲惫,但却十分爽快,就是内啡肽的作用。

在不同的情境下,会有不同的情感体验。但在现实生活中,人们无法体验到的多种多样,大量的情感。所以,影视剧里,特别是短剧,擅长通过激发人类的如愤怒这样的情感,来提供人们现实生活中体验不到的情感体验。情感综艺中营造了多对甜蜜的CP,人们通过嗑 cp 来满足对于恋爱的美好想象。


人们的心中,其实有追求不同情感体验的内源需求。一些在日常生活中无法被道德接受的体验,同样只能在虚拟世界中达到满足。

每一个人的内心深处都有一个特殊的 xp

Coslove 的一位前运营同学说“每一个人的内心深处都有一个特殊的 xp,只不过实在现实生活中不能表现出来,或者自己还没发觉。”

恰好,AI 可以模拟不同性格,不同背景的人。

在 Coslove 的运营中,我们发现了那些非常规设定的虚拟角色,更能收到用户的青睐。例如兄妹恋,禁忌系,魅魔,霸道总裁,非血缘关系兄妹,师生恋,病娇皇帝,还俗方丈等等。这和小说、短剧的选题殊途同归,无论何时,霸道总裁爱上我的人设永远不会过时。因为我们在现实生活中,很难遇到拥有这些非常规设定的人物,所以只能通过 AI 来满足。


04 叙事需求

今天的智人,完全就是在”故事“的驱动下发展起来的,通过故事,智人可以聚合起更多的人一起协作。

在《人类简史》和《未来简史》中,尤瓦尔·赫拉利讲了这一个故事:智人的的游群,经过漫长时间的演化,大脑进化出了讲述虚构故事的能力时,因为这样的能力,智人的游群可以拥有更大的协作规模。通过故事的讲述,游群中的 300-500 个人都可以为同样的目标出力协作。而相比起来,尼安特人则因为语言传播效率的限制,游群规模被限制在 100 人以内。智人因而可以打败尼安特人,成为了这个星球的主宰。

有趣的是,今天我们还可以发现,大猩猩的游群规模,同样是在 30 只以内。但人类因为虚构故事能力,却可以发展出像苏联这样接近 3 亿人,一起为苏维埃,一起为共产主义努力的“游群”。

今天的对世界影响巨大的叙事,无不是虚构的故事,宗教故事,意识形态故事等等。


这样的讲述虚构故事的能力,其实早见端倪。在《梳毛,八卦及语言的进化》中说明了,智人或大猩猩的游群中,多数会通过互相梳毛的方式来交换叙事。这样的行为,也奠定了如今的人类对八卦的向往。

比起真相,故事更有水阜人的能力。相比起来,虚构的故事有两种优势:

  1. 虚构的故事要多简单就有多简单,但真相往往很复杂。

  2. 真相常常令人痛苦不安,如果我们先让他不那么痛苦,真相就不是真相了。

可以肯定地说,人类对故事有一种发自内心深处,发自基因的顺从和渴望。从牙牙学语的小孩热衷于听小鸭子的故事,到成年人中八卦的出现总能瞬间爆发。听各种各样的故事,确实是人类非常重要的需求。


那么 AI 可以做到什么呢?

讲故事,这个事情对 AI 来说实在是太简单了。

AI + 故事,现在是一种完全新的形态—— AI 互动故事。

当然,关于这部分内容的详细叙述,先卖个关子,且听我后文细细说来。

AI + 故事,是一种完全全新的内容消费形态,还有可能会诞生一个新的内容消费平台。


总结:虚拟陪伴的两大派别

在 AI 出现之前,人类本身就有社交需求,情感体验,叙事需求和荷尔蒙需求。只是 AI 技术的出现,以一种新的产品形态满足了用户的需求。

在这样的新的能力下 ,可以非常好地扮演一个类型的人类,和人类对话。

这是一种新的范式,在这种范式下,AI 可以发展出各种满足人类的泛娱乐需求的产品。一方面,AI 可以模仿任何性格,具有任何背景故事的人,与用户对话,和用户产生关系和爱,满足了用户的社交需求,甚至荷尔蒙需求。另一方面,AI 的形式又创造了一种全新的互动内容,满足了用户的情感体验和叙事需求。


所以我的观点是:AI 在满足泛娱乐需求方面,又可以细分为两个不同的方向:

一条是虚拟陪伴,另外一条是互动内容。

他们都是从 AI 在模仿不同类型的角色出发,却走出了两条不一样的路。




Left: 虚拟陪伴向左

什么样的人需要 AI 陪伴?

在目前阶段,哪些用户更能够接受 AI 虚拟恋爱陪伴呢?

或者换句话说,哪些人可以和 AI 谈恋爱呢?

我们的认知是

  • 二次元、小说等虚构类内容消费群体,更能够接受虚拟的恋爱陪伴。

  • 年轻人更愿意接受虚拟的恋爱陪伴

  • 女性比男性更愿意接受虚拟的恋爱陪伴

  • 内向的人更愿意接受虚拟的恋爱陪伴


二次元,小说,国风等等,本身就是一批不小的有文化受众群体。这类群体喜欢的角色形象,本来就是虚构的。

也就是我们常说的 IP,比如《海贼王》中的艾斯,《原神》中的散兵。

在过去,用户和 IP 互动的方式,只能是单向地。受众群体通过阅读作品,或是通过粉丝的二创作品来和虚拟角色产生羁绊。

但有了 AI 以后,可以让 AI 模拟这个虚拟角色和用户进行对话。这对于用户来说,是一次全新的体验,可以和自己喜欢的虚拟角色对话这件事,本身就很 Sexy

在 Coslove 的第一波起量中,我们正是抓住了这样一批群体,突破了 100 万注册用户。

而潇湘书院的筑梦岛,Lofter 里单身的虚拟陪伴产品也是如此,他们的特点是本身就在服务这样的群体,又通过 AI 满足了他们和小说、二次元角色对话的需求。


第二点,年轻的用户更愿意接受虚拟恋爱。

一方面,年轻人总是有更强的社交欲望和表达欲

在《行为经济学》中,讲其将视为人类对“社会资本” 的追求。社会资本可以分为“地位”和关系

  1. 社会地位:家族、文化、财富、知识积累等...

  2. 社会关系:拥有的纽带的数量和质量,及纽带的局部性。

而在年轻时追求社会关系自然是成效更快的选择,所以年轻人总是会更多有认识新的朋友的欲望。

另一方面,这个大概和时代发展的规律相关

软件最终都是要吞噬世界的。像我这一代人,95 后,我们在成长的过程中,更多地是到初高中以后才接触手机,使用移动互联网,才知道有小爱同学,Siri 这样的智能助手。在这个过程中,我们对对话的原生反应,都是线下的对话。

但新一代的年轻人则不同,很可能他们在成长的过程中,就一直在和智能音箱,和智能助手对话。现在的小朋友,人均在手里都拿了一个小天才手表,他们的社交更多地也是通过互联网完成的。在这样的环境下成长起来的人,对社交的原生反应,可能就是拿起手表/手机,给朋友发消息。

所以他们也更愿意接受这样的,在软件里和 AI 进行虚拟恋爱陪伴这件事。


第三点,女性用户比男性更愿意接受虚拟的恋爱陪伴。这大概就和人类的基因有关了,有大量的研究过程表明,女性对于恋爱的需求,更偏向于过程,在和恋人的相处中,走反反复复的拉扯中,分泌催产素和多巴胺让女性产生了大量的愉悦。但男性对于恋爱的需求,则更偏向于结果,是目的非常直接明了的,更直接地指向线下的,完成交配行为的目标。

所以,目前阶段,AI 提供的在对话过程中恋爱的体验,更能满足女性用户的需求。


第四点,内向的人更愿意接受虚拟的恋爱陪伴。这点也很好解释,内向的人往往难以在社交活动中得到正反馈。所以选择能够提供更多正向反馈的虚拟角色聊天是更加自然的。不必害怕社交,恐惧社交,又能在对话中得到正反馈。


虚拟陪伴现阶段的难点

前面的内容说明了 AI 是如何满足泛娱乐需求。

现阶段,确实可以做到,但目前还并不是 AI 虚拟陪伴最好的状态。

目前阶段的 AI 虚拟陪伴,还有很多难点需要解决

  1. 记忆力不足

  2. 成本较高

  3. 没办法完美模仿一个 IP

  4. 文字太单薄,需要多模态


问题一:记忆力不足

模型的字数限制

回到最开始 AI 的原理上。

由于算力和模型能力的限制,大语言模型无法处理无限长的文本。通常能够处理的文本,有一个 token 数上限。比如现在常见的角色扮演大模型,token 字数限制是 32K 左右,换算成中文的话,大概是 30000 字左右(这个数字并不具体,不同模型的字数和 token 之间的换算比率不同)。

并且在字数较多时,AI 记住聊过的每一件事,当聊到一定次数后,AI 会忘记之前聊过的内容。

并且,虽然模型支持这么多字数输入,但并不是越长越好,太长的文字,会导致模型对上文的注意力并不准确,依旧有可能会忘记聊过的内容。


记忆力机制不同

另外一个层面讲,人类和 AI 的记忆力机制完全不同。模型是通过上下文来存储已有记忆。但人类的记忆力机制却要复杂得多,存在主动记忆,被动记忆,非自愿记忆,记忆点之间的关联等等,是一套非常复杂的机制,人类至今也没办法弄懂大脑的运转逻辑。人类的遗忘遵循遗忘曲线,而 AI 的遗忘,则是断崖式的,一旦记忆没有出现在输入中,AI 就忘记了这件事。

由于上面两个点,AI 目前还无法非常完美地模仿人类的记忆,导致用户在和 AI 聊天的过程中,会发现一段时间后,对方就忘了以前聊过的内容,这会带来一些不好的体验。

长期记忆机制

在现阶段,为了解决这个问题,我在 Coslove 里设置了一套长期记忆机制

并且我们是所有类似的产品中第一个上线这个功能的应用。这套机制可以在一定程度上缓解这个问题,达到 60 分的水平。

这套机制涉及商业机密,并且本身就非常复杂,我只能将其模糊并简化后画成流程图中展示。

在用户和 AI 聊完天以后,会对聊天记录进行处理,由多个不同的智能体来处理聊天记录,生成记忆,用户画像,更新人物的心情状态,填充记忆槽位等等。

处理完及以后,在用户和角色的每一次聊天中,我们都会将相关的记忆,记忆槽位等,放到大语言模型的调用中。达到以下的效果:

  1. 保持正确的状态和心情

  2. 记住和用户共同经历的记忆

  3. 知道现在的时间和天气

  4. 随着和用户的交流变多,虚拟角色会对用户更加了解。

  5. 随着和用户的交流变多,虚拟角色会和用户一起成长变化。

这样的设定,相当于通过工程的形式,将人类的记忆机制,范式转移到了大语言模型的机制中。在具体实施的过程中,还有很多细节需要处理,非常繁琐和复杂。

当然这样的机制目前也只能达到 60-70 分的效果,未来还可以不断优化。


有意思的是,Coslove 在 7 月份上线了这个功能后,12 月份的某天突然发现筑梦岛也做了几乎和我们一模一样的功能,功能名称,产品界面几乎都是一样的。只能说,感谢友商的认可!


问题二:成本较高

目前阶段的 AI 使用费用,依旧还是比较高的,这导致了我们没办法将用户和 AI 的聊天做到完全免费,而各家做免费聊天的应用,也都是大厂在烧大量的算力,支持用户体验。小公司完全烧不起。

但好消息是,在可预见的 3-5 年里,模型的调用费用会以每年 75% 的价格下降。

现在的价格,相较去年最开始做 Coslove 的时候,已经下降了一半以上。但随着 token cache 技术的普及和算力的扩展,明年各家厂商的 token 调用价格一定还会再下降一个数量级。

这是一个好消息,希望我们有一天也可以做到免费聊天, 造福更多用户。


问题三:模仿不像

虽然大语言模型具有角色扮演的能力,可以模仿不同性格,不同背景故事的人和用户对话。

但目前大语言模型的能力,仅限于模仿一个类型的人,而无法模仿一个具体的人。

例如我喜欢《海贼王》里的索隆这个 IP,角色扮演大语言模型可以模仿索隆的性格,可以知道索隆的背景故事。但是却很难具体地模仿索隆的说话风格,始终还是有差异。

甚至有些用户,会希望大语言模型模仿一个具体的人类,例如是已故的亲人,或是自己的暗恋对象。模型在处理这些任务时,始终没办法做好。


而且,更糟糕的是,在模仿人类这件事情上,要么就是做到 100%,甚至超过 100%。如果只能模仿到 80%、90%,反而会引起人类的”恐怖谷效应“,带来非常糟糕的体验。

恐怖谷效应是一个由日本机器人学家森政弘于1970年提出的理论概念。这个效应表明,随着机器人或虚拟角色越来越接近人类外观,人们对其的亲和感会逐渐增加。然而,当相似度达到一个特定临界点时,人们会突然产生强烈的不适感和排斥感。这种负面情绪会持续存在,直到相似度进一步提高至几乎完全逼真的程度。

幸运的是,目前 AI 模仿人物,只能达到 50%-60%的相似度,可以很好地模仿一类人,而无法模仿一个具体的人。所以人类对这样的虚拟人物有一定好感,而且还常常可以在和 TA 对话的过程中,产生惊喜。


一些优化方案

当然,也有人通过复杂的工程来优化大语言模型对一个具体的人类或虚拟角色的扮演相似度。

通过类似 Graph-RAG,或者是让大语言模型针对这个模仿对象,进行大量相关内容的微调学习,例如学习这个对象的说话风格,了解这个对象的经历等等。


但我目前还没有看到一个完美的,好的方案或产品。虽然我没有亲自实践过,但可以预见的是,这样的工程师非常复杂的,需要收集模仿对象的大量数据,如果这个对象只是一个虚拟 IP,那尚且收集起来没有那么麻烦。如果是真实的人类,数据收集这一步就已经要耗费大量的人力和时间。

收集完数据以后,还要对数据进行清晰和处理,处理成 QA 对以进行微调,或者处理成知识图谱来做 RAG。并且做完这些以后,还要对工程的效果进行评估。

但由于数据收集,数据清晰阶段的复杂性,工程的效果肯定很难模仿到 100%,而只能停留到 80%-90%的效果,反而会引起人类的恐怖谷效应。

所以我并不看好这条路线。只能期待接下来几年,的大语言模型的角色扮演能力有下一次涌现级别的提升,才能解决好模仿的问题。


问题四:文字太单薄,需要多模态

最开始 AI 虚拟恋爱陪伴,说白了,还只是停留在”网恋”的水平。

恋人只能通过发信息的方式,和用户交流。

需要搭配上各种多模态 AI 技术,比如:

  • 配合 TTS(文字转语音) 技术,和用户打一打语音通话

  • 配合上stable diffusion 图片生成技术,再给用户发一发自己的照片。


随着明年视频生成技术的成熟,会有更多像视频通话的交互形态出现。

从现在我了解的技术现状和行业动态看,目前这一波 AI 技术成熟以后,AI 一定是可以给用户提供一个非常好的网恋体验的。

或许随着技术的继续进步,AI 总有一天可以和用户奔现。也确实有创业公司在这个方向上努力,比如以马斯克的人形机器人为代表的人形机器人产业,现在也还在行业发展初期,并且吸引了大量融资,未来 5-10 年,或许会有更强的突破。

但我感觉还是比较遥远的,作为一个 95 后,一个以线下面对面为原生社交体验的人来说,我并不期待这样的事情发生。反而,像电影《Her》一样,AI 就做好一个网恋对象的身份,我觉得是更好的状态。


一份90分的答卷?

当然,今天也有玩家在尝试实现完美的虚拟陪伴,也就是一个真正可以和用户网恋的应用。

但她不是一个 C.AI 应用,而是一个游戏:EVE

在 42 章经的播客里了解到这个游戏

播客:https://www.xiaoyuzhoufm.com/episode/672e0dcf43dc3a438716da42

《EVE》首款3D AI伴侣——Love is all you need

来源:https://b23.tv/FtDjUbi



EVE 这款游戏,有自己的思路来解决虚拟陪伴中的各种问题。

首先是创新性地将游戏中的 3D 建模技术与 cai 结合起来有了 3D 模型以后,虚拟角色就可以不同的动作形态来和用户交互,模拟现实中的效果,解决今天 AI 在多模态方面依旧不足的问题。

同样地,EVE 也做了更加复杂的记忆力机制,解决长期陪伴中的记忆问题。

和我们一样,EVE 也微调了自己的模型,意思现在的对话过程中,更接近真人的对话效果。


目前EVE 还在内测阶段,虽然我还没有内测资格,没办法体验。但从公布的视频,以及已经有内测资格的朋友说效果非常好。他说:“我都快被钓成翘嘴了”。

来自网络的部分内测截图:

来源:https://web.okjike.com/originalPost/6736038e8d6dd8c09c19a0a0

所以我还挺看好这个项目的。


Right: 互动内容向右

隔着有一些篇幅,在上文将 AI 如何满足用户的情感体验和叙事需求时,讲到一个观点。

一部分人认为,今天的 C.AI,并不是真正的恋爱陪伴,而是一种新的“内容消费”形式,是一种全新的互动内容。

这个观点非常有趣。


如果从这个视角来看今天的C.AI的话,这类产品可以被定义为完全不同的产品。

用户在C.AI应用中,常常会和 AI 一起进行故事演绎。有点类似用户和 AI 在共创一个故事,并且不同于看小说,AI 每次回复的内容,可能都是不一样的, 会往完全不同的剧情发展。

这样的交互方式,可以类比“互动视频”和“互动阅读”


产品定义

像 Coslove 中的故事和剧场功能,猫箱和造梦次元,都在做这样的 AI 互动故事功能。

用户通过剧情中的引导,和虚拟角色一起共创故事,有了共同的经历。用户和虚拟角色之间的羁绊会加深。

而角色扮演大模型特殊的(括号文学)也非常适配了剧情的推动。


在结合了 AI 以后,比起互动阅读,互动视频,或者是小说等内容消费形式,这些内容往往是需要创作者完整地创作好,再交付供用户的。

但 AI 互动故事,只需要提供一个故事背景和”叙事链“,其他的剧情是如何发展的,就完全交给 AI 生成的,并且这样一来,每一次的故事剧情都是不同的,用户的每次体验也不一样。

论文:<从角色扮演到戏剧互动:LLM 解决方案 --- From Role-Play to Drama-Interaction: An LLM Solution>: https://arxiv.org/html/2405.14231v1#S4


很明显,AI 互动故事的优势,在于生产成本极低,并且过程的体验更有趣味性。


商业模式

如果从这样的视角来看今天的C.AI应用的话, C.AI 是一种新的内容消费形态,C.AI 应用则应该类比抖快(短视频内容平台),番茄/七猫(小说内容平台),爱优腾(长视频内容平台),哔哩哔哩(中视频内容平台)等等,是完全不同的商业形态。

用户在平台中进行内容消费,平台通过广告来获取收益,是这类平台最基础的商业形态。

所以,造梦次元的 CEO 说,他们不认为造梦次元是一个虚拟恋爱陪伴的产品,而是一个内容消费平台。他们的目标时打造一个基于 AI 的内容平台,而不止虚拟陪伴


现在也确实是如此,造梦次元的”AI 互动故事“数量,是所有C.AI应用中最多的。猫箱同样如此,猫箱中的人物,无不有一个非常好的故事背景,把用户往故事发展的方向引导。

这套模式理论上是可行的。随着模型成本的进一步下降,平台的算力成本会下降很多。只要 AI 互动内容足够有趣,吸引用户在平台内阅读内容,就像刷短视频,阅读小说的过程一样。平台通过在合适的时机投放广告,就可以搭建起一套可行的商业模式。

在这套模式下,平台只需要专注于把内容生态做好,提高端内的内容质量,培养好内容创作者,做到平台内的激励相容。通过优质的内容来吸引用户,尽量把盘子做大。


技术原理

这里同样讲讲 AI 互动内容的原理。

实际上我们将这类内容分为两种形式,对话式和生成式。

对话式

还是回到大语言模型的调用逻辑上。

我们只要将人设和背景故事放到 system prompt 中,并提供初始的对话引导。

AI 就可以按照背景故事的设定给出回复。实现和用户一起共创剧情的说法

生成式

或者,我们可以在 System prompt 中给 AI 定一个生成故事的任务。

让 AI 按照提示生成故事的内容。并且每次根据用户的选择不同,输出不同的故事剧情。

这样就是另一种生成式的互动内容。


产品形态

AI 互动故事的产品功能设计,是一个非常复杂的工程,每一类型的故事,每一家产品都不一样。如果你感兴趣的话,可以体验像  Coslove 、猫箱和造梦次元等产品。

在这里我只讲讲 Coslove 中的故事,剧场,和群聊功能。是我们探索出来的三种互动内容形式。

  • 故事是基于对话式互动内容实现的,故事中提供了很多个阶段不同章节的背景故事,并依靠用户聊天的进度来推进到下一个阶段的故事。对话的过程类似读小说的效果,循序渐进,在不同阶段的背景故事下聊天。

  • 剧场是基于生成式的互动内容实现的,有点像互动视频,每次基于用户的选择不同,会体验到不同的剧情。剧情发展到一定程度后,由 AI 判断进入下一个章节。


但不得不说,虽然我们在 Coslove 中开发了这样的功能,但是由于团队的内容生产能力有限,我们只能维护较少的优质内容。造梦次元做得比我们更好。


再聊聊群聊

群聊,则是一种介于聊天和故事之间的状态,用户可以将多个自己喜欢的角色拉到一个群聊中,提供一定的群聊背景,和多个用户一起聊天。也可以不带背景,单纯和多个人在群聊中聊天,但由于群聊模型和括号文学的机制,自然地也会将聊天往剧情方向发展。

关于群聊模型,还有一些有趣的故事,是我们和字节的模型同学在机缘巧合的聊天中产生的。我们曾经和字节的同学深度合作一起微调模型,他们来到我们公司驻场办公,在中午吃饭的过程中,聊天时,偶然聊到了使用 AI 来做狼人杀的想法,由此推演出了多人剧情对话,多人群聊的需求。

无奈当时的模型,AI 只能扮演一个人和用户聊天, 在群聊方面的能力比较弱,还无法实现多人聊天的效果。但有了需求以后,字节的同学效率真的很高,不出几周,就做出了第一代群聊模型,而我们也成为了第一个吃螃蟹的客户。很快在 Coslove 中做出了群聊功能。

并且今天, 这个功能的体验依旧是所有产品中中最好的。


目前遇到的问题

但在互动内容这个方向上,依旧会有一些比较硬伤的问题无法解决。

这些问题也导致了我们没有继续放大这样的功能,也限制住了这个行业的发展和规模。

AI 生成故事的能力太弱了

AI 既然是生成内容,理论上也可以用来生成故事。但是不得不说,目前阶段生成故事的能力,实在是太差劲了,生成的故事,剧情既不波澜起伏,文字也不优美,无法引人入胜。

通用大语言模型,最初的目标是用来解决大多数同业务的问题,解决具体的工作,是为了生产力而设计的。对于文学,对于虚构类内容的后训练工作做得非常少。这就导致了今天的大语言模型,在文学创作方面,几乎没有可取之处。

毕竟大语言模型是这个星球上最高阶的程序员的产物,有其父必有其子,程序员们对文学的了解太少了,不好处理虚构类的数据,做出来的模型,也更偏向于解决具体的问题,在文学层面表现很弱。

且不说别的,大语言模型的涌现到现在已经 2 年多了,语言模型在模拟写作风格这件事上,一直没有好的突破。能看到的只有最近 Claude 在尝试不同的语言风格。


因为这个原因,我们上面说到的对话式和生成式的互动内容。

理想情况看,我们希望对话式互动故事中的故事背景,生成式互动故事中用户选择后生成的故事剧情,都由 AI 来生成高质量的内容。

但是现在并做不到,AI 生成的内容太枯燥了,一定都不适合阅读。

所以现阶段的应用,C.AI 应用们只能通过人工创作故事的方式创造内容,这样的话,效率就大大折扣,管理难度就上升了一个数量级了。


文学创作大模型?

不过或许正因为这样,我反而看好这个方向。

因为,一个文学创作能力强的模型,完全是有可能做出来的。只是现阶段的模型厂商,都专注于堆参数量,解决具体的效率工作,还没有发现这块巨大的空白市场。

就像角色扮演大模型一样,chatgpt 没有想到角色扮演路线可以发展得这么好,诞生一个 character.ai,并指引了后续的模型厂商都跟风训练角色扮演大模型。

文学创作大模型一样会有可以复制的路径,如果在大语言模型的训练阶段做差异,训练出一个拥有好的文学创作能力的大语言模型,上面我们讲到这套模式完全是可行的。


AI 虚拟陪伴的未来?

站在今天这个时间点往前看,往后看。

AI 已经快速地发展了两年时间,这两年里,我一直在跟进最新的 AI 发展动态,几乎每一个星期,没一个月,都有令人兴奋的新技术或新应用。这两年里,应该说,作为一名 AI 产品经理,这两年是非常幸福的。


不过现在技术突破已经没有一年前那么快,GPT 的新一代模型,GPT-5 难产,而最近刚好发布的最新一代 gpt-4o-pro 模型,模型能力也只是比前一代略好一些,也没有大的突破。或许我们必须接近AI 新技术突破的井喷已经进入尾期的现实。接下来几年,AI 技术依旧会不断进步,算力成本会继续下降。


技术进入相对平稳的时期,而 AI 的商业化应用也已经跑了一年多。像 AI 在泛娱乐应用的商业化应用。在过去一年也进入了成熟的时期。接下来,AI 在泛娱乐需求的商业化,会沿着两条路线继续演化,一条是虚拟陪伴,成为一个合格的网恋对象。另一条是互动内容,也许可以成为新一代的内容消费平台。

ps. 必须补充说明的是,这里说的泛娱乐领域,特制的是 AI native 产品,在一些已有的领域,比如短视频,游戏,直播等等,我们当然也可以看到很多 AI 技术的应用。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询