微信扫码
添加专属顾问
我要投稿
杭州西湖心辰公司如何通过AI技术为机器人注入“灵魂”,满足现代人情感需求。核心内容:1. 西湖心辰公司背景及其在AI领域的特殊定位2. 人口老龄化与单身群体崛起背景下的情感陪伴需求3. AI陪伴经济的市场潜力与用户行为分析
今年春晚,魔性转手绢的宇树,一夜之间爆火。
灵活的四肢,精准的运动控制,整齐的列队,配合东北花棉袄与大红手绢,赛博新世界的大门就这么在最传统的除夕夜,向全世界打开了。
于是,叠被子、摇奶茶、炒菜、拖地……普通人在思考如何让机械牛马解放普通牛马。
投资人、地方政府、创业者们,则开启了又一轮以杭州为关键词的城市大反思。
但业内的讨论,已经在思考机器人的下一步:给硬件封装灵魂,有市场吗?
而关于这场讨论,话题的中心则是同在杭州的另一家AI小巨头——西湖心辰。
2023年4月,伴随A股知名企业“汤姆猫”将战略投资打到西湖心辰账户,同一时间,汤姆猫的股价也从年初最低3元,一路暴涨至9元上下,这家靠“会说话的猫”起家的“机器人”公司,自此在A股里拥有了“Z世代精神基建龙头”的新身份。
也是在那时,成立仅两年的西湖心辰,意外闯入了聚光灯下。这是一个创始人曾担任西湖大学深度学习实验室负责人和博士生导师,一度因公开招聘CEO而引起行业广泛讨论的知名大模型创业公司。
而从业务角度出发,在一众盯着各种benchmark狂奔的大模型竞赛的玩家中,西湖心辰是其中为数不多主打情感与AI陪伴,为机器人封装“灵魂”的“异类”。
一到夜间,一组组代码就会将人类的倾诉拆解、封装、计算——每月数以百万计的孤独灵魂,都会与西湖心辰旗下的免费心理咨询平台“聊会小天”对话。最常输入的词是“睡不着”和“为什么”。
但陪伴经济,并非大模型与机器人时代的新生意。
一方面是人口老龄化:2023年,中国65岁及以上老年人口占比高达15.4%,全球每4个老年人里就有1个是中国人。另一方面,则是单身群体的崛起:中国单身人口达2.4亿,30%的Z世代愿意将虚拟伴侣视为情感补充。
早在十多年前,淘宝之上,各式各样的线上陪聊业务,就已经奠定各种短视频直播陪聊的雏形;到了2014年,网鱼网咖创始人创立互联网陪玩比心成为中国最早的线上陪伴平台;此后2016年,陌陌出现,成为一代年轻人陌生交友的首次尝试,而同一时期,在海外,作为行业鼻祖的Tinder,则早将这一套玩得滚瓜烂熟,并一举将公司推向上市,成为英文世界陌生人交友代名词。
当个体的职业原子化叠加社会群体的老龄化、单身化,作为线下陪伴的平替,更低成本,更懂用户,也更24小时无休的AI,也就成为了一代人的精神消费必需品。
而如何让机器人更懂你,也就成了新的刚需。
与此同时,互联网的世界中,用户使用时长也就可以等量代换市场。情感陪伴AI的用户时长,显然是要远远高于一个纯工具性的搜索以及事实性AI生成工具。
一个2023年的数据显示,作为陪伴AI的代表,C.AI网页每月访问量已经超过2亿次,用户平均每次停留时间为29分钟,西湖心辰“聊会小天”AI心理咨询应用用户的平均聊天轮次超过90轮,相比之下,同一时期的GPT用户使用时长只有8分钟。
此外,不同于“智商类大模型”的月月都有SOTA出,“情商类大模型”最典型的特质之一,便是其能力与护城河,是由企业与用户共同建立的,用户的所有历史对话都将加深模型对用户的理解,从而生成更精准的反馈,以及使用时长-使用效果的正循环。
理论很美好,但是现实中,陪伴AI的发展却总是不瘟不火?
西湖心辰AI算法工程师郝少春的总结是,如今市面上大部分的陪伴AI,只是占用了用户的时间,但却并未提供足够的陪伴。
换而言之,它们没有足够的情绪价值。
因此,在推出国内首个对标GPT-4o的端到端通用语音大模型——心辰Lingo,以及公司的第一款产品——免费的心理咨询平台“聊会小天”时,西湖心辰重点对其“倾听”和“共情”能力做了研发,让模型可以敏锐捕捉用户的语气、节奏和情绪,并以最接近人类表达、人类语音的形式进行对话,还能随时被打断,目前已能达到中级心理咨询师的水平。
但如何做到让AI更像人呢?
西湖心辰的答案是推出高情商通用大模型。
一方面,西湖心辰向众多心理学专家、患者请教访谈,积累了大量优质的语料,并在此基础上推出了自研的情感计算和共情模块,让回答变得更有感情更生动。
另一方面,西湖心辰通过构建端到端语音通话框架,取代传统用户语音-文本-AI生成文字答案-语音回答的繁琐流程,不仅让语音输出的延迟更低,同时做到了表达更有情绪与语气起伏。
最后,建立在有感情、有语气、有情绪的基础上,要做到真正的高情商,大模型还需要能够听得懂用户在说什么,也记得用户过去到底说过什么。
围绕这一需求,西湖心辰结合Zilliz Cloud向量数据库,推出了基于语音的检索增强生成 (RAG) 系统——VoiceRAG方案。
具体到VoiceRAG中,其语音交互通常面临三大难点:
1、精准理解
在语音交互中,准确把握用户的意图和需求至关重要。这不仅需要语音识别技术(ASR),还需要语音理解。只有精准理解用户的输入,才能提升RAG在实时语音交互场景下的准确性。
2、实时性
实时性(包括单工和双工)是语音交互的核心特征之一。在实时语音交互场景下,VoiceRAG需要在有限的时间内完成语音信息提取、知识库检索和响应生成等任务,以满足用户对实时性的需求。
3、自然交互
语音交互的目标是提供一种自然、流畅的用户体验。在实时语音交互场景下,RAG需要满足用户的连续提问和反馈、实时打断等,以提供一种无缝的交互体验;同时,其内容应不影响LLM口语化的风格。
而要满足以上三大需求,RAG需要能够快速检索与用户需求相关的信息。
通过将语音信息与知识库进行匹配,可以对用户需求快速响应。
因此,不同于人类记忆的复杂性,机器的记忆能力,是可以用指标进行量化的。主要从两个角度展开:更快地检索,以及更精准的召回。
在西湖心辰,所有的知识库语料都会在经过处理后存入向量数据库Zilliz Cloud中,并通过文本Embedding 模型,将原始语料转化为向量字段也存储在 Zilliz Cloud中,以便后续做查询召回。
在此之后,便进入语音信息提取+知识库检索环节,当用户提出语音问题后,通过ASR识别并经过 Embedding 模型转化为向量,或者直接通过语音Embedding,将输入与知识库语料向量数据进行匹配。召回 Top-k 的检索结果。并将Top-k进行重排,返给Lingo语音大模型。
最终,大模型通过结合自身能力以及向量数据库的Top-k检索召回,通过TTS技术,可以生成自然、流畅的响应。
另外,要想精准地为用户提供情绪价值,精准地听懂,是一切的前提。但实际场景中,经常会出现如背景音嘈杂、用户有口音,用户表达时情绪激动声音颤抖带哭腔的情况。
针对这一情况,我们就需要利用相关信息实时检索和生成。
Zilliz开发的 GPTCache 就是一个可以平衡知识库检索速度与生成质量的方案。通过语义缓存技术,GPTCache 可以有效存储语言模型生成的响应,从而加速应用程序的响应速度和整体效率。
无论是知识库语料,还是用户的历史交互记录,无疑都是一个企业的核心数据资产,西湖心辰为什么会选择Zilliz产品?
在郝少春看来,Zilliz的性能是他们的第一考量目标“从2018年开始接触Milvus一直到现在,Zilliz的产品真的太强了”。
通常来说,一个语音系统要确保用户能够获得流畅的交互体验,就必须在很短时间内完成语音识别、知识检索和文本生成的全过程,其间,留给RAG的时间仅有200-500ms。
Zilliz提供的全托管商业化向量数据库Zilliz Cloud百亿级向量毫秒级高精度检索,正好可以出色地支持西湖心辰VoiceRAG对流畅交互体验的高要求。根据实际测试反馈,在Zilliz Cloud的加持下,西湖心辰VoiceRAG的检索延迟最多100ms,平均50ms,仅为标准时长的十分之一。
在这背后,则是Zilliz Cloud 自研的 Cardinal 搜索引擎的技术加持,这是一个用现代 C++ 语言和实用的近似最近邻搜索(ANNS)算法构建的多线程、高效率向量搜索引擎。相比云厂商RAG和开源向量数据库产品,性能(QPS)可提升 10 倍以上。
此外,通过异构计算:Cardinal 引擎利用 x86 的 AVX-512 扩展和 ARM 的 NEON 及 SVE 指令集等SIMD(单指令流多数据流)技术,可以提供针对向量数据高效计算优化的代码。
针对一些资源多地部署,有高并发的客户,Zilliz Cloud 则采用分布式架构,可以有效地分担负载,提高系统的整体性能。并且存算分离的架构能够解耦计算层和持久化层,方便多副本的快速扩展,降低单计算节点的故障影响。同时读、写、索引分离的架构能够最大化降低各种负载的互相影响。
而针对一些具有明显流量峰谷特性的企业,Zilliz Cloud 还可以提供弹性伸缩功能,能够根据实时用量动态调整集群容量,防止因资源不够而导致的禁写,并帮助开发者降低运营成本。
在社会学中,一个观点是当代人不断蔓延的孤独其实是社会高度分工、职业原子化的副产物,随着工具的进步,精细化分工使个体被限定在狭窄职业领域(如程序员、会计师),知识体系的差异使得跨行业交流出现障碍。
而高强度工作带来的时间贫困,则意味着,线下社交与高质量陪伴成为这一代年轻人的奢侈品。
于是,当陪伴类AI逐渐登上舞台中央,让机器人拥有“灵魂”的故事开始走向闭环——毕竟,记忆与被理解,始终是刻在人类基因中的基础精神需求,如果现实世界无法做到,何妨交给AI、交给向量数据库。
注:本文内容结合西湖心辰AI算法工程师郝少春分享撰写。
郝少春:AI算法工程师,《ChatGPT原理与应用开发》作者,心辰Lingo VoiceAgent架构设计实现,汤姆猫AI硬件TTS算法研发。
推荐阅读
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-18
2025-03-18
2025-03-18
2025-03-18
2025-03-18
2025-03-18
2025-03-17
2025-03-17