微信扫码
与创始人交个朋友
我要投稿
引言
尽管近几年阿里、京东、腾讯等传统的中国互联网巨头负面缠身(总市值上的跌幅也充分体现这一点),但这并不妨碍他们在AI技术和产品应用方面的探索和实践。
以阿里为例,多年前就听闻他们在千人千面的推荐、AI设计应用鲁班(现已改名为“鹿班”)方面的实践:
2016年双11期间,鲁班把双11站内投放广告形式呈现为千人千面。以前的“双十一”每个分会场只需根据主题投放1张图片素材,2016年的“双十一”分会场需要根据主题和消费者特征进行个性化呈现,平均每个分会场需要投放3万张图片素材,整个双11期间累计生产了1.7亿素材,满打满算需要100个设计师不吃不喝连续做300年。这在1年前是很难想象的,但是鲁班系统除了个别模板还需人工设计以外,基本承接了此项目全部的工作量。从商业效果来看这种模式让资源位点击率翻了一倍多。设计效能得到大幅提升。
还有集个性化搜索、推荐、广告三位一体的在线服务平台AI·OS引擎体系:
随着OpenAI和ChatGPT的大火,国内的互联网巨头也陆续推出了自己的大模型,阿里的就是“通义”系列:
在这个基础之上,阿里巴巴推出了与淘宝APP集成的原生AI大模型应用——淘宝问问,据悉在2023年9月份启动的内测、双十一期间累计体验人次超1000万。不过它目前只是手淘场景内、AI与导购的初步结合阶段,因此也并没有大规模的推广。
接下来就请随我一起探索一番。
01
—
产品概览
淘宝问问结合了先进的AI技术和淘宝庞大的商品数据库,定位为一款创新的智能导购助手,能够综合考虑用户的历史记录和购物偏好,提供个性化的商品推荐和购物建议,旨在提升用户的购物体验,同时也为淘宝平台提升用户粘性和提高转化率。它不仅仅是一个搜索工具,更是一个全方位的购物伙伴,能够满足用户在购物过程中的多元化需求。同时,它的多模态交互方式(包括语音和文字输入)和多样化功能标签,使得购物体验更加便捷和丰富。
除了基础的商品搜索和推荐,淘宝问问还提供“资深导购员”“生活小助手”“美食达人”“旅行策划人”“灵魂写手”等多样化的功能标签(本质上应该是分别定义了不同的prompt),能够为消费者提供更加丰富的服务,如商品挑选攻略、行程建议等。
产品入口
(1)在淘宝搜索框输入“淘宝问问”搜索
官方称之为“深度对话”模式,即直接从0开始,与AI助手进行对话:
这种情况下可以承接用户相对模糊的购物需求,解决传统电商搜索功能无法解决的难题。
(2)在商品搜索结果页,右下角有入口
官方称之为“copilot”模式,系统会根据当前搜索的关键词直接发起与大模型的交互,从而推荐商品:
这种情况下可以大幅减少买家的决策成本,从而缩短从决策到交易的中间环节(因为按正常的搜索呈现,大概率会有非常非常多的商品,造成“信息过载”和“选择困难症”)。
在淘宝问问中推荐的商品,一方面是精简了展示数量(例如1个主推+3个辅推),另一方面是去除了广告逻辑,完全从“买家”的角度出发。就这种“购物体验”而言,还是蛮新奇的。
02
—
上手体验
Round 1
随着大模型热潮持续,市面上已经陆续推出了AI PC(AI Phone也在路上了)。我们试着问问淘宝问问这方面有没有什么好的推荐:
尽管它看似有模有样地推荐了,但仅仅从这个价格来看,就不大可能是我想要的AI PC。然后它会继续推荐另外3款,从描述文本来看也不大像:
直接在淘宝上搜索“AI电脑”,虽然排在最前面的并不是“目标”,
不过往下滑动页面还是能找到我认为的目标商品的:
这里存比较大的问题是:
大模型可能并没有理解我所说的AI电脑是什么,因为它还是比较新的概念,商品库里这方面的信息本来也不多。可能第1个主推荐商品的描述中有“AI”例如英伟达的相关GPU的字眼,所以就推荐了它?
当然我对于AI PC有先入为主的印象,也许从模型的角度,它的推荐结果是合理的?
Round 2
那我们来换个问题,试试比较成熟的产品:全身镜。
可以看到主推荐结果(最佳推荐)算是符合预期的,但是在次要推荐的3款产品中,混进了一款神奇的“家用电风扇”(大模型的幻觉?),这就相当尴尬了!
接着追问它推荐的理由:
以及补充一个“提问”信息,希望镜面是玻璃材质的:
这个时候它重新推荐了几款商品,但是推荐结果的展示样式相比之前有了较大差距,是内容社区的视频(内含商品链接)而非可以直接加购的商品。从图片样式来看,不大像我所理解的“玻璃”材质。
Round 3
我们接着体验另一种模式,从商品搜索列表中直接进入(搜索关键词为“红色毛衣小香风”),此时淘宝问问已经自动推荐出对应的1+3个商品:
最佳推荐商品看起来不像,但其实和规格(款式)主图有关,点击进入商品详情会发现是有“玛瑙红色”的规格,理论上是符合预期的(但会引起用户的困惑)。
淘宝问问也具备多轮对话能力,因此我们可以接着让它进行商品对比:
我在事后进行了第2次尝试,从图片展示的角度而言是更符合预期的:
要求它用表格的形式来进行商品对比,这样看着会更直观:
Round 4
对于其中“内置”的功能模板角色,例如“婚礼策划师”,我们也体验一把。首先它会根据需求提供一些建议:
当然同时也会推荐商品:
这个交互过程反而是大家比较熟悉的类ChatGPT、百度文心一言的对话,只不过在淘宝问问的场景中增加了特定的指令,即在生成文本与用户对话的同时,还会推荐相关商品。
我们把这种情景理解为ChatGPT的自定义GPTs、百度文心一言的百宝箱等即可:
如果问到旅行计划相关的问题,它还会提供景点、机票等信息,实际点击不难发现是与阿里旗下另一款产品飞猪进行了集成:
但是由于笔者身在广州,这个结果默认“机票”且“广州→广州”并不符合预期,或者说不大合理。
上手体验小结
总体来看,淘宝问问里用户的一次查询,需要:
调用大模型生成能力
调用淘宝商品推荐能力和内容社区的视频推荐能力
更复杂的场景如旅行策划,还能调用飞猪的机票、酒店预订能力,类似于GPTs中集成的外部Action
尽管淘宝问问这款AI助手是“万能的淘宝”将大模型、AIGC技术与电商购物体验相结合,为用户在手淘更快地找到想买的东西、改善购物体验,拓展了电商的边界,增加了可能性,但就目前的实际体验而言,还处于非常初级的阶段,无论是对于用于意图的理解、还是实际的个性化推荐结果呈现,效果只能说是一般,有时给出的答案和问题并不匹配,在内容的质量、准确度方面也还有待加强。估计这也是截止到今天仍然显示是“测试版”的原因,毕竟尚不成熟,不适合大规模推广。
03
—
产品特性提炼与分析
综合个人体验以及网络上的相关介绍信息,我们将淘宝问问的功能特性总结提炼如下:
智能搜索:与基础搜索互补,提供有选择的导购体验,支持用户通过语音或文字输入进行商品搜索,淘宝问问能够理解并处理自然语言查询。
个性化推荐:无需额外要求,淘宝问问会结合用户的历史订单、购物车数据和购物偏好,提供个性化的商品推荐。对每款推荐的商品,AI提供产品特点、适合人群或场合的总结,以及推荐理由。
优惠策略建议:如果用户有特定的优惠券或打算参与满减活动,淘宝问问能够推荐合适的商品以最大化优惠利用。
商品比较:用户可以选择两个商品进行比较,淘宝问问将提供详尽的优缺点分析,帮助用户做出选择。这个和电商网站的商品PK功能基本一致。
场景化推荐:通过内置功能模板,淘宝问问提供针对特定场景的推荐服务,例如“婚礼策划师”“旅行策划人”“资深导购员”,提供整体方案和商品推荐。
日常问题解答:“生活小能手”和“美食大人”功能可解决日常问题,同时提供一键购买所需材料的功能。
内容创作辅助:为喜欢分享购物体验的用户提供“灵魂写手”功能,帮助他们创作内容。
前面的5点,是比较偏电商这个垂直领域的,最后2点功能特性,就和常规的通用大语言模型应用如ChatGPT、文心一言没有太多的个性化差异了。
因此,淘宝问问的基础是一个具有强专业领域能力的通用大模型。
实现过程推演
从产品实现的角度,将通用大模型(如通义千问)与淘宝的电商行业数据结合,以便更好地解析用户输入的自然语言、理解用户意图,提供有效的回答和个性化的推荐,大致需要如下实现过程:
0.头脑风暴
综合数据资产、用户需求、市场趋势、创新机会、团队能力等,以尽可能全面的视角探索大模型和电商购物体验相结合的业务机会点,包括用户场景体验升级、获取新的用户增量等,从而形成产品的整体蓝图规划和可能特性(需求池?)。
1.需求分析:
基于创意结果,结合用户故事、业务需求详细分析和定义电商场景下的用户需求,包括搜索、推荐、优惠策略、商品比较、场景化推荐、日常问题解答和内容创作等。
研究如何结合淘宝的庞大商品数据库、用户购物历史记录、推荐模型等,确定模型需要具备的功能特性。
2.数据准备:
收集和整理淘宝的电商行业数据,包括用户历史订单、购物车数据、商品信息、用户评价、优惠券使用情况等。
清洗和预处理数据,确保数据的质量和一致性。
3.模型选择与调整:
选择合适的通用大模型作为基础,如通义千问。
根据电商场景的特点,对基础模型进行调整和优化,使其更好地适应电商行业的数据和需求。
4.训练与微调:
使用电商行业数据对基础模型进行训练,使其具备电商领域的专业知识。
通过指令微调(SFT)和人类反馈强化学习(RLHF)等技术,使模型学会完成用户的指令并满足用户的偏好。
5.模型评估与优化:
对训练好的模型进行评估,包括准确率、召回率、用户体验等指标。
根据评估结果,对模型进行优化和调整,以提高其性能和效果。
6.功能开发与集成:
开发模型的各种功能特性,如智能搜索、个性化推荐、优惠策略建议、商品比较、场景化推荐、日常问题解答和内容创作辅助等。
将开发好的功能集成到淘宝APP中,确保其与其他系统组件的兼容性和稳定性。
7.上线与监控:
将训练好的模型和开发好的功能上线,供用户使用。
监控模型的运行情况,包括性能指标、用户反馈、异常情况等,确保模型的稳定性和可靠性。
收集用户对淘宝问问的使用反馈,包括功能满意度、用户体验、建议和意见等,以便进行迭代和优化。
产品PRD模拟(示意)
淘宝问问实质上是一个电商领域的智能对话系统,能够理解复杂的用户查询,并提供相关、准确的回答和建议。假设我们要对淘宝问问进行详细的功能设计,撰写对应的PRD,它可能是这样的:
用户故事:用户小李是一位忙碌的白领,经常使用淘宝购物。她希望能快速找到符合自己需求的商品,但又不希望花费太多时间浏览和筛选。使用传统的搜索方式,她经常感到信息量过大,难以做出选择。于是,她开始通过淘宝问问提出具体的购物问题,例如“推荐一款适合夏天户外运动的防晒霜”,并希望得到快速、精准的答复。
业务目标:
提升用户满意度:通过快速、准确的推荐,提高用户购物体验,增强用户满意度和忠诚度。
增加转化率:个性化推荐帮助用户更快决策,从而提高购买转化率。
数据洞察和产品迭代:收集用户交互数据,深入理解用户需求,为产品迭代提供数据支持。
功能描述:
智能搜索与回答:用户可以通过语音或文本输入提问,AI系统需能准确解析查询、识别用户意图,并提供合理的响应。
个性化推荐:在识别用户意图的基础上,结合用户的历史购物记录、偏好、搜索历史等因素,提供个性化的商品推荐,并解释为何推荐某商品(推荐理由)。
多轮对话支持:支持与用户的连续交互,以进一步明确用户需求;提供相关问题选项,引导用户继续对话。
“猜你喜欢”推荐:根据用户的行为和购买模式,推荐可能感兴趣的商品。
交互流程:
用户打开淘宝,进入搜索框或专门的“淘宝问问”区域。
通过语音或文本输入具体的购物需求。
淘宝问问处理输入,结合用户历史数据,展示推荐商品。
用户可以浏览推荐,进行进一步的查询或直接购买。
用户界面:
提供一个清晰的文本/语音等多模态输入区域,供用户输入问题。
展示一个响应区域,用于显示淘宝问问的回答和商品推荐,包含文字、图形、语音、视频等多模态信息,例如商品图片、推荐理由、价格、详情链接、加购按钮等。
输入输出
输入:用户通过语音或文字形式提出具体的购物需求或问题。
输出:淘宝问问根据用户需求,展示的场景问答内容(含商品推荐)。
技术实现
(1)自然语言处理
应用NLP技术解析用户输入。
能够处理多种类型的查询,包括模糊和复杂的请求。
(2)推荐算法
使用协同过滤、内容基推荐等技术。
结合用户画像和行为数据进行个性化推荐。
(3)多轮对话管理
实施对话状态跟踪和意图识别机制。
优化对话流程,确保自然和连贯的用户体验。
……
04
—
总结与延伸
经过接连对腾讯会议AI小助手、淘宝问问的体验和分析,不难发现:
尽管在过去的几年里,人工智能大模型/AIGC技术取得了显著进展(2023可谓是爆发之年),但在很多方面仍然不够成熟。
要将这种AI能力与现有产品相结合,需要对现有产品进行技术适配,这往往需要投入大量的时间、人力、物力。我们能清晰地观察到即便是腾讯、阿里这样的互联网大厂,有着深厚的技术积累加上数月的迭代,目前所提供的版本也还存在不少问题,无论是从用户预期的角度,还是跟官方宣传表现的角度,都有着较大差距。
阿里AI依托阿里领先的云基础设施、大数据和AI工程能力、场景算法技术和多年行业实践,一站式地为企业和开发者提供云原生的AI能力体系。帮助提升AI应用开发效率,促进AI在产业中规模化落地,激发业务价值。
但是我依然坚信,人工智能、特别是生成式人工智能(GenAI)是未来,随着技术的发展进步、与实际应用结合的不断创新和优化,在可预见的5-10年里,就会对我们的工作、学习、生活带来颠覆性的影响。
在此,我借用麦肯锡在中国金融业CEO季刊2023年秋季刊《捕捉生成式AI新机遇》这份文件中的部分内容来加以说明:
GenAI是传统AI(规则型AI以及判别式AI)的进化产物,与传统AI相比,GenAI具有以下四大核心优势:
- 自动化和效率提升:传统AI需要经过繁琐的手工特征工程和模型调整,而GenAI则能够自动从大量数据中学习,生成高质量的输出。这使得GenAI能够自动化许多重复性和繁琐的任务,从而提高工作效率并减少人工错误。与传统AI相比,GenAI能够更快构建模型、处理数据、生成结果,可助力企业更快做出决策、提供服务。
- 个性化和定制化:传统AI往往是基于统计分析和大规模数据的结果,缺乏对个体差异的精确处理。而GenAI通过学习每个个体的数据和反馈,能够根据个人需求和上下文生成个性化输出。这使得GenAI能够为用户提供更加定制化的体验和解决方案,满足不同用户需求,提高用户满意度和忠诚度。
- 创造性和创新能力:传统AI主要是基于规则和已有数据进行预测和决策,局限于已知模式和规律。而GenAI具备生成新的、未知内容和想法的能力,能够从学习到的数据中创造出全新解决方案。通过GenAI的创造性和创新能力,企业可以发现新洞察,探索新业务模式,不断创新产品和服务。
- 可解释性和透明度:传统AI模型往往是黑盒模型,其决策过程难以被解释和理解。而GenAI在生成输出时能够提供一定程度的解释,具备一定的可解释性,可以揭示其决策逻辑和原因。这对于金融、医疗等需要可解释性的领域尤为重要,有助于建立信任、满足监管要求,也让人们更容易接受和采纳GenAI的决策。(关于这一点,我持有不同意见!虽然理论上可能,但在实际应用中,完全解释一个复杂的生成式AI模型仍然是一个挑战。特别是对于大型的、基于深度学习的模型,提供完全透明的解释非常困难。)
SFT(指令微调)和RLHF(人类反馈强化学习)是两种不同的技术手段,它们在淘宝问问这样的AI产品实现过程中扮演着重要的角色。以下是它们的概念、原理、具体实现步骤和方法的详细介绍:
SFT(指令微调)
概念:SFT(Smart Instruction Tuning)是一种基于人类反馈的机器学习技术,通过调整模型参数来优化模型的响应,使其更加符合人类的期望和指令。
原理:SFT的核心思想是使用人类提供的指令来指导模型的训练。这些指令通常是对模型输出的一种期望,通过比较模型的实际输出和期望输出,可以计算出损失函数,从而调整模型参数。
具体实现步骤和方法>>>
数据收集:收集人类提供的指令数据,这些数据应该覆盖用户可能发出的各种查询和指令。
模型训练:使用收集到的指令数据来训练模型,模型在训练过程中会不断调整自己的参数,以更好地匹配这些指令。
评估与调整:在训练过程中,通过比较模型的输出和人类的期望输出,评估模型的性能,并根据评估结果进一步调整模型参数。
RLHF(人类反馈强化学习)
概念:RLHF(Reinforcement Learning from Human Feedback)是一种结合了强化学习和人类反馈的机器学习技术,通过人类的反馈来指导模型的行为,使其更加符合人类的期望。
原理:RLHF的核心思想是使用人类提供的反馈来指导模型的训练。这些反馈通常是对模型输出的一种评价,通过分析这些反馈,模型可以学习到什么样的行为是受到人类鼓励的,从而调整自己的行为策略。
具体实现步骤和方法>>>
环境建模:将AI产品作为环境,其中用户查询是状态,模型的输出是动作。
人类反馈收集:收集人类用户对模型输出的反馈,这些反馈可以是正面的(如“这个推荐很棒!”)或负面的(如“这个推荐不适合我”)。
强化学习:使用收集到的反馈作为强化信号,通过强化学习算法来训练模型,使模型能够根据反馈调整自己的行为策略。
评估与调整:在训练过程中,根据模型输出的结果和人类的反馈,评估模型的性能,并根据评估结果进一步调整模型参数。
在淘宝问问这样的AI产品中,SFT和RLHF可以结合起来使用,以提高模型的性能和用户满意度。
数据收集:收集用户与淘宝问问的交互数据,包括用户的查询、模型的输出以及用户的反馈。
模型训练:使用收集到的数据来训练模型,模型在训练过程中会不断调整自己的参数,以更好地匹配用户的查询和反馈。
评估与调整:在训练过程中,通过比较模型的输出和用户的反馈,评估模型的性能,并根据评估结果进一步调整模型参数。
通过上述步骤,淘宝问问可以更好地理解用户的查询意图,提供更准确的个性化推荐,从而提高用户满意度和购物体验。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2023-06-30
2024-05-28
2024-04-12
2024-07-10
2024-07-11
2024-06-29
2024-04-20
2024-07-02
2024-06-17
2024-07-09