微信扫码
与创始人交个朋友
我要投稿
腾讯探索基于混元大模型的搜索广告生成式召回,成果显著。 核心内容: 1. LLM 在搜索广告的应用预研与实验工作 2. 对现有召回系统的改造重塑及显著收益 3. LLM 在搜索广告初步探索的方式与成果
摘要
大语言模型(Large Language Model,LLM [1])具有完备的世界知识,通过有监督指令微调和人类反馈强化学习[2]的加持,自然语言精准理解和推断能力得到极大加强,使得模型具备零样本交互能力。搜索广告投放方式和引擎链路依托于自然语言构建,可以借助大模型强大的生成能力进行改造,在不损失用户体验的前提下,极大的提高系统变现能力的天花板。
2023年,LLM兴起之初,为了快速验证大模型应用潜力,在不改变当前搜索广告引擎链路和客户投放模式的情况下,我们在多个环节开展了预研和实验工作,将LLM直接以萃取蒸馏的方式应用在现有召回和相关性计算模块中,ABTest并取得显著收益。
2024年,在有了LLM在搜索广告应用经验之后, 我们决定对现有召回系统进行改造重塑,以端到端在线生成式召回方式替换原有的部分多个级联模块,提升链路效果进而增加广告收入,ABTest取得非常显著的收益。接下来,我们将详细介绍下LLM在搜索广告的探索应用历程。
腾讯CDG商业AI搜索广告团队:鹿增辉,秦美越,刘同同,康振声,舒鹏
腾讯TEG广告工程团队:李钊宇,邱昌,缪明泉,王朱磊,刘玄宇,陈绪东,吴照人
腾讯TEG机器学习平台团队:伍海洋,邓超,赵琳,崔唱,徐胜,张淅鹏,杨月奎
LLM在搜索广告初步探索
搜索广告引擎链路设计成多模块级联方式,以实现系统性能和效果的平衡。召回模块是搜索广告引擎中的一个关键环节,它的主要作用是从海量候选中快速地筛选出与用户查询相关的广告。同时,引擎系统需要相关性过滤模块,来保证用户搜索体验。
在召回和相关性服务中,主力模型以类Bert模型为主,在线实现query和广告的匹配与过滤。LLM因参数量过大,在23年时还无法直接应用于线上来提升广告收益。为此,我们借助LLM对query和广告进行理解,生成查询意图和多个广告营销意图,从而萃取蒸馏Bert来提升引擎匹配效果,具体方式如下图。
● 召回:新增一路基于LLM的召回方案,主要思想是基于混元大模型训练搜索领域的LLM,而后构建基于BERT的多意图模型,将广告的结构化多意图信息转换为embedding表达,确保和query处于同一向量空间,并利用向量检索的方式召回广告。
● 相关性:基于LLM对于语义的理解能力增强现有四层Bert模型,主要思想是基于大模型的理解能力,提取query意图和广告营销意图,数据增强现有语义计算Bert模型。同时基于大模型提取query和广告多种有价值特征,加入相关性判别模型中,以提升判别模型效果。
在线端到端生成式召回
为进一步发挥LLM在召回侧的作用,我们设计了一套端到端的召回模型,可以根据用户请求query直接生成广告, 简化链路提升召回效果。整体架构图如下所示
生成式召回模型的上线,要依赖于召回架构的升级改造,主要分两个阶段。首先将在粗排模块中的标题优选和相关性服务前移至召回模块,其次利用LLM生成式召回模型取代标题优选和相关性服务,生成式召回服务可以直接给出合适的广告,下面分别从召回架构升级、生成式召回模型和LLM推理服务三方面进行介绍。
3.1 召回架构升级
为了适配LLM生成式召回技术的演进,我们需要重新梳理召回架构,完成大规模重构升级,建立起一套高效的统一召回架构。
统一召回架构的定位是直接输出带标题且满足相关性要求的广告。首先,把粗排阶段的标题优选和相关性服务前移至召回阶段,这样既可以将传统召回和生成式支路并行,又能为生成式召回腾挪更多的时延。生成式召回支路基于大模型直接生成带标题的广告,架构采用在线推理和离近线相结合的方式,头部高频query使用离线大尺寸模型(13B)进行近线KV缓存,长尾部分请求走小尺寸(1B)模型实时计算。
3.2 生成式召回模型
虽然大模型具有很强的文生文能力,但直接应用并不能获得很好的效果,需要结合搜索广告的业务特性,深度定制模型。
3.2.1 知识注入
在海量搜索广告领域数据中,精选高价值、有代表性商业数据构建领域知识,对混元通用LLM底座进行知识注入,以提升混元模型对商业内容的理解能力。具体的,领域数据的构建主要来自于用户查询词、投放客户的经营范围以及结构化的log日志,同时我们也混入了一些百科数据防止增训过程导致LLM对通用知识产生灾难性遗忘。
在搜索广告的业务场景下,领域基座模型能带来的优势包括:
● 学习了大量的领域知识和任务语境,相比于直接微调,可以在下游任务中取得更好的生成效果;
● 少量微调样本即可调动基座的能力,甚至通过few-shot方式可以完成基础任务,省去大量样本的选择工作。
以“海马体”这个query为例, 对比知识注入前后query理解差异。未经过知识注入的模型(混元13B-Dense),仅能识别海马体是人体器官组织;而知识注入后,模型可以理解海马体是一家照相馆品牌,可以触发高商业价值的广告。
3.2.2 监督微调
完成了知识注入后,针对query生成标题的任务,我们精选高质量人工标注和用户反馈数据精调LLM,并通过Direct Preference Optimization(DPO)[3]的方式让模型感知高商业价值的广告。
与业界多使用ID类特征(例如DSI[4],Tiger[5]等)表征广告不同, 搜索场景具有明确的query输入序列,而推荐类需要先将用户画像等信息转为语义ID序列,再使用生成式模型进行训练。使用标题文本表征广告,可以实现新广告快速更新、有效利用LLM的推理能力以及具有可解释性等优点。
生成效果:
以“棚户区住房”的请求为例,生成式召回方案,在保证生成结果准确的前提下,也提升了广告召回的多样性。如下表,生成的广告标题覆盖房屋租赁、买卖、装修、拆迁、改造等多样化需求,而传统召回策略(BM25, Bert等)只能覆盖房屋租赁、房屋买卖的广告。
3.2.3 受限解码
受限解码推理:为保证生成标题在预定义广告集合中, 我们开发了一套基于CUDA版本的beam-search受限解码策略,并将其与LLM推理过程进行集成,以实现beam size个业务点的并行生成,有效提高解码效率,实现LLM实时推理。
受限解码优化:在受限beam search框架中引入阈值截断功能,允许丢弃得分较低的单个token以提高模型输出的准确性,并设计diversity beam search[6],从而有效提升了生成业务点的多样性。
3.3 LLM推理服务
当前业界vLLM[7]、TensorRT-LLM[8]等各大LLM推理引擎均提供了Beam Search解码策略,但都无法支持受限解码的业务需求。所以,我们与混元团队合作共建,基于混元AngelHCF(Angel High-performance Computing Framework)开发落地支持受限解码的LLM实时推理服务。为了能够在搜索广告业务上实线在线推理,需解决以下两个问题:
1. 输出范围限制:大语言模型输出 Token 覆盖整个词表,为了避免幻觉现象对广告效果的影响,在生成式召回场景需实现受限解码,将输出限制在候选广告内。
2. 性能优化:广告场景使用 Beam Search 生成候选广告,相比于传统 LLM 应用场景,具有计算量更大,延迟要求更高的特点,为了实现高吞吐,需进行极致性能优化。
● 在 L 系和 H 系等较新的 GPU 上,使用 AngelHCF 的 FP8 量化方案,极限吞吐提升50%以上。在不支持 FP8 的 A 系 GPU 上,实现了基于 SmoothQuant 的 INT8 量化方案,极限吞吐同样提升50%以上。
● Softmax Kernel 优化:Softmax Kernel 在受限解码中耗时占比最大,其输入为 Logits,Shape 为(BeamWidth, VocabSize),输出为 LogProbs,Shape 相同。当 BeamWidth 较大时,Softmax Kernel 面临访存瓶颈。使用 Float4 向量化访存指令读取 Logits、写回 LogProbs,大幅减少了访存指令数。Softmax Kernel 性能提升 100%,端到端延迟降低 2ms。
● Prefill 优化:在 Prefill 阶段,Beam Search 场景中 Logits shape 为(BeamWidth, VocabSize),实为(1, VocabSize) 在第0维 tiling BeamWidth 而来。按照 BeamWidth 为1计算,以减少 Prefill 阶段受限解码延迟。该优化可将 Prefill 阶段受限解码延迟降低 50%。
● InsertUnfinishedPath Kernel 优化:InsertUnfinishedPath Kernel 是 Beam Search 场景中特有的 Kernel,长 Prompt 时占端到端总耗时 18%。将 Beam Width 加入 Launch Kernel 参数中,可以完全利用 GPU SM 资源。该 Kernel 性能提升63倍,请求平均延迟降低10.7%,P99 延迟降低16.7%,端到端吞吐提升13.3%。
总结与展望
随着大语言模型(LLM)兴起至今,我们不断探索利用大模型来提升搜索广告的匹配能力,并取得显著收益。后续将在领域模型、强化反馈和融合索引生成等多方面继续研究与应用。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-22
LalaEval:面向领域大模型的端到端人工评测框架
2025-01-22
OpenAI重磅:全新自主Agent意外曝光!
2025-01-22
突发!OpenAI宣布“星际之门计划”:5000 亿美元构建未来 AI 基础设施
2025-01-22
中国研究者破解OpenAI 01和03的“思考”秘密,AGI时代即将到来?
2025-01-22
Cohere Design: 顶尖 AI 团队的绝佳审美
2025-01-22
Google DeepMind 也要开始研究世界模型
2025-01-22
DeepSeek-R1:开启大语言模型推理能力强化学习新纪元
2025-01-22
豆包实时语音大模型上线即开放!情商智商双高
2024-08-13
2024-05-28
2024-08-21
2024-04-26
2024-06-13
2024-09-23
2024-08-04
2024-07-09
2024-07-01
2024-07-18