微信扫码
添加专属顾问
我要投稿
目录
一、模型整体结构
二、1.1 Input Layer
三、1.2 PI Layer
四、1.3 Gated Attention Layer
五、Output Layer
六、损失函数
推荐阅读⭐️⭐️⭐️⭐️⭐️
《Scope-aware Re-ranking with Gated Attention in Feed》
这篇文章是蚂蚁公开的一种信息流商品重排序的方法。建模时考虑了用户在信息流商品推荐场景下的浏览行为,总结出两种行为特征:
现有的重排序模型大都忽略了这两种行为特征,本文提出的建模思路:
模型的第一部分输入为用户侧特征,经过一个前馈神经网络层得到用户侧特征向量:。
模型的第二部分输入为长度为k的商品列表,每个商品经过前馈神经网络层并与对应的位置特征向量融合后得到商品向量:,其中为第i个商品对应的特征。
这里主要计算用户u对商品i的个性化偏好表示(用户向量和商品向量两两拼接后经过两个前馈神经网络层得到相应的向量表示):
这一部分是文章的重点,主要包含前文提到的以下三点:
其中GSA和LSA采用的是self-attention的结构,只是在计算注意力权重时分别做对应的特殊处理,self-attention结构常见的公式表示:
GSA计算逻辑:
LSA计算逻辑:
Attention(Q,K,V)的计算逻辑用图来表示:
GSA和LSA的基本逻辑可以认为是在计算softmax之前对注意力权重矩阵中的相应位置做对应的特殊处理。
Gate Module的主要作用就是融合GSA和LSA的输出:
最终的输出为用户u对商品i的偏好概率:
模型训练时的损失函数为:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-04
60G内存+14G显存运行满血DeepSeek R1!Ktransformers+Unsloth联合部署方案实践!
2025-04-03
Ray 在 Bilibili 的场景探索与落地实践
2025-04-03
Spring AI+DeepSeek R1搭建企业私有化模型工具(直接使用)
2025-04-02
一文看懂预训练、微调和上下文学习
2025-04-02
将复杂HTML变成AI易读Markdown | MCP精选集
2025-04-02
我让DeepSeek设计了一个智能运维平台 -- 如何做数据准备和模型训练
2025-04-02
微调大模型!ModelScope 算力,实现Qwen2.5微调模型
2025-04-01
Cursor是越来越难用了!逼着我写mdc文档比代码还多
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-01
2025-03-31
2025-03-20
2025-03-16
2025-03-16
2025-03-13
2025-03-13
2025-03-11