微信扫码
添加专属顾问
我要投稿
目录
一、模型整体结构
二、1.1 Input Layer
三、1.2 PI Layer
四、1.3 Gated Attention Layer
五、Output Layer
六、损失函数
推荐阅读⭐️⭐️⭐️⭐️⭐️
《Scope-aware Re-ranking with Gated Attention in Feed》
这篇文章是蚂蚁公开的一种信息流商品重排序的方法。建模时考虑了用户在信息流商品推荐场景下的浏览行为,总结出两种行为特征:
现有的重排序模型大都忽略了这两种行为特征,本文提出的建模思路:
模型的第一部分输入为用户侧特征,经过一个前馈神经网络层得到用户侧特征向量:。
模型的第二部分输入为长度为k的商品列表,每个商品经过前馈神经网络层并与对应的位置特征向量融合后得到商品向量:,其中为第i个商品对应的特征。
这里主要计算用户u对商品i的个性化偏好表示(用户向量和商品向量两两拼接后经过两个前馈神经网络层得到相应的向量表示):
这一部分是文章的重点,主要包含前文提到的以下三点:
其中GSA和LSA采用的是self-attention的结构,只是在计算注意力权重时分别做对应的特殊处理,self-attention结构常见的公式表示:
GSA计算逻辑:
LSA计算逻辑:
Attention(Q,K,V)的计算逻辑用图来表示:
GSA和LSA的基本逻辑可以认为是在计算softmax之前对注意力权重矩阵中的相应位置做对应的特殊处理。
Gate Module的主要作用就是融合GSA和LSA的输出:
最终的输出为用户u对商品i的偏好概率:
模型训练时的损失函数为:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-12
使用vLLM部署工具加速QWQ,推理速度比ollama更快、并发更高
2025-03-12
企业级私有化部署:基于 Ollama 实现 DeepSeek 大模型
2025-03-11
DeepSeek 满血版 8卡 H20 141GB 并发压力测试,体验极致性能!
2025-03-11
Cursor 新版本要来了!释放Claude 3.7全部潜力,估值百亿引热议,前Apple工程师:招人要会用AI。
2025-03-11
vLLM 私有化部署满血版 DeepSeek-R1-671B 模型
2025-03-11
从DeepSeek到Manus:如何实现本地LLM微调+联网开发?
2025-03-11
从零开始的DeepSeek微调训练实战(SFT)
2025-03-11
DeepSeek-R1 671B + KTransformer部署服务器配置&万元复现方案
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01