微信扫码
与创始人交个朋友
我要投稿
目录
一、模型整体结构
二、1.1 Input Layer
三、1.2 PI Layer
四、1.3 Gated Attention Layer
五、Output Layer
六、损失函数
推荐阅读⭐️⭐️⭐️⭐️⭐️
《Scope-aware Re-ranking with Gated Attention in Feed》
这篇文章是蚂蚁公开的一种信息流商品重排序的方法。建模时考虑了用户在信息流商品推荐场景下的浏览行为,总结出两种行为特征:
现有的重排序模型大都忽略了这两种行为特征,本文提出的建模思路:
模型的第一部分输入为用户侧特征,经过一个前馈神经网络层得到用户侧特征向量:。
模型的第二部分输入为长度为k的商品列表,每个商品经过前馈神经网络层并与对应的位置特征向量融合后得到商品向量:,其中为第i个商品对应的特征。
这里主要计算用户u对商品i的个性化偏好表示(用户向量和商品向量两两拼接后经过两个前馈神经网络层得到相应的向量表示):
这一部分是文章的重点,主要包含前文提到的以下三点:
其中GSA和LSA采用的是self-attention的结构,只是在计算注意力权重时分别做对应的特殊处理,self-attention结构常见的公式表示:
GSA计算逻辑:
LSA计算逻辑:
Attention(Q,K,V)的计算逻辑用图来表示:
GSA和LSA的基本逻辑可以认为是在计算softmax之前对注意力权重矩阵中的相应位置做对应的特殊处理。
Gate Module的主要作用就是融合GSA和LSA的输出:
最终的输出为用户u对商品i的偏好概率:
模型训练时的损失函数为:
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-26
新型LLM优化技术削减内存成本高达75%
2024-12-26
AI模型训练到底在训练什么?
2024-12-25
Cursor小白必看:听说你还在安装配置环境?学会这个让你告别环境烦恼!
2024-12-25
微软变脸OpenAI,模型价值之争压不住了?
2024-12-25
GPT-5 研发一年半进度堪忧!每轮 5 亿美金训练成本打水漂,还得雇人从头“造数据”
2024-12-25
基于昇腾910B,使用XTuner微调一个InternLM个人小助手丨玩转书生大模型
2024-12-25
BERT新版本:ModernBERT -- Smarter, Better, Faster, Longer
2024-12-25
Cursor 0.44 重磅更新:全面提升 Agent 能力
2024-09-18
2024-07-11
2024-07-11
2024-07-09
2024-06-11
2024-10-20
2024-07-26
2024-07-23
2024-07-20
2024-07-12