我要投稿

基于大模型的高效新闻推荐系统的实践方案

发布日期：2024-10-24 08:59:15 浏览次数： 2478 作者：智能体AI

在这个信息爆炸的时代，如何从海量的信息中筛选出用户感兴趣的新闻成为了一个重要的问题。随着人工智能技术的发展，特别是像阿里云的通义千问或其他大模型这样的大模型的出现，为构建高效的新闻推荐系统提供了新的可能性。本文将详细介绍如何利用通义千问或其他大模型构建一个新闻推荐系统，从数据准备到推荐结果输出的全过程。

一、新闻推荐系统的整体架构

为了构建一个高效的新闻推荐系统，我们的实现方案大致分为以下几个步骤：

对新闻文章进行标签化，并将新闻内容和标签向量化存储。
通过用户画像，捕捉用户的阅读历史和行为习惯，如点赞、收藏、点击的文章等。
根据用户画像和行为在文章库中进行初步搜索（召回）。
对召回结果进行精排，考虑用户兴趣变化、文章来源、时效性等因素。
输出Top 10的个性化推荐文章。

接下来，我们将详细说明各个步骤的技术细节及实现方案。

二、数据准备

构建推荐系统的第一步是准备数据。我们需要获取新闻数据和用户行为日志。新闻数据包括新闻的ID、类别、标题、摘要等信息；用户行为日志则记录了用户的点击历史和展示历史。

2.1 读取新闻数据

首先，我们需要读取新闻数据文件 news.tsv，并将其转换为Pandas DataFrame格式。

import pandas as pd
# 读取新闻数据news_df = pd.read_csv('news.tsv', sep='\t', header=None, names=['news_id', 'category', 'subcategory', 'title', 'abstract', 'url', 'title_entities', 'abstract_entities'])
# 查看前几行数据print(news_df.head())

2.2 读取用户行为日志

接下来，我们需要读取用户行为日志文件 behaviors.tsv，并将其转换为Pandas DataFrame格式。

# 读取用户行为日志behavior_df = pd.read_csv('behaviors.tsv', sep='\t', header=None, names=['impression_id', 'user_id', 'time', 'history', 'impressions'])
# 查看前几行数据print(behavior_df.head())

三、新闻推荐实现方案

我们将通过以下步骤构建高效的新闻推荐系统，结合通义千问或其他大模型的大模型能力，完成从数据处理、用户画像生成到推荐结果的全过程。

3.1 已有的文章进行打标签

为了更好地理解和处理新闻内容，我们需要对已有文章进行打标签。标签可以帮助我们更精确地召回和排序新闻。

3.1.1 设计打标签Prompt

设计一个合适的Prompt，告诉通义千问或其他大模型我们需要生成的标签类型。

from qwen import QwenClient
# 初始化通义千问客户端client = QwenClient(api_key='YOUR_API_KEY')
def tag_articles(articles, client):tagged_articles = []for article in articles:prompt = f"为以下文章生成标签：\n类别: {article['category']}, 子类别: {article['subcategory']}, 标题: {article['title']}, 摘要: {article['abstract']}\n请生成相关的标签。"# 调用通义千问生成标签response = client.generate(prompt)tags = response.strip().split(',')tagged_articles.append({**article, 'tags': tags})    return tagged_articles

3.1.2 应用打标签函数

将打标签函数应用于新闻数据，生成带有标签的新闻数据。

# 示例：为新闻文章打标签tagged_news_df = tag_articles(news_df.to_dict('records'), client)tagged_news_df = pd.DataFrame(tagged_news_df)
# 查看带有标签的新闻数据print(tagged_news_df.head())

3.2 用户画像

用户画像是推荐系统的核心部分之一。通过分析用户的点击历史和用户行为（如收藏、点赞、点击），我们可以生成用户的兴趣画像，从而更好地理解用户的偏好。

3.2.1 设计生成用户画像Prompt

设计一个合适的Prompt，告诉通义千问或其他大模型我们需要生成的用户画像信息。

def generate_user_profile(user_history, client):# 将用户点击过的新闻详细信息拼接成一段长文本history_news = tagged_news_df[tagged_news_df['news_id'].isin(user_history)]history_text = ' '.join(history_news['title'] + ' ' + history_news['abstract'].fillna(''))# 设计promptprompt = f"基于以下用户点击历史，生成一个用户画像，描述用户感兴趣的新闻主题和地区。\n点击历史:\n{history_text}\n请描述用户的兴趣主题和关注地区。"# 调用通义千问生成用户画像response = client.generate(prompt)user_profile = response.strip()    return user_profile

3.2.2 应用生成用户画像函数

将生成用户画像函数应用于用户点击历史，生成用户的兴趣画像。

# 示例：生成用户画像user_history = ['N1', 'N2', 'N3']# 假设这是某个用户的点击历史user_profile = generate_user_profile(user_history, client)
# 输出用户画像print(user_profile)

3.3 搜索召回

在生成用户画像后，我们需要根据用户的兴趣以及用户的行为（收藏、点赞、看过的文章等），从新闻库中召回一批与用户兴趣匹配的候选新闻。

3.3.1 设计召回候选新闻Prompt

设计一个合适的Prompt，告诉通义千问或其他大模型我们需要召回的候选新闻。

def recall_candidate_news(user_profile, tagged_news_df, client):# 设计promptprompt = f"基于以下用户画像，从新闻库中召回一批与用户兴趣匹配的新闻。\n用户画像:\n{user_profile}\n新闻库:\n{tagged_news_df.to_json(orient='records')}\n请从新闻库中选出与用户兴趣匹配的新闻。"# 调用通义千问召回候选新闻response = client.generate(prompt)candidate_news_ids = response.strip().split('\n')# 获取召回的候选新闻candidate_news = tagged_news_df[tagged_news_df['news_id'].isin(candidate_news_ids)]    return candidate_news

3.3.2 应用召回候选新闻函数

将召回候选新闻函数应用于用户画像，获取候选新闻。

# 示例：召回候选新闻candidate_news = recall_candidate_news(user_profile, tagged_news_df, client)
# 输出召回的候选新闻print(candidate_news)

3.4 精排

召回候选新闻后，我们需要根据用户兴趣的细微变化、新闻的时效性、来源等因素进行精细排序，以确保推荐结果的相关性。

3.4.1 设计评分和排序Prompt

设计一个合适的Prompt，告诉通义千问或其他大模型我们需要对候选新闻进行评分和排序。

def score_and_rank_news(user_profile, candidate_news, client):# 设计promptcandidate_news_json = candidate_news.to_json(orient='records')prompt = f"基于以下用户画像，对以下候选新闻进行评分，并按评分从高到低排序。\n用户画像:\n{user_profile}\n候选新闻:\n{candidate_news_json}\n请对这些候选新闻进行评分，并按评分从高到低排序。"# 调用通义千问进行评分和排序response = client.generate(prompt)scored_news = json.loads(response.strip())# 将评分结果转换为DataFramescored_news_df = pd.DataFrame(scored_news)scored_news_df = scored_news_df.sort_values(by='score', ascending=False)    return scored_news_df

3.4.2 应用评分和排序函数

将评分和排序函数应用于候选新闻，获取评分和排序后的新闻列表。

# 示例：评分和排序scored_news = score_and_rank_news(user_profile, candidate_news, client)
# 输出评分和排序后的新闻列表print(scored_news)

3.5 输出Top 10的文章

最后，我们将排序后的新闻列表展示给用户，输出Top 10的新闻。

# 输出推荐结果top_n = 10recommended_news = scored_news.head(top_n)
# 输出推荐的Top 10新闻print(recommended_news[['news_id', 'title', 'score']])

四、总结

通过上述步骤，我们成功地利用通义千问或其他大模型构建了一个高效的新闻推荐系统。系统基于用户的阅读行为和兴趣生成用户画像，并通过召回和精排步骤，推荐最符合用户兴趣的新闻内容。未来，我们可以通过不断收集用户反馈、结合更细致的用户行为分析（如点赞、收藏等），进一步提升推荐系统的性能和用户体验。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

MCP超市：百度上线AI开放计划

2025-04-26

从Function Call到MCP：大模型如何调用外部工具

2025-04-26

增量代码自动Review工具：洞窝在AI上的探索和实践

2025-04-25

OpenAI 白送 200 美元的深度研究功能？实测后发现这个「阉割版」不如不用

2025-04-25

为什么一定要做Agent智能体？

2025-04-25

哇！首个MCPBench来了，MCP竟然不比Function Calls更有优势？ | 最新

2025-04-25

医疗大模型案例分析（一）：Google Med-PaLM

2025-04-25

vLLM+Qwen-32B+Open Web UI构建本地私有大模型

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB