我要投稿

DeepSeek R1 70B本地版和官网版测试: 思考深度、内容结构、语言风格、搜索能力有出入

发布日期：2025-02-23 06:30:55 浏览次数： 2219 作者：Joyce Birkins

本地化部署了R1 70B版本,配合Page Assist UI插件做了测试,这里用常见几个问题来测试一下本地版本和官网版本差距的区别。

下图是不同版本配置图片的大小, 我部署的70B,我在96G内存的Macbook M2测试过,复杂问题等10秒开始思考回答,遇到要生成200字回答以上的复杂问题,笔记本风扇会响会发烫; 而64G的linux服务器则要等15秒才会开始回答,没有笔记本快,但是不会机器风扇不怎么转

模型选择上一般3B以下的模型不考虑, 即使蒸馏它也承受不了。所以常见的小模型都是7B

2月份DeepSeek也官网新出了学习蒸馏后的Qwen系列模型,但只有32B,Qwen 72B因为不是Apache协议,不能直接用来蒸馏。目前本地模型选择上还是70B

我用的是Page Assist的chrome插件做UI对话。在Page Assist界面右上角齿轮图片点击设置, 可以配置Page Assist的Manage Web Search网络搜索和RAG设置。 RAG形式太简单粗暴,甚至自定义向量嵌入模型都没有, 是基本的配置,这里就不测试

而网络配置是可以配置的,我用的是搜狗, 直接选一下就行,这个插件就能联网搜索了,还是能检索到准确内容的,包括微信公众号的内容。下面会有进一步介绍

如果需要在服务器配置, Page Assist的Ollama地址就得填相应服务器的Ip和端口,常见配置教程如下


#linux服务端配置
sudo vim /etc/systemd/system/ollama.service
# 在environment添加
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"
# 重启
sudo systemctl daemon-reload
sudo systemctl restart ollama
# 重启模型
ollama run deepseek-r1:70b
#客户端验证是否能连接: 
curl http://192.168.31.129:11434/api/tags 

# 在客户端的Page Assist输入http://服务器IP:11434

现在我自己用几个日常问题做测试:

70B回答不了过去的老旧小众冷门专业领域的技术标准问题(比如下面2016年的技术标准), 会产生幻觉;同样的问题,问豆包和DeepSeek官网联网后的版本,就能通过公开的搜索信息得出准确的答案

DeepSeek的搜索功能最近应该有更新, 我前几周用时,这种标准也搜索不出来,现在把模型能力跟搜索工具的结合应该做了优化。目前DeepSeek官网联网版搜索的网站主要是google搜索能搜索到的公开网站和今日头条, 而像Metaso能搜知乎,豆包能搜抖音视频和头条。

不知道接下来这些AI搜索功能跟各内容平台怎么合作,腾讯的ima搜索不知能不能做起来。我最开始下载使用了几次,最近也没在用了。秘塔提供的同时中英文资料搜索更佳。微信中我要搜索的内容数据还是太少

像这种简单的搜索问题我一般都用豆包, 速度快,互联网检索很准的;复杂一些的用Metaso秘塔 ; 想要多个观点多个要点的复杂一些问题再用DeepSeek

DeepSeek R1 70b代码能力也行, 有代码格式,一步一步的很清晰,只是因为没有相关数据内容,乱回答。我问的ollama服务端怎么解决, 因为ollama是最近2,3年火的,数据比较新, 因此DeepSeek R1 70b就不能解决问题, 只是按照传统的方式尝试解答。跟上面的小众冷门问题是一样的,这种最近1,2年的内容是需要搜索最近的消息,官网联网版就通过搜索提供答案

实时网络数据的处理不是DeepSeek的强项。在DeepSeek官网未联网下,询问"marc andreesen关于AI的最新采访是什么时间? 主要内容是? "回答的都是2023年的内容

左边是DeepSeek官网回答, 右边是Page Assist配置的70b R1回答。回答时期都是2023年 ,但官网版本是截止2023年10月,70B版本是知识更新截止到2023年7月,提到的内容也不一样, 官网是一篇文章和博客采访,70B是一个另一个博客采访。

结构上官网版本根据内容进行结构分类,更清晰,更专业。70b版本就是直接回答3段话

70B在Page Assist回答就说"我的知识更新日期2023年7月",但我在命令行直接问这个问题, 则DeepSeek 70B根本就不回答,简单一句"我的知识更新日期2024年7月" 那到底是23年还是24年的7月

下图是Page Assist使用搜索搜索到的,因此citations有2025年2月的微信文章,检索到内容是准的,但是回答文字的数量和结构化内容输出相比官网版本有不足。这个回答直接就一个自然段,回答太简洁

再来测试DeepSeek R1 70b的写作能力,测试问题是"写一篇长文, 深度分析两个观点'美国禁止芯片出口是对美国AI发展有好处的'和'美国禁止芯片出口会阻碍美国AI的发展'"

DeepSeek 70B的内容生产风格有DeepSeek整体的冷静客观,但是又没有DeepSeek R1那种故意搞抽象用词--DeepSeek R1官网版本特别喜欢用"双刃剑""胜负手""数据、算法、算力的"三重螺旋"互动""技术民族主义""正如19世纪英国废除《谷物法》所揭示的"。"这类好像高考作文,为了用高大上的词和名句而用,显得好生硬,要真写文章,我是不会用DeepSeek。而豆包,ChatGPT的内容生成风格就更通俗易懂,简单,更大白话,甚至更有想象力一些。英文写作的话则优先考虑Claude和ChatGPT

下图从左到右: DeepSeek R1官网版本, DeepSeek R1 70B,ChatGPT 4o, 同一个问题,Deep R1官网版本居然还提出了第三条道路,整体分析了为什么会导致有这两个观点的原因,明显思考更深入更专业。所以想要更多意见更多想法,获得问题全面深度专业的分析我会倾向找DeepSeek, 用词有些过于抽象也没关系。

不需要联网的针对复杂问题的回答, 70B逻辑很清晰,很全面,但70b模型每一个点回答特别简洁,跟官网版本差异较大

下面询问"测试一个新的本地部署LLM的能力? 分别要测试哪些问题来看看这个模型的回答质量和能力边界"

R1 70B版本最后提供了10个测试方向,角度很全面,就是文字太精简。左边是用page assist网页UI插件调用的模型回答内容, 右边是命令行输出。内容都差不多, 都是有10个测试建议

但由于本地模型没有设置合适的输出缓冲区或采取批量输出, 模型一个字一个字吐,导致这种复杂问题生成的内容要等特别久才能。而且64G内存运行70B需要等15s左右, 模型才开始think,然后大概半秒一个字的速度吐字回答,等全部回答完速度太慢,明显影响用户使用

同样的问题问接入DeepSeek R1的秘塔Metaso, 回答内容就特别详细。除了有7,8个角度的测试方向, 每个角度的测试还能结合参考文献的配图。这些商用模型还是有自己独特价值的

像模型回答中是否存在性别、种族或文化偏见, 敏感话题的处理是否符合伦理这类问题就不试了,现在关注AI还是以实用性为主。而有时打错字,句子有语法问题这类基本的简单问题,DeepSeek本地模型都能理解的

总结来说, 70B相当于GPT4o, 跟671B的官方版本(o1)差距比较大: 回答更简略,思考推理的深度不及官网版本,导致对问题的理解深度,视角不同,严格的结构化文本输出也做不到,有时会变成简单的一两个自然段,语言用词风格也有不同;

本地70B模型对搜索结果的理解没有DeepSeek官网(官网搜索也是最近更新的),豆包和meta结合得好。像响应速度,UI设计,与搜索资料结合的深度等体验上还是豆包,接入R1的秘塔Metaso这些商业公司更佳

冷门小众知识, 最近两年的新产品新技术和最新的新闻资讯都对网络要求高。而如果是普通的对搜索依赖不强的问题,比如提供写作灵感,优化报价方案等,DeepSeek R1官网版因为深度推理的能力,能提供很多有价值的方向和角度。而DeepSeek R1 70B则在这方面的深度推理有欠缺,无法严格保持结构化推理输出(变成普通自然段了),还是属于普通模型, 我作为用户反正是不会用的,还得是DeepSeek R1官网版本,卡点就卡点吧,反正只遇到需要灵感的复杂问题时再用