我要投稿

本地部署Ollama与DeepSeek R1：安装、优化与应用实测

发布日期：2025-02-22 12:23:26 浏览次数： 2769 作者：峰哥Python笔记

Ollama 是一款本地大语言模型（LLM）运行工具，支持用户在本地设备上下载、管理和运行 AI 模型，而无需依赖云端服务。它提供简单的命令行接口，支持 DeepSeek R1、Llama 等多种开源模型，并可结合 GPU 加速，实现高效推理。Ollama 适用于 离线 AI 交互、代码补全、文本生成 等应用场景，是本地 AI 部署的理想选择。

安装Ollama

下载安装Ollama，到官网https://ollama.com/download/windows下载对应的安装包，默认安装。

安装成功后，在cmd中输入ollama --version检查安装是否正确，提示版本号表示安装成功。

安装ChatBoxAI

ChatBoxAI 是一款开源的多功能 AI 聊天助手，支持本地和云端大语言模型（LLM），允许用户与 AI 进行交互。它兼容 Ollama、GPT-4、Claude、Mistral 等多种模型，并提供插件扩展、消息存储、自定义指令等功能。ChatBoxAI 适用于日常聊天、编程助手、知识查询等场景，界面简洁，支持多平台使用，是本地 AI 聊天应用的理想选择。

安装ChatBoxAI，到官网https://chatboxai.app/zh下载对应版本软件安装。

硬件信息检测

查看本机配置，自己知道什么配置最好，如果不知道，用鲁大师，CPU-Z，

DeepSeek R1

DeepSeek R1 是 DeepSeek AI 推出的开源大语言模型，专注于增强推理、编程和数学能力。它提供 14B（140亿参数） 和 32B（320亿参数） 两种版本，支持 中英文对话、代码补全、逻辑推理 等任务，并优化了思维链（CoT）推理能力。DeepSeek R1 兼容 Ollama、vLLM、TGI 等推理框架，可在本地部署，适用于 离线 AI 交互、编程辅助 和 自然语言处理（NLP） 任务。

在Ollama主页找到DeepSeek R1，版本选择32b，其实我这电脑也就跑到14b，可以安装一下试一下每秒多少token。

复制32b对应的安装代码，在cmd中输入ollama run deepseek-r1:32b，从服务器摘取模型，32b，大概20G左右需要下载一会儿：

下载LLM Stadio：

实践证明32b跑不起来，差不多1-2个token，没法用。

再下个14b:ollama run deepseek-r1:14b

安装Cuda/cnDNN

本地运行大模型（如LLaMA、ChatGLM、Stable Diffusion等）通常需要强大的计算能力，而显卡（GPU）是关键组件之一。要充分利用显卡的计算能力，通常需要 CUDA 和 cuDNN 进行加速。

CUDA 的作用

CUDA（Compute Unified Device Architecture）是 NVIDIA 专有的并行计算平台，它允许开发者利用 GPU 进行通用计算（GPGPU）。深度学习框架（如 PyTorch、TensorFlow）通常基于 CUDA 进行计算加速：

CUDA 提供 GPU 编程接口，使得软件（如 PyTorch）可以直接调用 GPU 进行计算，而不是依赖 CPU。
核心库（cuBLAS、cuFFT、cuSPARSE 等）：加速矩阵运算、傅里叶变换、稀疏矩阵运算等，都是大模型计算的关键部分。

cuDNN（CUDA Deep Neural Network Library）的作用

cuDNN 是 专门为深度学习优化的 NVIDIA 库，它在 CUDA 之上提供了一组高效的 GPU 计算优化：

优化神经网络计算：cuDNN 针对 卷积（Convolution）、池化（Pooling）、归一化（Normalization）、激活（Activation） 等操作进行了高度优化，使得大模型的推理和训练更加高效。
减少手写 CUDA 代码的需求：开发者不需要手动优化 CUDA 代码，cuDNN 提供了一套标准的 API，供 TensorFlow、PyTorch 等深度学习框架直接调用。

检查本机是还正确安装了cuda，在cmd下输入nvcc --version，如果正确显示版本信息，就说明正确安装。

在cmd下输入nvidia-smi，可以显示当前的显卡适配cuda的最高版本，可到官网下载对应版本cuda，最高支持cuda12.6，我下载的是12.3版，下载地址：

https://developer.nvidia.com/cuda-toolkit-archive

再安装cuDNN，下载地址：

https://developer.nvidia.com/zh-cn/cudnn

cuDNN下载时需要使用Nvidia开发者帐号，按要求注册一个，就可以正常下载。下载成功后，解压缩到cuda安装目录。我电脑cuda位置是C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.3

把cuDNN下载的包解压缩至这个目录就可以了。安装成功后，再测nvcc -V，可以看到版本信息。

配置好cuda，ollama运行时，GPU就会占用一部分。

cpu、gpu、内存均被占用。

配置ChatBox

在chatbox设置里模型提供方选Ollama api，模型中选择deepseek r1:14b或者选8b，保存。

来个测试，2024年高考数学二最后一道大题，看他能不能解出来。

本地版不支持多模态，用gpt把它转成文字：

再让它来解答，deepseek r1有个思维链，显示思考过程。我的电脑不太行，这个思考过程让我等不到他思考结束。

思考一会，还会发现自己算错了，再去找那里错了，修改后再去计算。可能这个模型不太适合进行数学计算，我把这个题发到在线的，看它能不能解出来。

在线的不能提供服务：

把同样的题给chatgpt，似乎很快得出结果：

具体结果不做展示。

编代码能力

1. Cline 插件

Cline 是 VS Code 上的一款插件，主要用于 代码补全 和 智能代码生成，可以通过 Claude AI 提供更强大的代码补全、解释和优化能力。

特点：

基于 Claude AI：由 Anthropic 公司的 Claude 模型驱动，支持高级代码补全。
上下文感知：可以根据当前代码环境提供智能补全建议。
自动生成代码：能够帮助编写函数、类或者完整代码片段，提高开发效率。
可选 AI 代理：支持交互式 AI 助手，帮助理解代码逻辑、优化性能。

安装方式：
在 VS Code 扩展市场 搜索 Cline，安装后登录 Anthropic Claude 账号 即可使用。

当然Cline也支持本地的Ollama模型，在设置中选择API Provider选择Ollama，Model ID选择能用的模型，就可以进行代码补全操作。

使用 Deepseek r1:8b模型，回答质量很差，基本办法使用。

这个插件再试一下调用官方api试一下效果。

最近Deepseek大火，官网上不去，现在硅基流动提供DeepSeek api服务，免费送2000万token额度。注册地址：

https://cloud.siliconflow.cn/i/JPgtFsMs

或者使用我的邀请码：JPgtFsMs。

注册好帐号，创建API密钥：

CLine设置如下：

模型提供商为OpenAU兼容，baseURL为https://api.siliconflow.cn/v1，模型ID，复制下面的ID。

为：deepseek-ai/DeepSeek-R1，保存。测试一下满血的R1。

可以使用，速度不快。不知道什么原因一直卡，可能是网络原因，也可能是使用的人比较多。

2. Continue 插件

Continue 是一款开源的 VS Code 插件，提供 AI 辅助编程，支持多种 AI 模型（如 GPT-4、Claude、Llama 2、Mistral 等），可以用于代码补全、调试、解释和优化。

特点：

支持多个 AI 模型：可以选择 OpenAI、Anthropic、Llama 2 等不同模型。
代码改进与修复：可以分析代码并建议优化方案，帮助修复 bug。
多语言支持：支持 Python、JavaScript、C++、Go 等多种编程语言。
自定义 AI 助手：可自定义提示词，让 AI 适应个人编码风格。
聊天交互：直接在 VS Code 侧边栏打开 AI 对话，询问代码问题或生成代码。

安装方式：
在 VS Code 扩展市场 搜索 Continue，安装后配置 API Key（如 OpenAI API 或本地 AI 模型）。 VS Code安装continue插件：

插件安装成功后，选择ollama，会自动填加本地的ollama模型。

在模型下拉中选上8b。

同样的问题，在continue插件上速度比较快，很快出你想要的东西，不卡。

提出修改意见，也能很快修改。

使用过程，8g显存占用7.1g，运行比较流畅，可以放在内网环境做为代码助手。

又使用了contiune的硅基流动千问32b，也比较流畅。

这2个插件推荐使用Continue，本地ollama和deepseek api均可。

关于本地DeepSeek R1

本地跑r1，最好有显卡支持，没有显卡纯CPU，试试就好，用起来有点费劲。3070ti 8g版能流畅跑deepseek r1:7b或8b，再高就跑不起来。14b显存到少要12g，32b显存要24g，3090，4090，或者魔改版的2080。

在写这些文字时，跑了个14b，等一会没反应，回头再看，已经运行起来，速度也速可以，比8b慢，每秒20多token吧。

那就是上面提的配置要求可以再降一档。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-21

AI大模型火热，将 Hugging Face大模型转换为 GGUF 为何受关注？

2025-04-21

82.9K star！全平台AI助手神器，一键部署轻松搞定！

2025-04-21

微软又整活！MarkItDown-MCP：网页/文件一键转Markdown，还能直接喂给AI用！（支持Claude)

2025-04-21

清华大学未来实验室：开源多智能体协作框架！

2025-04-20

谷歌Agent2Agent协议：AI协作的新曙光

2025-04-19

DeepSeek+Dify 构建本地知识库，真香！

2025-04-19

微软开源实时交互模型：提升Agent动态复杂处理能力

2025-04-19

微软最新 Playwright MCP 服务器强势来袭？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

AI大模型火热，将 Hugging Face大模型转换为 GGUF 为何受关注？

2025-04-21

微软最新 Playwright MCP 服务器强势来袭？

2025-04-19

OpenAI开源的Codex CLI是什么？

2025-04-17

MCP，这个AI 开源协议有多大想象空间？

2025-04-15

Google ADK，知多少？

2025-04-13

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

实测Llama 4，究竟是王者归来，还是廉颇老矣？

2025-04-07

4天开发，1700万美元融资：开源的Browser Use为啥这么火？

2025-04-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB