AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


本地化国产笔记软件 + Ollama 大模型应用
发布日期:2024-04-25 11:53:43 浏览次数: 3820 来源:孤岛Studio


最近一直在使用本地化的笔记软件作为主要的写作工具,受到llma3发布的启发,尝试通过ollama部署本地大模型并在本地化笔记软件中创建AI应用,觉得效果不错,总结出本篇文章和谈谈我个人对未来本地化笔记+AI的知识库应用的看法。

真正的 OpenAI

近期,大模型 llama3 正式发布,这款号称目前最强大、性能最好的开源模型,在真正的“OpenAI”Meta 公司训练下得到了更好进化,在本次发布提供了 8B 和 70B 参数规模大小的模型,并预告了会有 400B 参数规模的模型即将发布。其中,8B 参数规模的模型在性能上号称吊打上一代产品 llama 2:70B 的模型,既 80 亿参数的模型能干掉 700 亿参数的模型,性能的提升幅度令人震惊。

llama3 作为头牌开源模型,其开源社区的支持也是极其迅速,据最新的 Github Trending 来看,llama3 以及其中文微调模型 llama3-Chinese-chat 得到了非常多开发者的青睐,其中最快发布 llama3-Chinese-chat:8b 作为首个 llama3 的中文版特化版本,它拥有同等参数规模下最好的中文性能。

今日 Github Trending

基于 Ollama 的本地大模型部署

对于喜欢写笔记的用户来说,Notion 类工具绝对是神兵利器式的工具,有很多用户使用这类在线笔记工具的原因就在于,这类工具能很好地结合 AI 工具进行更好、更高效的写作。以 Notion AI 为例,其 AI 应用的热度一度力压 ChatGPT,也掀起了很多国产笔记工具的 AI 应用潮流,例如 FlowUs AI 、Wolai AI、WPS AI 等等。但由于审查原因,在线工具往往存在私密性得不到保障的原由,很多用户开始寻求本地化的笔记方案,例如 Obisidian 、SiyuanNote、Logseq、Outline 等等。

由于 llama3-Chinese-chat:8b 由于其模型参数较小,适合本地部署。这也让很多喜欢折腾的用户重新关注本地大模型的部署方案,试图在本地体验安全、快速的大模型应用和微调训练。对于大模型有较好适配方案的工具有 Obisian 和思源笔记(SiyuanNote),这两款笔记工具在国内都有较多的用户使用,其中对基于 Ollama 的大模型部署方案适配较好。

思源笔记是什么

思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用的本地部署,同时适配 Markdwon 语法和双向链接。作为一款类 Notion 工具,它几乎拥有了关于 Notion 的所有基础功能,包括很多用户喜欢的数据库、无限页面等。并且思源笔记是开源、免费的,它的更新进度几乎达到了一日一更的程度,并且用户社区也正在不断地扩大。

安装思源笔记

在思源笔记官网中点击免费下载程序并进行安装:https://b3log.org/siyuan/

思源笔记官网

Ollama 是什么

Ollama 是一个可以在本地启动并运行大语言模型的应用框架,是近期最火的大语言模型部署方案之一。通过 Ollama,可以通过一条命令就能在本地运行 Llama3 模型,并且可以根据系统配置进行基于 GPU 和 CPU 的推理(当然,使用 CPU 推理会占用极大的内存)。不仅如此,他还可以通过 Web API 的方式访问 WebUI 或提供类似于 OpenAI API 近似的服务。事实上,很多用户青睐的应用也在适配 Ollama,例如沉浸式翻译通过 Ollama 可以在本地运行大模型并执行翻译任务,而获取到优质的翻译效果。

如何在思源笔记中使用 Ollama

对于喜欢折腾的用户来说,Ollama 有适配 Obisdian 的插件方案,并且有官方博客进行教学:Leveraging LLMs in your Obsidian Notes · Ollama Blog

对于不太喜欢过度折腾的用户来说,思源笔记是一个很棒的本地笔记方案,用户可以按照类似于配置 OpenAI API Key 的方式,就能在思源笔记中使用本地 AI 大模型的应用。不过遗憾的是,目前 llama3-Chinese-chat 还不支持 Ollama 配置(有非官方的量化版本,效果感人,不建议使用),所以我们可以使用目前国产开源模型性能较好的 Qwen1.5:7B 模型作为演示。

安装 Ollama

在 Ollama 官网中点击下载 Ollama 程序并进行安装:Ollama.com

Ollama 官网

拉取模型

以 Windows 为例,当安装完毕后,通过组合键 Win+R 于运行页面中输入 cmd 打开命令提示符,在命令提示符中输入 ollama run + 模型名称 后即可拉取或启动大模型。例如拉取 Qwen1.5 - 7B 模型,则需要在命令提示符中输入:

ollama run qwen:7b

当出现以下内容时,则大模型应用生效:

通过 Ollama 启动 qwen:7b 模型

用户可以通过输入任意内容来获得生成式响应,例如在本案例中,我们通过输入“你好,很高兴见到你”发送给 qwen:7b 以获得响应。

在终端中使用 Ollama 向 qwen:7b 进行提问

启动 Ollama 服务

第一次启动会伴随一次较长时间的模型拉取,当模型被拉取到本地后,输入相同命令即可启动。

如果要开启 Ollama 服务,则需要在命令提示符中输入:

ollama serve

当出现例如以下内容时,则服务开启生效:

启动 Ollama Serve

启动服务后,可以通过 Web 输入 127.0.0.1:11434 以获得 ollama 的运行状态:Ollama is running

在思源笔记中配置 Ollama

在思源笔记左上角菜单栏点击设置并在列表中点选 AI,配置模型、API Key 和 API 基础地址。

思源笔记 AI 设置页面

其中,模型处需要根据用户在 Ollama 中使用的模型进行输入,例如使用 Qwen1.5:7B 模型则输入:

qwen:7b

在 API Key 中,可以随意输入,例如本案例中输入:

ollama

较为重要的是,在确认 ollama serve 开启的情况下,输入:

http://127.0.0.1:11434/v1

当配置完毕时,可以在页面中通过 AI Chat 工具与大模型进行对话。例如本案例中,我们通过输入“你好,很高兴见到你”发送给 qwen:7b 以获得响应。

在思源笔记中使用 AI Chat 功能向 qwen:7b 进行提问

此时,则可以通过 Ollama 获得完全本地化的 AI 笔记服务。

一些可能存在的问题

低配置的用户可能会发现,Ollama 在运行服务时对系统资源的占用量过高。例如在笔者的计算机中,对 qwen:7B 模型对 3060TI 显存的占用是 6.8GB。

Ollama 的显存占用

如果有用户的显存不够支持大模型应用,其实也不要紧。

Ollama 支持 CPU 推理,并用内存(RAM)来代替显存,只不过推理速度特别慢罢了,可以供用户学习使用。一般而言,当使用 7B 模型时,如果使用 CPU 推理,请至少有 16GB 的空余内存供模型使用。

总结

通过 Ollama+ 思源笔记的应用,可以获得完全本地且私密的良好写作环境,并可以在离线情况下获得较为优质的写作辅助和翻译(笔者的主要需求)响应。

当然,对于笔记软件中是否应该存在 AI 应用或使用 AI 服务来方便写作的这件事上,很多用户的看法均不一致.笔者认为,笔记就是模块化、零碎化的知识,如果能够高效利用起来或有意识的利用起来,那么则在后续的学习和工作任务中会成为较好的助力。

事实上,也可以通过例如 Qanything 等大模型应用,来根据本地笔记创建完全本地化的知识库体系,来增加工作和学习效率,以提高生活幸福感。不过近期看来,基于小参数量(例如 7B)模型来执行这个操作目前效果还不够,兴许明年则可实现。

不过就目前应用的效果来看,大模型应用参与到每个用户的工作流程中是不可阻挡的一个趋势。有时间我会和大家一起讨论,敬请期待吧。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询