微信扫码
与创始人交个朋友
我要投稿
(本文封面图来源于unsplash)
在本地使用大模型搭建知识库,可以充分保障数据的隐私和安全,同时由于不需要依赖网络连接方便企业内部使用此外,最重要的是能够对模型和知识库进行定制化,根据具体需求进行调整,从而更好地满足特定业务场景的要求,既能供企业内部使用,也能做成Server供客户使用。
大模型的种类很多,而且版本更新比较频繁,不过当前所有流行的开源大模型都可以在HuggingFace上下载。HuggingFace可以说是AI模型领域的Github,这里有70多万种模型,涵盖多模态、计算机视觉、NLP、强化学习等领域。
通过HuggingFace的分类Libraries下的Transformers就能获取到大模型的Trending流行趋势信息,其中Meta的羊驼Llama3系列、法国Mistral AI的Mistral系列、阿里的Qwen系列是目前业内最广泛使用的开源大模型。
同时我们也可以关注和了解一下开源大模型的横向评分测评,以下是这三个大模型的评测对比,阿里的通义千问Qwen2-72B是当前这个规模最强的开源模型。不过我之所以更推荐国内用户选择Qwen2,主要是开源大模型对中文的支持程度不同,Qwen2更适合国内用户。
为了方便在本地部署大模型,就需要使用大模型的运行框架,可供选择的方案有vLLM、LM Studio等,这里更推荐Ollama。Ollama支持Windows、MacOS、Linux平台,能够智能地利用可用的的硬件资源(GPU和CPU)加速推理并优化性能,能够非常方便地安装和管理各种大模型,包括Qwen2。
Ollama的安装,以及使用Ollama部署模型都非常简单,在官网下载安装好之后通过以下命令就能部署安装qwen2 7b的模型,而如果你的本地硬件配置足够,可以选择72b的模型。
ollama run qwen2
大模型部署完成后通常只有一个命令行的界面,而有了Ollama丰富的生态,我们可以借助于一些WebUI工具能与大模型进行聊天的交互,也可以基于API,将大模型与应用程序和工作流集成。
至于WebUI,可供选择的方案也有很多,比如Open WebUI,NextChat,我个人比较喜欢使用LobeChat,因为它支持很多闭源模型的API,也支持云端部署的大模型,还支持离线部署的大模型。
我们可以使用Docker在本地安装LobeChat,至于如何在LobeChat中使用Ollama可以看官方的文档:https://lobehub.com/zh/docs/usage/providers/ollama
如果只是想要拥有一个离线的大模型聊天平台,以上内容就可以解决你大部分问题,但既然你要选择在本地部署大模型,显然就不该止步于此,你可以结合本地大模型+Ollma+个人或企业内部的资料(知识库)来定制化开发专属而私密的RAG应用。
RAG的框架有很多,比如RAGFlow、AnythingLLM、Verba、Flowise、Langflow、Quivr等等,这里只以AnythingLLM为例。
AnythingLLM和Ollama一样也支持MacOS、Windows。Linux,安装完成打开软件,可以看到如下操作界面,在大模型服务商里选中Ollama后,输入Ollama的服务端模式的地址(可以通过在终端输入ollama serve
开启)http://127.0.0.1:11434
之后,就能看到我们之前安装的Qwen2 7b的模型了。
确定设置并进行下一步之后,就可以看到构建RAG的三要素,大模型、嵌入模型以及向量数据库,AnythingLLM就都给我们安排好了。
然后我们就可以在工作区添加一些txt文本文件、代码文件、csv以及表格、音频文件、外部网页等等,还支持搜索、连接数据库等等,通过AnythingLLM来管理本地的知识库就会方便很多。
这种本地搭建大模型和基于本地知识库搭建RAG应用的方式比较推荐企业内部需要离线以及对知识库安全要求较严格的场景,如果是中小企业,推荐使用阿里云的百炼,部署更加简单,成本也更低(主要是硬件成本相对更低,目前token的费用也是白菜价)
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-21
2024-04-11
2024-07-09
2024-08-13
2024-07-18
2024-10-25
2024-07-01
2024-06-17