我要投稿

我彻底替换了ChatGPT，AI果然没有护城河

发布日期：2024-06-23 05:37:06 浏览次数： 2561 作者：任易

我已经搞了一年大模型了，除了训练自研大模型之外，也一直在用One-API接入部分优秀的开源大模型，曾经LLama3、幻方、百川、ChatGLM都曾经是我的主力模型，但是自从阿里开源了Qwen2，在大模型竞技场上屠榜之后，目前阿里的Qwen2 72B已经是我们在开发应用中的首选了。

注意，我说的本地，指的不是一台个人电脑上，跑一个7B、13B参数的大模型。而是在企业本地算力服务器上，私有化部署的700亿参数以上规模的大模型，这种参数规模的大模型，才有更好的指令依从性，结合RAG、Agent等技术，能有效的完成你分配给他的任务。

大模型对于我们的价值是什么？它是我们能够用钱能买（雇佣）到的最便宜的智力，它可以完成大部分本科实习生能够完成的工作。所以，它会是一个非常好的AI助手，帮你完成各种各样日常重复工作，具备简单的逻辑判断和总结能力，能帮你生成一些结论。

总的来说，如果你看过《原则》，你就知道你需要给自己搭建一个稳定的系统，让他不知疲倦的、完全按照你的想法，成为一个7×24小时为你工作的贴心秘书。换句话说，我们需要的，就像是《钢铁侠》里面的Javis贾维斯一样的AI管家。

比如，我希望拥有一个私有的AI理财师，那么这个理财师需要有哪些能力呢？她需要能够帮我持续盯盘，看全球期货市场的价格变动、股票价格的变动；她需要帮我跟踪最新的利好或利空的消息；她需要帮我阅读各个企业的最近公告、研报，让我了解这些企业经营得是否正常；甚至，她还需要帮我判断哪些企业有可能存在财务造假的风险。

比如，知乎上的@Alyson就用AI对股票的K线进行技术面分析，制定策略，说已经挣了几万块钱，但是他做的还比较简单，只是上传K线，然后让AI给出一些价格预测和策略。而对于真实的场景来说，你会持有若干只股票，同时不同的股票相关的题材是不同的，行业整体的发展情况也是不同的，除非我们给大模型一个完整准确的策略，并且让大模型自己去网络上搜索相关的信息，结合资金流入流出情况，才能做出相对更准确的判断。

而3B、7B参数的大模型，说实在的，其实很难完成上述这种有价值的任务。我在实际应用中，主要是对7B大模型做一点精调，让他们能够完成过去需要NLP才能实现的工作，比如意图识别、实体抽取等功能，毕竟成本比较低。

而当我想用7B大模型搞一个AI理财师的时候，却发现我写的Prompt是很不好用的，比如我想让他帮我判断某一个新闻报道是正面还是负面的时候，而且只需要大模型输出【正面、负面、中性】，可7B的大模型指令依从性不够，他还会编造一些新的判断，令人很无奈。

可是等到我开始使用70B乃至100B以上的大模型时，就会发现之前在小参数模型上怎么精调都无法提升性能的Prompt，突然之间就可用了。

所以，我的第一个建议，如果你想做一点有价值的应用，可以先直接在阿里百炼平台上，使用官方的API先进行验证性的开发。这样你不用把时间先浪费在安装CUDA环境、配置正确版本的Transformer、下载几百G大模型文件、维护一套推理环境等问题上了。

等到你使用云端大模型完成了功能验证，比如我就调用了阿里百炼上的Qwen2 API，成功实现了AI诊股，大模型会帮我查找企业的公告、研报、题材、热点、同行业企业情况、主要产品等，然后帮我总结出来一个个股诊断报告。从生成的报告质量上看，还是显著优于其他开源大模型的。

我也用Qwen2 的API实现了合同中上百个关键信息的提取。这个工作以前是法大大这样的专业企业才能做出来的；价格也同样很感人，可是有了大模型以后，抽取一份合同的API调用成本，不过是6块钱，而且质量上也基本达到了90%的准确率。

只需要2分钟，我就可以在百炼上获得一个72B大模型的API了。打开阿里云百炼[1]的官网bailian.aliyun.com，登录开通即可。注册第一个月，阿里云还送了1千万免费tokens，真心是大善人。

后面就算是自己长期用，价格也是完全不贵，毕竟1000 tokens只要0.5分钱，网速稳定，能力基本达到GPT4的中文水准，已经很好了。只需要先开通模型服务，点击一下即可；弹出窗口里面确认一下，我们要开通大模型推理、大模型部署、大模型训练等商品；然后进入模型广场，选择开源模型，我必须说，自从阿里云千问开源之后，我就像一个渣男一样，放弃了以前一直在用的开源模型，投入了千问的怀抱选择你想要的模型，然后点击API调用示例，然后选择查看我的API-KEY，如果以前没创建过，那就可以直接创建新的API-KEY，而且阿里百炼平台也提供了代码参考，这样就可以轻松开始使用千问2的API实现各种奇思妙想的创意了。

等我用云端的API验证了想法可用之后，我才需要在本地服务器上部署Qwen2，以保证数据安全。千问2的显存需求量其实不大，72B的Qwen2，要求的推理显存是143G，而如果我们采购了一台8卡4090的服务器，成本差不多是24万，拥有192G显存，足够实现Qwen2的推理了，也能满足Qwen2的精调要求。

当然，如果你手上只有一台配置了一块4090的台式机，也想用大模型尝尝鲜，或者有一些你属于你个人的机密数据，不希望流出到互联网上，那么也可以尝试Qwen2 的7B大模型，最低显存要求16.7G，精调要求20G，综合表现也很好。

我家里的电脑是8G显存的3070，后悔当时为什么不买显存更大的3060Ti，我也在本地通过ollama部署了一个Qwen2-1.5B大模型尝尝鲜，做基础的总结和摘要，还是没问题的。速度真的是飞快啊。

大家如果想在本地部署，那么可以用一下这个方案：本地部署AI大模型三步走（Ollama+通义千问）安装好了以后，只要执行一个bat文件即可，bat文件的内容是ollama run qwen2:1.5b

本地部署一个大模型有什么用呢？比如我现在有一个刚需：我每天有数不尽的微信聊天记录，我希望有一个大模型能够帮我总结一下，今天我聊了哪些话题，还有哪些待办事项，我收到了哪些问题；这个任务我只能接受他跑在我的个人电脑上，不可能让他流出去的，对吧？

然后用ollama下载并且运行千问大模型，暴露出一个API；然后我使用FastGPT+RPA构造了一个工作流，先读取电脑端的微信聊天记录，查询聊天记录中的数据表，构造好查询语句，然后把我今天跟每一个人、每一个群的对话都查询出来，逐个给大模型进行总结，并且判断是否存在待办的任务，最后帮我生成一个总结清单。

这才是只听命于我一个人、能够为我保守秘密的AI助理，不是么？这才是AIGC的未来。