微信扫码
添加专属顾问
我要投稿
公司如何正确拥抱AI技术,避免盲目跟风造成资源浪费。 核心内容: 1. DeepSeek现象背后的AI应用热潮分析 2. AI应用的七个层次及其对企业的实际意义 3. 企业如何根据自身优势合理利用AI技术
春节期间DeepSeek引爆了朋友圈,甚至连我老丈人都安装了APP,这与两年前OpenAI横空出世很不一样,DeepSeek似乎真的实现了“与民同乐”。
另一方面,我一做AI培训的同学前两天在感叹AI流量的变化,年前到年后的流量和收费达到了10倍的差距。
而我本来是提供AI深度服务的团队,近期也着实感受到了AI的火热,订单量激增不已,甚至到了团队难以消化的地步。
至今,DeepSeek发布已有一月有余,这也是开工的第三周了,很多公司都在呼喊All in AI,过程中伴随着很多焦虑:他们既怕赶不上这班列车、又怕去早了白花钱。
而为了初步缓解焦虑,很多公司都会对外宣称成功接入DeepSeek,背后的真实情况是技术负责人接入了API,或者私有部署了下...
所以,在去年为10多家提供了AI赋能的在下,也许既能站在CTO的角度,又能站在CEO的角度,来聊聊这个事情,或可缓解大家的焦虑。
首先,让我们跳出DeepSeek来聊聊AI的所有应用形式:
其实AI应用是有“级别”之分的,如果不能理解这些级别,那就真的只能“无能狂怒”了。
而对AI应用的分类需要站在公司的角度,思考清楚公司到底拥有什么、擅长什么,再根据公司擅长的与AI做一次叠加,就能做出层次之分,这里有几个核心考虑点:
这里通过各种排列组合,便可以得出AI应用的级别,看到级别定义后很多公司便会意识到:根本不用慌,慌也没用。
所谓小白用户,就是什么都没有的人,没AI认知、没工程能力、没行业KnowHow...
他们使用AI的场景,大概是打开DeepSeek或者ChatGPT的官网聊天页面,然后敲入:AI会取代人类吗?
然后在跟AI的聊天过程中,不断卧槽、卧槽的对象,这种属于非常业余的用户,但可能是90%的用户。
这90%的用户俗称AI韭菜,AI极容易引起他们的焦虑,他们会在AI认知上缴大量学费,但个人觉得,这个学费是划算的。
第二级别的用户,会在第一级的基础上往前跨越一大步,他们的重要工作是贩卖AI焦虑、传授AI认知。
事实上,他们与第一级用户没有本质差别,依旧是撒都没有,“但只手熟耳”。
他们会清晰感受到AI在处理单点问题时候的“牛逼之处”,并利用其高效率的特点,协助自己完成一些工作,最常见的是:AI爆款文章、AI文生图讲故事。
并且,他们会在自己熟悉后,教第一级别的90%不明群众去使用完成AI写文章之类的动作,总之很Low但确实能赚到钱。
第三个级别的用户,开始具备一定工程能力了,他们会将自己的工作中固定的部分整理成SOP,使用API或者RPA的自动化方式,去批量做一些动作,比如比如收发邮件、简历筛选、财务审批...
从这一步开始,AI已经真实成为解决工作问题的一部分,并且开始解放人力,属于个人助手级别的应用,但其也就局限到个人应用了。
举个例子:有个律师基于DeepSeek创造了一个个人问询工具,并做成了插件化放到了线上平台,每次有用户咨询时,AI客服先去做意向沟通,判断用户花钱意向高才引导到真人,这样效率提升在10倍以上。
这里再举个对各位自媒体可能有帮助的例子:
现在微信公众号的推荐逻辑变了,粉丝量虽然重要,但对于阅读来说没那么重要了,根据我这段时间的实践,有一套简单的方法论(SOP)可供参考:
逻辑上,每天一定会爆一篇,一篇文章会如果开流量主会带来一些收入,长久下来收益会很不错。
从第四个级别起,对工程能力要求开始高了,往往不是个人玩家能做好的。
他们会开始意识到,个人对AI的使用都是去帮助自己去完成某一类的工作,而这类工作一定会有相当的共性,于是大家很容易就想到了这是我们第三级说的SOP。
于是,平台为了帮助更多的玩家建立个人助手,便搭建了一套平台级别的SOP搭建平台,现在最出名的应该是飞书扣子的Agent搭建平台吧。
在这个基础上,也会衍生出很多教90%用户如何使用这种低代码平台的人群,其本质是吃信息差吧,不高明但十分有效。
只不过这种低代码平台的使用成本其实很高,一般玩家是很难入手的,另外AI Agent平台本质还是在使用模型的API接口作为判断,做一些简单的功能是可以的,但要做一个完整应用是很难的,其中还不谈数据泄露的问题。
很多时候看上去就最后一公里的问题,只不过这一公里要用之前10被的成本...
前四级有一个特点:他只需要各位了解AI,更进一步有一定工程能力即可,但从第五级开始便要求具备行业认知,并且具有行业认知下的优质数据。
比如在你作为一个医生通过Agent平台完成了一个自己的个人助手,在线上回答患者的问题,但一段时间后,你发现回答的问题中总有一些错漏或者模糊回答(包括诊断错误、药品推荐错误),而这可能引起灾难的结果。
而这显然不是个人的能力可以解决的问题,于是你希望这个Agent平台是专属于医疗(法律、金融)领域的应用,他们会回答的更为准确,不会出现幻觉。
如常见的AI医生、AI律师就是这个级别的产物,因为是严肃的AI工程应用,对用户来说回答错了就可能赔钱,所以其开始必须解决大模型幻觉问题。
如果要解决模型幻觉问题,离不开知识库为基础的RAG或者模型训练过程,其本身对成本的要求就会提升不止一个Level。
这个层级的入场券是优质数据与强大的工程能力而所有这一切都离不开钱...
很多公司想要利用公司内部数据搭建一套内部的AI问答机器人,就可以归属到这个级别的浅层次应用,所有这类浅层次应用都有平台化的可能。
第五级虽然对模型训练有一定要求,其实门槛不是很高,其核心依赖的是行业KnowHow与工程能力的结合。
而第四级应用者会期待有好的行业Agent平台,第五级应用者也会期待有更好的行业模型。
比如AI医生会希望依赖于医疗大模型、AI律师会希望于依赖法律大模型,基座模型的提升会大大降低工程实现难度,其背后都是成本。
举个例子:各个行业都有很多“黑话”,比如医疗中有火重与发炎、法律中有包子与容易上手案件。
如果是通用大模型,为了降低这种幻觉,团队就只能使用工程手段,并且可能需要控制得很细,但如果基座模型能力本来就到了60分,在行业幻觉这边有基本的能力,那工程手段就会难度降低。
综上,会有“牛逼的团队”想要训练一个自己的行业小模型,比如金融、医疗、律师或者公司内部场景...
在能力要求上,他们需要具备深度的行业KnowHow、积累了大量优质行业数据、对模型训练十分有经验,甚至需要稍微涉及模型底层能力。
这种需求往往是对数据安全有一定诉求的单位,比如大医院、大企业,而他们也有那个数据与财力去搭建一套自己的行业小模型。
这个级别的应用难度不好说与第五级谁高谁低,端看使用场景如何,只要用得人多了,那么对模型或者应用的要求就会直线上升。
类似于DeepSeek、GPT、GLM、文心、千问等做底层模型的团队,区别于之前,他们不仅是需要各种优质数据还需要真的深入模型底层技术去探索,而前六级是不需要的。
综上,站在这个角度再看公司实际场景,在焦虑之前可以先问自己几个问题:
第一,是否具有良好的AI产品工程能力
具体评价标准是是否有程序员、有几个程序员、做没做过AI应用,做到什么程度了。
事实上,大家切不可小看AI工程能力,这里面有大量的学习成本在,如果不懂最好找个懂的人做指导(比如区区在下),否则可能造成大量成本浪费。
第二,是否具备深刻的行业认知
具体评价标准是是否有领域专家,比如医生、律师、教师等;
进一步的评价是,他们十分形成了自己的SOP,SOP执行的如何,是一个人执行还是一群人执行,是否已经做了初步自动化,效果如何。
就个人经历,很多所谓专家其实只有知识,是没有SOP化的,SOP可能是互联网较强的能力,需要去影响这些专家,过程中需要很多拉扯,因为专家们是很高傲且“固执”的。
第三,是否具备优质行业数据
这个是行业认知的进一步体现,只有SOP做得好的团队、只有用户量较大的团队才会有公司独有的优质数据。
最常见的优质数据就是知识图谱,或者类似的结构化数据
一般来说,优质数据较多的团队,一定是有一套系统在每条调用这块数据,找到公司核心的知识库,这可能是AI时代的绝对壁垒。
为什么这么说呢?因为行业应用最大的问题是解决模型幻觉,而无论常见的RAG技术还是模型训练,都离不开完善的知识库。
第四,是否具备模型训练能力
这里是一一递进的,只有在工程能力、行业KnowHow、优质数据同时存在,并且公司有钱的前提下,才能聊到模型训练这个事。
虽然良好的基座模型如DeepSeek大大的降低了训练成本,但模型训练和不断测试会花费的成本,很多人是没有认知的,我可以简单透露一组数据:
而当前号称满血版的DeepSeek-R1如果用华为的芯片做部署,一年的成本是近千万的。
而一般应用层的用户压根不需要考虑模型底层技术,他做的所有创新如MLA、GRPO、甚至开源的模型代码,大概率跟应用层的各位毫无关系。
所以,在AI焦虑前,各位老板应该先思考清楚:
其中尤其说下行业KnowHow与优质数据积累,这可不是一朝一夕的事情,真正的AI产品爆发应该在1-2年内,各位时间还多着呢。别慌,未来五年都有机会。
但这里也要回答一个问题,为什么GPT没有引起公司焦虑,DeepSeek反而引起了?
事实上,两年前ChatGPT当然引起了一波深深的AI焦虑。
只不过那波AI军备竞赛更多在模型训练侧展开,包括通用大模型以及行业大模型。只不过结果大家也看到了,之前的老牌模型品牌现在被DeepSeek打得抬不起头...
而行业大模型却迟迟未揭开自己的面纱,究其原因还是通用基座模型的不成熟以及行业数据的难以整理加之训练成本的问题所致。
过去两年这些公司在AI领域做了大量试错,但这也会导致他们在今年对DeepSeek有较高的认知:好的、国内的通用模型基座,仅此而已。
换句话说,之前用GPT API干的活,后续可以用DeepSeek的API了,换个API的事,没撒两样,而企业做决策在效果差不多的情况下,永远都是考虑成本问题。
除此之外,政策问题也不容小觑:DeepSeek能私有化部署,这解决了医疗、金融等很多行业的安全性问题!至少是国家规则之内的安全问题。
综上,站在工程应用的角度,对于基座模型的选择有三个考虑点:
另一方面,因为DeepSeek并不比GPT优秀,为什么基于GPT做不出来的东西基于DeepSeek就能做出来了,这不科学吧?
要说这两年没AI爆款也不对,因为程序界其实是有爆款的,比如:Cusor 与 GitHub Copilot:
AI编辑器Cursor,背后公司Anysphere最新B轮融资1.05亿美元。并且,其经常性年收入达到1亿美元使用量最大的是自有模型,平均每天编辑10亿个字符。
原因是什么呢?答案很简单:程序员这帮人天生喜欢分享,最高质量代码全部在github,之前甚至有人将B站核心代码全部上传上去了...
而其他行业为什么没有爆款产品呢,原因也很简单:数据不好整理!
站在工程角度:模型只是一个API调用工具,他们工作的核心是将行业KnowHow所产生的数据与其结合起来。
那么什么是行业KnowHow的数据呢?以AI律师为例:
所以,AI律师就需要律师与用户的各种对话,甚至是私密对话,也包括各种文书,而这些数据,很可能是没有的...
因为行业数据的质量和数量储备不足,所以迟迟没有达到AI工程应用的基础。而真实情况可能更糟糕...
进一步,没有优秀的AI人才,对于一般公司:既不重视数据记录、又不知道数据应该如何记录、也不知道数据应该如何应用,在这个基础上也能诞生应用级爆款AI应用,那就奇了...
这里来具体说说什么是行业KnowHow。
假设我们要开发一个AI律师助手,目标是帮助用户处理刑事案件,比如盗窃、故意伤害等。
AI律师的核心任务是通过与用户的反复对话,逐步构建出案件的逻辑链条,并根据法律条文和判例,给出最优的法律建议。
AI律师背后有一套复杂的公式,用于判断用户的案件性质和可能的刑罚。以“盗窃罪”为例,公式可能如下:
根据这些条件,AI律师会逐步判断用户的案件性质,并给出可能的刑罚范围。
AI律师在与用户的对话过程中,会不断搜寻关键词,并根据这些关键词逐步完善案件的逻辑链条。以下是一个可能的对话流程:
通过这段对话,AI律师逐步构建出案件的逻辑链条:
根据上述条件,AI律师会调用法律条文和判例库,计算出可能的刑罚范围。以《刑法》第264条为例:
由于用户没有自首和退赃情节,AI律师可能会给出以下建议:
AI律师的目标不仅是判断刑罚,还要帮助用户尽量降低刑罚。
因此,AI律师会根据用户提供的信息,不断搜寻可能的从轻情节或控告对象的最重刑罚。例如:
行业KnowHow的第一层是对律师工作的标准化、流程化(SOP化),即通过总结律师的经验,形成一套可复用的逻辑框架和公式。
这种框架内公式是AI律师能够高效处理法律问题的基础。
它的作用主要体现在三个方面:
这种框架内公式的意义在于提高效率、降低门槛,并具备可扩展性,使AI律师能够快速处理大量相似案件,同时让非专业人士也能获得初步法律建议。
然而,行业KnowHow的第二层更为关键,它要求AI律师不仅符合法律框架,还能在框架外提供更优的策略。
这需要律师的深度经验和创造力。框架外优化的核心在于深度洞察用户需求,理解用户不仅想知道刑罚,还想知道如何降低刑罚或争取最大利益;
同时,在法律框架外寻找更优的策略,比如在盗窃案中,除了退赃和自首,还可以建议用户提供团伙成员信息以争取从轻处罚;
此外,还需要评估不同策略的风险和收益,帮助用户做出最优决策。
框架外优化的意义在于提升用户体验、增强竞争力,并帮助用户应对复杂案件,找到更灵活、有效的解决方案。
无论是框架内公式还是框架外优化,模型幻觉都是AI律师开发中的最大挑战。模型幻觉可能导致AI律师给出错误的法律建议,甚至引发法律风险。
而其解法,往往也就两条:
AI应用最害怕的就是模型幻觉,同一个问题收到不同的回答是令人绝望的事情,想象一下:
据Vectara HHEM人工智能幻觉测试,DeepSeek-R1显示出14.3%的幻觉率:
虽然R1幻觉比较厉害,但DeepSeek依旧是国内最优的基座模型选择,所以如何消除模型幻觉,是我们做工程应用要重点考虑的问题。
因为GPT也有幻觉,所以这个问题之前就有答案:知识图谱+工程控制,最常见的就是RAG:一种结合了信息检索和语言生成的技术架构。
在RAG中,模型首先通过检索外部知识源(如文档库、数据库等)来找到与用户查询相关的信息,然后使用这些信息来生成更准确的回答。
具体来说,RAG的工作原理分为以下几个步骤:
通过结合外部检索结果,RAG能够有效提高生成内容的质量,避免生成无关或错误的信息,从而增强生成回答的准确性和可靠性。
说这么多也不好理解,我们举个AI医生的案例:
患者输入:我最近一周经常感到胸痛,尤其是运动后,还伴有呼吸困难。我有点担心,这是什么问题?
AI医生回答:根据您的症状描述,您可能患有胃食管反流病(GERD)。建议您避免辛辣食物,服用抗酸药物,并观察症状是否缓解。如果症状持续,请及时就医。
但是,胸痛和呼吸困难是心肌梗死的典型症状,但AI医生错误地诊断为胃食管反流病(GERD)。AI医生在训练过程中可能接触到了两种冲突的数据:
在数据层面其实是没问题的,比如头痛或者呼吸困难一般大家都会考虑是感冒,但他也可能是严重疾病颅内高压、心衰的症状。
要解决这种“正确的幻觉”,便需要工程力量RAG登场了。
当用户B提问时,检索模块会根据问题从知识库中检索最相关的内容。例如这里检索模块会返回:
提示词会变成这样:
你是一个专业的AI医生助手,请根据以下医学知识和临床指南,回答用户的问题。请确保回答准确、简洁,并引用相关医学依据。如果无法确定答案,请回答“无法提供准确诊断,请立即就医”。
医学知识:
1. 胸痛 + 呼吸困难 → 心肌梗死(高风险)。
2. 胸痛 + 反酸 → 胃食管反流病(低风险)。
临床指南:
1. 美国心脏协会(AHA)指南:胸痛和呼吸困难是心肌梗死的典型症状,需立即就医。
2. 国际胃食管反流病指南:胸痛和反酸是GERD的常见症状,但需排除心血管疾病。
用户问题:我最近一周经常感到胸痛,尤其是运动后,还伴有呼吸困难。我有点担心,这是什么问题?
所以最终输出就变了:
以上,便是RAG在模型幻觉中的应用。
RAG是初期成本较低的方式,如果要依赖模型训练本身消灭幻觉,那也不是不可以...
例如,通过在训练时为不同类型的任务设定不同的策略,模型可以学会在何时提供创造性内容,何时应保持忠实与准确。
比如在处理如摘要、翻译等任务时,模型必须更加注重忠实于原文的内容,而不是自由发挥创造性。
这种任务的训练通常需要额外的监督数据和约束,以确保输出的准确性。
只不过真的要这么做的化,可能会为了1%的效果花费超过10%的资源,这可能不太划算...
因为它们需要额外的数据标注、长时间的微调和强化训练,并且往往需要更多计算资源和人工干预。
此外,微调过程中对模型的细致调控也会增加模型开发和训练的复杂度。特别是在处理任务的多样性和细节时,如何找到合适的平衡点,让模型既能提供创造性答案,又能保持高忠实度和准确性,是一项复杂且资源密集的工作。
总体而言,虽然精细化训练可以降低幻觉现象的发生,但其成本不容忽视,特别是在需要大规模数据和计算资源的场景中,这也为未来的大模型发展提供了挑战和方向。
AI应用的七个层次,从基础的小白用户到高级的行业模型训练,清晰地展现了AI技术在不同场景中的演进路径。
每一层对应不同的技术能力、行业认知和数据需求,企业或个人应根据自身资源和目标,选择适合的层级。
初期,小白用户和效率达人可通过API调用或自动化工具提升效率。但随着应用深入,行业工具和行业模型的开发成为关键。
这些高级应用不仅需要强大的工程能力,还依赖深刻的行业认知和优质数据积累。只有具备这些基础,才能解决AI应用的核心问题——模型幻觉,到更高的层次。
模型幻觉是AI应用的最大挑战,尤其在医疗、法律等严肃领域,错误回答可能带来严重后果。RAG技术和模型训练是当前最有效的手段。
RAG通过结合外部知识库和检索技术,显著提高模型准确性;模型训练则通过精细化数据标注和调优,进一步降低幻觉概率。
然而,无论是RAG还是模型训练,其核心都离不开行业认知和优质数据。只有深刻理解行业规则、积累高质量数据,才能构建出可靠的AI应用。
因此,老板们不必焦虑,更不必慌。AI不是万能药,数据准备好成本高着呢,盲目追求“All in AI”只会浪费资源。
所以,关键在于清晰认识自己公司的能力——能做什么,不能做什么。
最后给做AI应用的各位有几点提示。
问题很大,解决方案很小、问题很小,引起是事故很大,这种非对称性时常在生活中发生,特别是AI应用这件事上!
对于AI应用,你可以用一周时间完成一个demo;但半年后,实现的产品效果依旧不能超越这个demo!
这是这半年各种AI产品带给我的真实感受,至此我有了一个重要启示:AI项目的启动比你想象的更简单,AI项目的成熟比你想象的更难!简单来说:
这里非对称性也就出来了,花费10%的资源可以得到一个70分的demo;想要将70分推到90分,可能你需要1000%的资源!
入门简单,精通难!大模型是很容易造成老板/产品/技术错误判断的存在,如果轻易承诺,肯定会坑了自己。
这里不再赘述,他是AI应用真正的核心,这里包含了行业KnowHow。
但因为大模型是一个新生事物,他所需要的优质数据/规则数据在以往时代大概率没有系统性的、完整性的存在。
因此,很多AI产品的推出都会有一个优质数据准备的阶段,在这个时间窗口下,对所有人都是一个机会。
到今天还在排斥AI的人,无疑是愚蠢的,但也千万别迷信AI,这容易掉入另一个深渊。
只是针对大模型,要对他有正确的认识:一套标准输入输出的工具,可以把他当做一个受过专业训练的大学生。他可能:
我们使用大模型,要用他擅长的部分,避免使用他不擅长的部分。
做AI项目,耐心是很很重要的,简单来说:你认为Prompt提示词困难吗?Prompt不是有手就行嘛,谁会中文还不会写点提示词,但Prompt很难:
这对我们的要求是什么呢?这对我们的要求是有耐心、有定力,不要因为今天产品表现得好而过分开心,也不要因为明天产品表现的弱智而过分焦虑。
保持平常心,去面对,去调整,因为提示词调优只是AI产品过程中最简单的部分,寻找正确的路径,试验正确的路径,才是其中的难点..
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-04
2024-09-26
2024-10-30
2025-01-25
2024-09-03
2024-10-30
2024-12-25
2024-12-11
2024-09-06
2024-08-18