AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


企业落地 AI 大模型,一个 DeepSeek 远远不够

发布日期:2025-03-02 06:39:54 浏览次数: 1771 来源:InfoQ
推荐语

企业AI落地要点,深度解读DeepSeek技术与应用前景。

核心内容:
1. DeepSeek技术背后的AI竞争格局变化
2. AI企业面临的新机遇与挑战
3. 多维度技术应用与优化策略

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家



本文整理自 InfoQ 策划的 DeepSeek 系列直播第九期节目。在直播中,极客邦科技创始人 &CEO 霍太稳对话神州数码集团首席 AI 专家谢国斌,深入探讨了 DeepSeek 爆火背后,AI 竞争格局将发生哪些变化,以及在新的格局下,AI 企业会面临哪些新的机会和挑战,企业又该如何抓住这些机遇。
谢国斌表示,随着 AI 接入门槛和成本的降低,金融、医疗、教育和汽车等行业的应用可能会率先爆发。除此之外,制造业、办公行业等也有很大的发展空间。
但对于 B 端企业而言,除了 DeepSeek 这样的开源大模型外,还需要多方面的技术进行叠加,从多个维度考虑技术的应用,比如:在部署过程中尽可能利用 GPU 算力优化,进行进行场景化、专业的小模型训练,引入私域化的知识,提供一套智能体协同框架等等。

下文为直播部分内容精选,完整直播回放 & 最新直播预约可关注“AI 前线视频号”查看。

以下为谢国斌的分享实录部分(经编辑):

DeepSeek 技术创新带来的影响

在原创核心技术方面,我们特别关注以下几个方面。

  1. 群体相对策略优化(GRPO):在传统的强化学习中,评价一个模型表现好坏的函数通常需要人工设定。而 DeepSeek 采用了一种创新方法,即引入多个“评委”进行投票,取平均值作为评价标准。这种方法省略了人工设定评价函数的流程,简化了算法,是强化学习领域的一个关键创新。

  1. 多头潜在注意力(MLA):该架构通过降维操作大幅压缩了计算量,显著降低了模型的训练和推理成本。

  1. 混合专家模型(MoE):这种架构通过集成多个专家网络,极大地扩展了模型的参数规模,同时在推理侧显著加速了推理过程。这种结构类似于“有通识专家、有专识专家,相互配合、各司其职”,与传统方法相比,效果显著提升。

  1. 多令牌预测(MTP):这一技术已经在很多技术专家的分享和网络博客中被广泛讨论,因此我们这里也不再详细介绍。

在企业应用落地方面,DeepSeek 的价值主要体现在以下四个方面,这些价值对全球 AI 格局产生了深远影响。

  1. 降低推理成本:虽然训练成本已经较低,但 DeepSeek 的最大优势在于推理成本。通过 MLA 等技术,推理成本降至之前的约 3%,降低了 97%。这一优势对中小企业尤其友好,能够加速 AI 大模型在企业应用场景中的落地。

  1. 模型思考,深度如人:R1 模型是一个深度思考模型,不仅提供问题的答案,还展示了推理过程,类似于数学题的解题步骤。这种推理模型的可解释性更强,更适合赋能更多企业应用场景。用户可以通过模型的推理过程,清晰地看到模型是如何得出答案的。

  1. 小模型,大作为:除了完整的全参模型,DeepSeek 的 R1 模型还蒸馏出了 7 个不同尺寸的小模型。这些小模型数据质量高,蒸馏效果优于同类尺寸模型。在企业落地时,可以选择这些小模型,进一步降低推理成本,同时保持良好的效果。

  1. 开源、全栈自主可控:DeepSeek 将模型开源,为全球同行和企业提供了一个自主研发和迭代的基础。目前,国内众多企业,包括芯片企业和云厂商,已经开始接入 DeepSeek 原生态模型。这不仅推动了国产化进程,也为建立安全可控的 AI 生态提供了重要的参考和标杆。

  AI 市场格局变化,
机遇挑战并存

在全球市场,包括国内的重点领域,AI 市场格局发生了诸多变化,对企业与个人而言,机遇与挑战并存。以神州数码为例,我们是一家专注于 ToB 的技术服务公司,从客户市场需求的角度出发,探讨客户需要什么样的 AI 技术企业为其提供服务。除了 DeepSeek 这样的开源大模型外,企业客户还需要以下几方面的技术进行叠加。

  1. 企业需要将 DeepSeek 大模型部署起来,并在部署过程中尽量利用 GPU 算力优化,以节省 GPU 算力成本,无论是训练成本还是推理成本。

  2. 基于 DeepSeek 开源模型,企业可以进行场景化、专业的小模型后训练,例如 7B、14B 等,以降低算力门槛。在训练过程中,数据源就像炒菜的原材料一样重要。只有通过专业的模型训练,才能保证模型的质量和效果。

  3. 企业还需要引入私域化的知识,例如企业内部的文档和专家经验等。这是因为通用的大模型无法满足企业的个性化需求,就像厨师需要根据客人的口味进行私人化的调制一样,企业也需要将内部的知识和经验融入模型中,通过知识管理实现这一点。

  4. 企业需要提供一套智能体协同框架。以炒菜为例,整个过程可以分为多个步骤,如放油、炒佐料、放菜品、勾芡等。在企业中,智能体可以将这些步骤串联起来,让每一步都发挥专业功能。在 AI 技术中,这可能涉及引入外部工具,此外,还可以结合不同的大模型和小模型、专业模型和通用模型,以提升智能体的效果。

当企业的应用越来越多时,就需要一个大模型平台来承载这四方面的功能,以便在企业中有上百个、上千个应用和智能体时能够正常运转。神州问学平台正是按照这样的逻辑进行研发和服务于企业的。在实现过程中,客户不仅需要技术手段,还希望在业务中实现高准确性和高并发能力。例如,对话机器人在回答客户问题时,需要较高的准确性,并且能够同时支持上百个、上千个 C 端客户的提问。同时,项目还需要满足经济预算要求,例如对话机器人的预算可能是 50 万或 100 万。最终目标是让大模型在企业应用场景中落地,帮助企业实现增收降本和提升办公效率。

客户需求和市场需求的变化正在深刻地引导整个 AI 市场格局的演变,尤其是 ToB(企业服务)领域。虽然 ToC 领域也会受到影响,但这里我们重点关注的是 ToB 市场格局的变化。DeepSeek 的出现,凭借其开源、低成本等特性,正在引发 AI 市场格局的重大变革,并推动商业模式的重塑。

市场格局变化

生态格式变化: 众多企业围绕 DeepSeek 建立生态,上下游企业纷纷进行 适配。这可能导致市场格局转向更加开放和多元化的竞争格局。更多的企业将有机会参与到 AI 技术的研发和应用中,推动 AI 技术的普及和创新。

垂直领域分化: 医疗、法律等专业场景将出现基于 DeepSeek 的细分模型,打破通用基础模型的统治。

产业链价值转移: 上游算力需求向推理侧倾斜,下游应用开发门槛降低将催生更多垂直领域 SaaS 服务商。硬件厂商需转向算力部署和能效优化,软件企业则需强化工程平台和应用能力。

商业模式重塑

开源重要性上升: 从 DeepSeek R1 的成功我们可能会看到更多的公司转向开源或部分开源模型,以保持竞争力。这种变化将促使 AI 市场形成更加良性的竞争环境,消费者也将获得更具性价比的 AI 服务。

催生新的商业模式:DeepSeek R1 的成功及开源,改变了市场竞争的格局和态势,将来也会催生新的商业模式。比如围绕开源生态、高效推理、模型蒸馏等模型架构创新、 核心关键技术展开新的商业范式。

企业流程重塑与再造:DeepSeek R1 的成功及开源,改变了市场竞争的格局和态势,将来也会催生新的商业模式。比如围绕开源生态、高效推理、模型蒸馏等模型架构创新、 核心关键技术展开新的商业范式。

对于企业而言,AI 技术的发展既带来了机遇,也带来了挑战,两者是并存的。

新机遇
为技术企业带来了新的机会
  • DeepSeek 生态的建立为技术企业带来了新的机会。例如,中小企业可以通过低成本接入 DeepSeek 生态,实现低成本创新。

  • DeepSeek 通过模型蒸馏技术赋能中小企业,降低 AI 开发门槛, 推动 AI 应用从头部企业垄断转向长尾场景渗透,如金融、医疗、 教育等领域。

端侧应用爆发

DeepSeek 轻量版适配手机、电脑 AIPC、IoT 设备,催生本地 化 AI 应用(如离线语音助手)。

数据标注工业化

专业标注公司可能会向推理链标注等高阶服务转型。

新挑战

技术企业将面临更多样化的挑战:例如,如何在保证模型性能的同时进一步降低训练成本和推理延迟等。企业需要不断提升自身的技术实力和创新能力,以应对这些挑战。

软硬协同能力:技术企业需建立算法 - 硬件协同优化能力(如 DeepSeek 的 GRPO、MLA、MoE 与架构创新结合)。

安全合规风险:垂直开源模型应用可能面临一定的安全风险,需内嵌审计模块。

AI 技术企业应对的策略和思路
策略 1:提供 DeepSeek 全套解决方案 -- 模型部署、训练和应用适配

以我们公司过往的经验为例,首先,作为一家专注于 AI 技术落地应用的公司,神州数码的第一个策略是为行业提供完整的 DeepSeek 解决方案。这包括模型的部署,无论是满血版还是各种尺寸的蒸馏版,以及模型训练和算力管理。例如,基于千问 32B 这种主流模型,我们现有的平台产品不仅能支持模型训练,还能实现多元异构算力的高效利用和管理,从而提升算力的使用效率。同时,我们的平台还集成了智能体和知识管理模块,以支持企业场景的应用和适配。我们认为,这个过程不是一个单向的,而是一个不断迭代的循环。通过模型的部署、训练和应用适配,我们不断循环优化,持续抽取企业行业中的最佳实践案例,从而为客户提供更优质的解决方案。

策略 2:践行 DeepSeek 行业实践 -- 企业知识治理平台

我们的第二个策略是践行 DeepSeek 在行业中的实验应用,特别是在企业的知识治理平台上。我们会将企业内部的结构化数据中台和数据仓库中的结构化数据,与中台里的知识对象以及非结构化数据进行融合。这里所说的非结构化数据,是指大家常见的 PDF 文档、Word 文档、PPT 文档,甚至是图片和语音等。这些数据都可以被纳入我们的知识治理平台进行利用。当然,在使用过程中,我们会充分考虑数据的脱敏和安全,确保这些数据仅在企业内部使用,不会对外泄露。基于我们问学的知识治理平台,我们将企业的知识类化到模型中,或者作为外部工具进行调用。

策略 3:敏捷的构建 DeepSeek 应用流程 -- 智能体平台

我们的第三个策略是提供一个敏捷的应用流程平台,类似于厨师炒菜的步骤规划。我们将其称为智能体平台,它的作用是将一个复杂的应用分解为多个步骤。这就好比人脑的规划过程——比如从北京到上海出差,我们会先规划订机票的时间、起飞时间,以及当地的酒店和行程安排。规划完成后,在出差过程中会用到各种工具,比如订机票和酒店,这些工具在我们的平台上被称为“功能调用”(Function Call)。在此基础上,我们在规划过程中设计了执行流程,通过这些流程提高效率并创新企业的业务流程。最后,我们利用低代码工具将这些流程串联起来,从而轻松构建智能体,赋能企业的应用。

神州数码的未来愿景 -- 助力企业 AI for Process

神州数码的未来愿景是通过 AI 助力企业内部流程的重塑与再造,提升效率,并为此提供相应的工具和服务。我们认为企业流程主要体现在三个方面:首先是商业模式,即企业如何创造、传递和获取商业价值;其次是管理方法,涉及企业内部运营资源的决策、绩效管理等基本实践;最后是技术的领先性,通过技术架构(如大模型架构、AI 架构和中台架构)与商业模式和管理方法的融合,提升企业的运行效率、降低成本并优化资源配置。

神州数码提出的“AI for Process”概念,正是商业模式、管理方法和技术架构三者的融合点。我们倡导的企业落地方法论是“大小模型通专融合”,以促进企业 AI 在流程中的应用。具体而言,横向的基础模型,如 DeepSeek V3 以及其他商业或开源模型,通过不断迭代,逐渐从狭义走向广义,最终迈向通用人工智能。这些模型就像通识专家,能够解答各种问题,其通用能力会越来越强。而纵向的专业能力则是通过小模型 (专识专家) 结合场景数据进行微调,例如 7B、14B 模型,它们可能针对金融、招聘、财务或风险管控等具体场景,逐步达到甚至超越专业人才的水平。

当横向的通用能力和纵向的专业能力经过长期发展后,会形成一个兼具通用性和专业性的区域。这种大模型的通用能力与小模型的专业能力相结合,将有力推动企业 AI 的落地应用。在这个过程中,需要运用智能体的决策能力、规划能力、判断能力、反思能力和工具调用能力等,以决定何时使用大模型、何时使用小模型。这些能力将不断推动行业企业及业务场景的落地,逐步实现从商业模式到管理方法再到技术架构的闭环,最终助力企业实现 AI for Process 的目标。

以下为对话实录部分(经编辑):

InfoQ:DeepSeek 的出现在中国的算力产业中引起了一场狂欢,这是否意味着像 MoE 这样的架构会越来越多地成为行业的主流?同时,这是否也意味着未来 AI 领域的竞争将从硬件堆砌转向算法创新?如何在这种算力和算法之间实现动态平衡呢?

谢国斌: 我个人认为 MoE 架构很有可能成为主流的大模型架构。在 MoE 出现之前,尤其是在 DeepSeek 出现之前,大约 90% 以上的模型架构都不是 MoE 的。自 2 月份 DeepSeekMoE 架构推出后,我们观察到许多公司,都在积极跟进这一技术。从现实情况来看,越来越多的企业倾向于尝试 MoE 架构。

从 MoE 算法本身的逻辑来看,它也非常适合在行业中占据重要地位。MoE 架构将专家分为通识专家和专识专家,类似于通用大模型和专业大模型的搭配使用。从 DeepSeek V1 到 V2 再到 V3,专家数量不断增加,从 16 个提升到现在的 250 多个。我们可以预见,随着 MoE 架构的不断发展,专家数量的增加将使其在语义理解上比传统架构更深入,因为每个专家都专注于特定的任务。此外,与相同参数量的其他大模型相比,MoE 在推理过程中能够显著降低成本,对行业应用非常友好。

我们观察到 AI 竞争的一个趋势是,国外主要依靠硬件堆砌,尤其是通过大量 GPU 来提升算力,这种方式被称为“Scaling Law”。但我们认为,算法创新同样重要。现在,架构性、核心算法的创新正在成为一种趋势,而不仅仅是算力的堆砌。实际上,MoE 架构与传统非 MoE 架构、硬件堆砌与算法创新之间并不矛盾,它们是相辅相成的。 当算力堆砌达到一定程度后,自然会有团队和公司去考虑算法创新。而在算法创新的过程中,也会进一步推动数据利用、算力利用和应用创新方面的“Scaling Law”。这种动态的、相辅相成的发展模式更适合未来 AI 在企业中的落地。

InfoQ:有观众提问:企业在部署 DeepSeek 后,如果使用自有数据,是否需要采用 RAG?

谢国斌:RAG 技术,中文称为“检索增强生成”,它与大模型的最大区别在于:大模型像是一个已经内化了知识的学生,比如一个学生学习数学,知识被吸收并理解后存储在模型内部。而 RAG 技术则通过向量检索和文档切片的方式,从数据库中调取与问题最相关的片段,这种能力属于模型外部的增强,与大模型的内部知识存储有本质区别。简单来说,一个是模型内部的知识运用,另一个是模型外部外挂的辅助检索。

RAG 技术本身可以通俗地分为三个步骤:

1. 文档处理。将文档(例如一千页的内容)进行切片,可以按段落、每 1000 词或每页等不同方式切分,然后将这些切片存入向量数据库。目前有很多开源和商业版的向量数据库可供选择。

2. 检索和召回。当用户提出问题时,系统会通过向量大模型算法计算问题与文档片段之间的相似度,从一千页文档中找出与问题最相关的 5 个片段。这一步主要是基于向量运算的相似度匹配。

3. 答案生成。最后将问题和这 5 个最相关的片段一起输入到大模型(如 V3 或 R1)中,由大模型理解并生成最终答案。只有这最后一步真正利用了大模型的能力,而前两步主要依赖于向量运算,与大模型关系不大。

InfoQ:可以这样理解吗:“引入 RAG 技术能够让大模型的搜索变得更加精准,尤其是在企业内部使用私有数据时,这种精准性会更加凸显。”

谢国斌:RAG 技术确实能让大模型的搜索更加精准。一方面,大模型的训练数据通常有一个截止日期,比如截止到今天。这意味着模型在上线后无法实时处理新信息,例如明天北京下雨这样的实时信息或新闻。这时,就需要通过外部知识或企业内部知识,以数据灌入的方式临时更新模型的知识库。这就是 RAG 的切片和检索增强生成过程。另一方面,企业内部数据量庞大,不适合直接用于模型训练,而 RAG 技术提供了一种低成本的解决方案。目前,许多云厂商提供的向量数据库报价非常低廉,几乎可以忽略不计。RAG 技术不仅能实时更新信息,还能快速处理数据。如果 RAG 配置得当,其检索速度可达毫秒级,尤其在文档切片合理、数据量较小时,性能优势尤为明显。不过,RAG 的语义理解能力相比大模型内化的语义理解稍弱。因此,RAG 技术在 2024 年得到了广泛应用,尤其是在企业知识管理领域。

InfoQ:中小企业如何低成本接入 DeepSeek 的生态,实现低成本创新?此外,在这个领域里,哪些应用可能会率先爆发?能否通过一两个案例来回答这个问题?

谢国斌: 对于中小企业而言,大模型 DeepSeek 的影响主要体现在以下几个方面。首先,在具体场景中选择落点时,中小企业可能对数据隐私和准确性要求并不那么敏感。因此,我们建议的低成本接入方法是,选择一个数据隐私要求不高、对准确性要求不那么严格的场景,先将其跑通。在这个阶段,企业可以使用 DeepSeek 的开源云 API,利用云上的数据进行开发。这样可以让企业内部的 IT 人员和业务人员对整个流程有一个全新的认识,了解对话机器人或内部问答系统是如何运作的。

当企业对流程有了全面理解后,可迅速切换到更敏感的场景,就可以开始考虑私有化部署 DeepSeek。在私有化部署的初期,可以选择一些小参数模型,比如 14B、32B,或者是 DeepSeek 蒸馏版本的模型。通过小参数模型的私有化部署,企业既能保证数据安全,又不会因为一次性部署满血版模型而承担过高的服务器成本。当某些场景对精度要求较高时,企业可以选择两条路径:一是直接使用 DeepSeek 的满血版开源模型;二是基于企业自身数据进行微调或模型蒸馏,从而提升精度。这些方案对中小企业来说较为友好,关键在于先跑通流程。

我们判断,金融、医疗、教育和汽车等行业的应用可能会率先爆发。这些行业对 AI 技术的需求大,市场空间广阔,但同时也面临着较高的开发成本和门槛。通过我们提到的技术落地方案,如模型微调、数据蒸馏等,结合平台工程能力,可以大幅降低开发门槛,释放行业潜力。当然,除了这些行业,制造业、企业办公等应用也有很大的发展空间。

InfoQ:神州数码是否有已经落地的金融大模型相关应用,或者在这一领域有什么研究方向?

谢国斌: 在金融领域,我们已经有了一些大模型的应用案例。神州数码在金融领域已有多年布局,尤其是通过上市公司神州信息与相关企业展开合作,专注于金融科技和金融软件的研发和服务。在银行核心系统的开发中,以前 代码编写和业务场景设计 主要依赖人工。现在,我们通过 DeepSeek 和大模型技术,将其应用于银行核心系统,提升编程效率和交付能力,同时优化与企业业务相关的流程设计。在银行获客和营销方面,我们利用大模型处理结构化和非结构化数据,帮助银行更好地理解客户、获取客户,并助力零售业务发展。大模型不仅可以作为对话机器人,还能优化企业内部信息沟通流程,尤其在客户认知和客户获取方面,提供了很大帮助。

此外,我们在金融风控和监管报送领域也进行了实践探索。例如,在银行、监管部门的一些业务应用中,大模型能够快速分析数据之间的复杂关系,帮助防范金融风险。因为银行流程中存在大量控制点,仅靠人工判断有时难以快速响应,而大模型可以高效处理这些复杂关系,从而在金融风控和监管报送领域发挥重要作用。

InfoQ:有观众提问:在第三方 IT 运维和服务行业,如何利用 DeepSeek 来提升客户服务的价值,特别是在 IT 运维方面?

谢国斌: 在为 ToB 客户提供 IT 运维服务时,DeepSeek 可以从两方面带来价值。一方面是为客户(甲方)创造价值。对于客户的机房和后台系统,包括安全系统、日志系统、邮件系统等,运维过程中涉及大量非结构化数据,如计算机日志和文档。这些场景非常适合利用大模型进行处理。过去依赖人工的环节,现在可以通过运维框架中的运维智能体来实现,从而降低服务成本,优化流程。这正是 AI for Process 在运维领域的体现,能够为甲方带来显著的流程优化价值。

另一方面,对于提供 IT 运维服务的企业自身而言,DeepSeek 也具有巨大价值。在运维过程中,企业可以基于大模型开发小型工具,例如代码工具、自动检测工具、警报工具或 BI 工具等。这些工具能够降低企业在服务过程中的自身人力成本和研发成本,提高服务效率。因此,从服务甲方和优化自身成本两方面来看,DeepSeek 都具有潜在的巨大收益。

InfoQ:现在很多中小企业都在利用模型蒸馏技术来降低 AI 开发的门槛,并推动 AI 应用从头部企业的垄断向长尾场景渗透,比如金融、医疗、教育等领域。蒸馏技术为什么对中小企业在开发 AI 应用非常重要?

谢国斌: 从学术和常识角度来看,蒸馏分为 数据蒸馏和模型蒸馏。数据蒸馏是指通过调用优质模型的 API,以问答形式按照固定格式生成标准答案,甚至推理过程。DeepSeek 在其论文中就采用了数据蒸馏的方式。模型蒸馏则是用大模型去指导小模型学习。业界有一个通俗的比喻:假设有一个资深的高级数学教师(大模型,如 R1/V3),他要教一个聪明的学生(小尺寸模型,如 32B)。教师将自己的知识和技能逐步传递给学生,这个过程就是蒸馏。经过蒸馏,小尺寸模型在企业应用中会有两个显著好处:

  1. 模型尺寸变小,推理时算力需求降低,从而极大节省成本。例如,一个满血版的大模型(如 R1-671B)可能需要两台机器、16 张显卡来部署,成本极高。但如果将其蒸馏到 32B 模型,仅需一张显卡即可部署,成本节约可达十几倍到几十倍。

  2. 经过蒸馏的小模型在特定领域会变得越来越聪明,甚至可能在某个细分领域超过大模型。比如在数学的某个子学科(如代数或几何)上,经过良好训练的小模型可能表现得比大模型更出色。我们在实践中也观察到类似现象,许多论文也复现了这些结果。

因此,对中小企业而言,蒸馏技术最大的好处是降低成本,同时在具体场景中可能实现比大模型更优的性能。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询