微信扫码
与创始人交个朋友
我要投稿
分享嘉宾|胡也畅 Fabarta 企业智能分析平台(ArcPilot)产品负责人
内容已做精简,如需获取专家完整版视频实录和课件,请扫码领取。
01
多模态决策智能的现状与路径
1.1工业场景下的多模态数据现状
根据 IDC 报告显示,目前企业结构化数据仅占到全部数据量的 20%,其余 80% 都是以文件形式存在的非结构化和半结构化数据。该现状在工业场景下只多不少,横向观察工业场景的数据现状:
枫清科技(Fabarta)去年专注解决问得准的问题,目前已经有比较完备的解决方案,但同时也遇到了新的问题。我们发现,业务用户对于“问得准”需求后的满足时间阈值只有 3- 6 个月。之后客户会提出新的需求:如何让数据准确引导决策?举个例子,当我们已经解决“某某工厂的产量与能耗分别是多少”这个问题,接下来领导层会更加关注以下几个问题:哪个工厂能耗最高?哪个最低?能耗高的原因是什么?哪些方面的改进能够减少能耗?同时,客户也会关注,在获取数据后能否将企业内部已经有的机器学习、 AI 学习模型或者生产制造中的机理模型串联起来,并根据问题将结果生成对应的报告,让大模型参与落地和自主执行。这部分更多是大模型落地的深水区,我们也在不同的角度反复自问:
Infra Ready for AI ?在大模型自主判断的场景时,数据基础设施是否准备就绪?
Data Ready for AI ?准备判断的数据本身是否值得信任,质量是否过关?
AI Ready for Apps ?当前以上两个问题都被解决了以后,要更深入地思考 AI 的自主决策是否能够实际帮助到线上的业务系统,业务应用能否直接产生价值。
非结构化数据与结构化数据的智能决策稍有不同。非结构化数据以知识库产品为代表。根据观察,大部分中国制造业企业处于 1.0 阶段,内部有类似于 Sharepoint 的文档管理系统,将不同部门的文档进行上传,在文档之间做检索。一般而言没有语义理解的搜索产品,更多的还是文档归档和分发。
对于非结构化数据如何参与到企业决策智能,其中最重要是需要把海量文档间的关系进行梳理,包括文档之间、文档作者之间、文档中细节知识片段的关系,在整个检索增强链路中都会取到非常重要的联系,提高知识问答的准确率。对于如何通过内容的理解参与决策,例如利用知识库里的标准内容对上传的方案进行分析,甚至给到修改建议,这些都是建立在对海量知识理解的基础之上做决策。最终决策方案将与业务系统做深度的融合,赋能已有的制造业领域系统。
多模态决策智能的数据基础
回到制造业行业,该行业的特点在于数据分散,设备相关手册与资料存在于众多系统里。当多模态数据无法融合时,知识本质上会以一个个知识孤岛的形式存储在不同的业务系统中。知识孤岛成为了大部分企业进行业务分析的瓶颈。
2.1 Data Ready for AI: 统一语义层
元数据 for AI 。提供规范的元数据,让大模型更好地理解元数据、更好地落地。
AI for 元数据。半结构化、非结构化数据的元数据质量相对较差,利用 AI 技术帮助异构元数据进行智能补齐与关联发现。从而为统一层的梳理提供更好的基础表达。
企业内部数据进入向量数据库与图数据库的判断标准是什么?对于数据间的关联关系,比如说元数据、结构化数据、非结构化数据的关联关系,都可以作为确定性知识存储在图数据库中;同时,将文本、图片、音频等多模态数据存储在向量数据库当中。当确定性知识和概率性知识融合后,多模态智能引擎作为 AI 数据基础设施,可以显著优化大模型实际场景落地的质量。
实际落地案例
结构化数据:如提问人所属工厂的信息。
非结构化数据:如相关的设备参数文档。
语义关联拓扑:如设备类型、生产商、文档信息。
上图的例子中还需强调一点,用户提问到某起重机的具体参数,虽然在该提问者工作的工厂知识库中没有找到相关资料,但是在其他工厂有该设备的材料。系统会将这些资料根据其所属的工厂进行分门别类地进行回答和摘要总结,并不像普通 RAG 把所有资料打包直接输出。所以有了关联关系后,可以对知识本身进行扩展,进行更加准确的分析、理解和表达。
只有解决了问数、取数才可以迈向下一阶段,也就是数据的归因分析与自主决策。
第二要解决问得清和看得明。当用户提问的同时还需要另外两个指标,这里都能提供正确回答,这时会有类似 BI 的需求,我们不仅仅能给用户生成智能图表,把数据库的数据进行原始表达,也能基于对业务语义的理解生成对应的图表展示,包括摘要总结,能够在会话里获得更多信息和资料。
大模型智能体应用构建平台
枫清科技(Fabarta)正在进行和落地的案例之一:引入智能体解决高阶复杂的制造业问题。在智能体领域,核心解决方案是利用内外循环思路。问与查都是较简单的数据表达,复杂情况需要智能体能力进行数据调度。为解决复杂问题,利用外循环规划 Agent 实现任务拆解,再根据不同任务在内循环中选择合适的调用工具,包括反思。整个这个过程同步反馈到计划的主智能体,由智能体进行迭代学习、反思,对任务进行修改。
举个较简单的例子,当用户问:“明天天气怎么样?”,这个问题对于人类而言非常简单。但把问题进行逐一拆解,首先在外循环中对问题的解决做明确主题计划,要明确用户所在地,通过问询、 IP 、网络信号等获得,还要获得需要查询天气的日期。只有以上两个条件都确定后,最终才会执行天气的查询。每个任务都会进入到内循环状态,实时对任务、工具的选择进行感知。在实际工业场景中,智能体方案落地时,往往会带来大量的工具反复调用,包括工具间串行和并行的执行,这也是深水区解决复杂任务的最大挑战。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-08
千问又放大招!720亿参数的视觉语言模型什么样?
2025-01-07
2025 年10大AI 方向:高效推理、多模态等
2025-01-06
利用多模态RAG实现图文并茂的内容生成
2025-01-02
2025年开篇|AI Agent与多模态大模型:智能革命的新纪元
2024-12-31
多模态RAG技术:从语义抽取到VLM应用与规模化挑战
2024-12-26
戴上眼镜的Kimi能力超强,领先 o1 和 Gemini
2024-12-21
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
2024-12-20
快手可灵1.6正式上线,他们又一次超越了自己。
2024-09-12
2024-05-30
2024-06-14
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-06-26
2024-07-21
2024-07-07