AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


传统工业如何应对AI 时代? 开源煤矿安全AI问答CoalQA部署+AI 知识库落地案例"卡奥斯"
发布日期:2024-08-18 10:54:48 浏览次数: 1629


最近了解到一些 AI 在行业的落地应用和尝试。去年这些技术出来时, 就好奇对现在的行业有什么改变, 之前看到的很多都是设想, 设想用 LLM 多模态检测零件和安全风险, 设想VR+LLM 进行工业员工培训, 设想企业能够通过 AI 让更多员工在资料查找, 经验传递更高效
经过一年的发展,终于有一些项目逐步落地,能够亲身体验。这其中,最普及、技术最成熟且成本相对较低的应用形式,毫无疑问是企业知识库的构建
这个煤矿的对话问答系统是一个例子, 来自2024 年 AI 比赛中的项目, 因此质量和可落地性差了一些,更多是一个框架方向
以下是 CoalQA 的详细介绍,包括我在 MacOS 部署时可能遇到的问题,我对知识库文本质量与效果的测试结果,以及目前实际应用中的海尔卡奥斯问答对话系统的落地情况

CoalQA

团队成员来自安徽理工大学、中国矿业大学、北京化工大学、中国人民解放军总医院等多所高校/企业的博士、硕士、本科生以及个人开发者 使用GLM-4模型,构建煤矿事故知识图谱。暂时不开源
利用包括煤矿历史事故案例、事故处理报告、安全操作规程、规章制度、技术文档以及煤矿从业人员入职考试题库等在内的丰富数据资源,通过微调InternLM2模型,构建出一个专门针对煤矿事故和煤矿安全知识智能问答的煤矿安全大模型
支持煤矿安全领域常规题型解答,如:单选题、多选题、判断题、填空题等 (针对煤矿主要负责人及安管人员、煤矿各种作业人员)
支持针对安全规程规章制度、技术等文档内容回答(如《中华人民共和国矿山安全法》、《煤矿建设安全规程》)
支持煤矿历史事故案例,事故处理报告查询,提供事故原因详细分析、事故预防措施以及应急响应知识
详细步骤按照 Github项目 CoalQA 的本地部署教程
git clone https://github.com/yaosenJ/CoalQA.git
cd CoalQA
conda create -n CoalQA python=3.10.0 -y
conda activate CoalQA
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt
cd web_app
streamlit run streamlit_app.py --server.address=127.0.0.1 --server.port 6006
部署环境,安装 streamlit 时我遇到extract-msg (<=0.29.)问题, 来自项目 requirements.txt中的 textract 里面的设置
WARNING: Error parsing dependencies of textract: .* suffix can only be used with `==` or `!=` operators
    extract-msg (<=0.29.*)
最后放弃用 python安装 streamlit,而是用 conda 来安装conda install -c conda-forge streamlit
如果像我一样用 MacOS 运行, 要把安装指令和 streamlit_app.py 中跟 cuda 有关的删除,苹果不支持英伟达的 Cuda
在项目自带的数据和代码上运行, 速度特别慢,3 分钟才能回答问题,并且回答的内容跟数据不是很一致, 生成质量并不高,模型我是提前去书生官网下载的本地模型
下面分别是数据原图和对话中运行结果
整体内容回答的生成质量不满意,,并没有按照原文档想要的回答, 而且这个界面应该参考 ChatGLM3 , 之前本地部署 ChatGLM也大致是这个界面
但这个项目的框架可以参考, 包括 RAG,微调和数据处理, 可以把这套流程参考下来, 自己选择其他的模型和领域进行训练,自定义

卡奥斯

上面 CoalQA 是开源技术参考,而海尔集团的卡奥斯是我目前看到的AI 知识库对话在工业领域实实在在落地的产品
2023 年一直有把网站信息作为知识库交给 LLM,让大模型实现自己知识库的问答的产品 ,现在终于看到有相应的实例
在这个对话框进行提问, 如果回答通用模型的技术回答,如果卡奥斯自己有相关文章, 相关解决方案, 会在右边提供具体的解决方案和文章
左边还有化工生成助手, 中小企业数字化助手,注塑行业助手和国家政策等不同领域的 ai 对话应用
当然, 大模型的安全性,回答内容问题域的规范, 目前该平台没有重视, 即使问颐和园的问题也能回答, 就是在 LLM 基础上加了一些知识库,匹配到的工业数据增值平台也跟问的颐和园没关系

后记

2023 年提到的本地企业知识库问答, 今年有些大企业已经开始尝试落地, 虽然落地质量,各种细节都不完善, 但整体都往这个方向继续走
看那些真正开发企业知识库的产品经理的观点, 说是即使AI知识库的开源闭源项目出来 1 年了, 文档检索都还很困难, 很难精确检索到想要的内容, 更别说内容生成了, 甚至处理 pdf数据, 规范数据格式都是一个技术难点
最近,我在阅读Tony Fadell的《Build》时,注意到他提到的一个观点: 从消费体验, 消费者需求的视角去看产品 ,而不是从现在有什么技术造什么产品的视角去看, 后面这个经验来自他在 Phillip 的失败,一心想根据现在的技术,资源造一个酷炫的产品, 忽略了消费者是否需要这个产品
就我而言, 像对于个人本地知识库文档,目前我并不需要。我的知识库内容大多储存在脑海中,不需要问答系统,况且目前产品直接输入关键词检索内容,就能找到我想要的内容,犯不着部署 ai 本地知识库。因此,并非所有AI知识库都必须使用,而是应根据自己的需求来选择。
就我而言,一个免费、功能简洁、能快速访问本地白板存储文件的白板软件,比AI知识库更为实用费,功能简洁, 能看见本地白板存储文件,性能速度快的白板软件都比这个 AI 知识库对我自己实用
Tony Fadell 在苹果时, 很多科技怪客都会把自己新发明的小产品交给他看, 他则先把产品放一边, 问这些 geek 们 "How can you solve your problem without this?"
看了那么多产品, 技术, 该学习学习用这个新视角看待这些 AI 发展,我也应该尝试从具体的工作需求角度来审视这些AI产品的实际应用



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询