微信扫码
与创始人交个朋友
我要投稿
随着AI大模型发展,从大量、结构复杂的文档中提取关键信息,编排工作流的需求变多。
比如上传某个领域知识,通过AI对话,找到关键信息;上传某个作者的所有书籍/演讲,学习其思想。
目前有很多工具(如下图),还有Coze。
今天介绍一款关注度较高的开源工具——RAGFlow。
RAGFlow是一款基于深度文档理解技术的开源RAG(检索增强生成)引擎,能快速、准确地从各种复杂文档中提取信息,生成高质量的答案。广泛适用于企业和个人。
最近一个月,RAGFlow新增了从Docx文件中提取图片和表格、流程编排可视化等功能,功能变得更加强大了。
告别手动查找和整理!RAGFlow支持Word 文档、PPT、excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据、网页等各种格式的文档。
可以自动识别并提取图片、表格等内容,让信息获取变得前所未有的简单。
当你有问题需要解答时,RAGFlow能快速从相关文档中找到答案,并标明信息来源。
这样,你就可以轻松验证答案的准确性和可靠性,不必担心回答虚假信息了。
无论是企业内部知识管理、法律文档解析,还是学术研究资料整理,RAGFlow都能应对自如。
它的多模板分块功能可以适应不同的业务需求,灵活性极高。还提供易用的API,可以轻松集成到各类企业系统。
有两种方法,一种是自行部署使用,可以根据需求二次开发。这种方法适合有技术基础的同学。
这种方法的前提条件是要求:
• CPU:≥4核
• 内存:≥16GB
• 硬盘:≥50GB
• Docker:≥24.0.0 & Docker Compose:≥v2.26.1
具体操作见:https://github.com/infiniflow/ragflow
另外一种是使用官网,上手简单,适合没有技术基础的同学。
下面重点介绍这种使用。
我们以硅谷创业教父保罗·格雷厄姆(Paul Graham)的为例。保罗是硅谷最具影响力的企业家、创业思想家和投资人之一。他的思想影响了无数年轻人。
假如你想学习他的思维方式,遇到问题想问问他,现在你可以使用 RAGFlow 打造一个保罗分身。
首先,下载他博客上的所有文章。
打开RAGFlow官网并登录:https://ragflow.io/
可以看到,页面上方有四个模块,点击相应模块,即可切换。
上传数据。支持上传各种格式(见上文)、多个文档。
数据上传后,等待数据解析。根据上传的数据量,解析时间有所不同。下面是我解析好的数据。
如果你想更新数据,可以选择左边的“配置”上传数据。
现在建立一个保罗分身。点击新建助理,配置助理名字、设置开场白、选择知识库。
在“提示引擎”处配置系统提示词,让其用保罗的思维方式、语气回答问题,只能从知识库中检索数据回答问题。
这样保罗的分身就建好了。
输入问题,测试效果。
下图问了保罗分身如何保持独立思考,回家效果只能说能看。
如果测试效果不好,按下图更改数值。如提高“相似度阈值”,那么检索出的文本相似度会提高。
可以生成API,集成到各类企业系统。比如对接到飞书、企业微信中。
可以选择“图”进行复杂工作流编排。可根据需要,集成外部浏览器等。
比如,我可以集成保罗的博客官网,以便从博客官网搜索信息。
需要注意的是,RAGFlow官网提供默认模型只有一个deepseek-chat。如果想要更多功能,需要自行部署配置。
如果你想要学习更实用、更底层的操作,可以关注我们的AI线下工作坊,【入群】享受报名优惠。
? 如果你有更好的工具,使用技巧,欢迎分享到评论区给更多人
推荐阅读
5种使用AI大模型的正确姿势!接入知识库、微调,总有一种适合你
解读 Graph RAG:从大规模文档中发现规律,找到相互关系,速度更快,信息更全面!
最具代表性的文本数据集:覆盖32个领域,444个数据集,774.5TB数据量
活水智能成立于北京,致力于通过AI教育、AI软件和社群提高知识工作者生产力。中国AIGC产业联盟理事。
活水现有AI线下工作坊等10+门课程,15+AI软件上线,多款产品在研。知识星球中拥有2600+成员,涵盖大厂程序员、公司高管、律师等各类知识工作者。在北、上、广、深、杭、重庆等地均有线下组织。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-15
复旦发布:最佳RAG方案
2024-11-15
破解PDF解析难题:RAG中高效解析复杂PDF的最佳选择
2024-11-15
RAG技术全解析:从基础到前沿,掌握智能问答新动向
2024-11-15
RAG在未来会消失吗?附RAG的5种切分策略
2024-11-15
HtmlRAG:利用 HTML 结构化信息增强 RAG 系统的知识检索能力和准确性
2024-11-15
打造自己的RAG解析大模型:表格数据标注的三条黄金规则
2024-11-13
RAGCache:让RAG系统更高效的多级动态缓存新方案
2024-11-13
Glean:企业AI搜索,估值46亿美元,ARR一年翻4倍
2024-07-18
2024-07-09
2024-05-05
2024-07-09
2024-05-19
2024-06-20
2024-07-07
2024-07-07
2024-07-08
2024-07-09
2024-11-06
2024-11-06
2024-11-05
2024-11-04
2024-10-27
2024-10-25
2024-10-21
2024-10-21