我要投稿

RAG维保案例分享：如何实现"文+图"的答案呈现

发布日期：2025-03-29 19:04:50 浏览次数： 1689 作者：韦东东

RAG一直被看成是大模型在企业应用落地的标准配置，基于企业内部文档的问答，已经解锁出大量使用需求和场景。在这些众多类型的文档中，有相当一部分包含了各类复杂图表，也就是所谓的多模态数据。

本篇以近期实施项目中的一个挖掘机维修场景为例，试图给出一个针对标准化排版PDF 文档（本文演示的固定格式维修手册），使用基于坐标区域截取方法，结合Markdown 语法在回答中显示图片的示例,供大家参考。

演示视频与文章搭配更佳

以下，enjoy:

业务背景

说起挖掘机不禁让人想到了蓝翔，搜了下说是截止到 23 年年底，全国范围的液压挖掘机保有量在 200 万台左右。对于一名具体机主而言，在实际干活的过程中，可能碰到的来自发动机、电器、液压、工作装置等大大小小几百个故障，这也让专业的挖机维修需求一直很旺盛。

但对于维修人员而言，显然有几个一直以来的痛点没有被很好解决，比如设备故障类型繁多，单靠个人经验难以覆盖所有问题。再有就是传统老带新的模式下，培训带教周期过长等。

注：维修案例示例内容

后文会介绍一个基于包含 500 多个维修案例合集，开发的挖掘机故障诊断知识库系统，维修人员只需描述故障现象即可获取相关案例，并支持图文结合的答案呈现，直观展示故障部位和维修方法。

系统架构

注：本项目扩展自阿里云官方的 local_rag 示例，添加了本地 PDF 图片提取和显示功能，

原项目地址:https://help.aliyun.com/zh/model-studio/use-cases/build-rag-application-based-on-local-retrieval?spm=a2c4g.11186623.help-menu-2400256.d_2_8.5a6771eeJWalDw#a2b0288504ybg

? 支持多种文档类型（PDF、DOCX、TXT、XLSX、CSV）的上传和处理

?️ 智能 PDF 图片提取与显示

? 本地知识库构建与管理

? 集成阿里云通义千问系列大语言模型

? 支持非结构化数据和结构化数据处理

? 可自定义 RAG 参数（召回数量、相似度阈值等）

核心技术实现

3.1

文档处理与图片提取

系统提供了多种 PDF 图片提取和处理方法，以适应不同场景需求：

1. 基于坐标的区域截取（推荐方法）

针对标准化排版的文档（如固定格式的维修手册），使用基于坐标的精确截取：

def extract_images_from_maintenance_pdf(pdf_path, label_name):    image_mapping = {}    doc = fitz.open(pdf_path)        # 根据文档格式定义的图片区域坐标    image_rect = fitz.Rect(400, 160, 750, 320)  # 右侧中间区域        for page_index, page in enumerate(doc):        # 直接从固定区域截取图片        pix = page.get_pixmap(matrix=fitz.Matrix(2, 2), clip=image_rect)        if is_valid_image(pix):            # 保存和映射图片...

优势：

对固定格式文档效果极佳

不受 PDF 内部图像对象表示形式限制

可以捕获矢量图形和复合元素

提高图片提取的准确率和质量

2. 基于对象标记的提取（备选方法）

使用 PyMuPDF 的内置功能识别 PDF 中的图像对象：

def extract_images_from_pdf(pdf_path, label_name):    doc = fitz.open(pdf_path)    for page in doc:        image_list = page.get_images(full=True)        for img in image_list:            # 提取和处理图片...

局限性：

仅能提取 PDF 中显式存储的图像对象

无法提取矢量图形或作为背景的图片

可能会提取装饰性元素或无关图形

3. 其他优化方案

基于内容分析的智能提取：结合文本标记定位图片

多模态 LLM 辅助：使用视觉模型辅助识别复杂文档中的图片

3.2

图片处理流程

3.3

RAG 技术实现

分块策略

系统针对不同类型的数据采用不同的分块策略：

非结构化文档：

documents = SimpleDirectoryReader(input_files=enhanced_files).load_data()index = VectorStoreIndex.from_documents(documents)

结构化数据：

nodes = []for doc in documents:    doc_content = doc.get_content().split('\n')    for chunk in doc_content:        node = TextNode(text=chunk)        node.metadata = {'source': doc.get_doc_id()}        nodes = nodes + [node]

嵌入模型

默认使用通义千问文档嵌入模型：

EMBED_MODEL = DashScopeEmbedding(    model_name=DashScopeTextEmbeddingModels.TEXT_EMBEDDING_V2,    text_type=DashScopeTextEmbeddingType.TEXT_TYPE_DOCUMENT,)
# 若使用本地嵌入模型，请取消以下注释：# from langchain_community.embeddings import ModelScopeEmbeddings# from llama_index.embeddings.langchain import LangchainEmbedding# embeddings = ModelScopeEmbeddings(model_id="modelscope/iic/nlp_gte_sentence-embedding_chinese-large")# EMBED_MODEL = LangchainEmbedding(embeddings)

检索策略

采用两阶段检索策略：

向量相似度初筛：

retriever_engine = index.as_retriever(similarity_top_k=20)retrieve_chunk = retriever_engine.retrieve(prompt)

语义重排序：

dashscope_rerank = DashScopeRerank(top_n=chunk_cnt)results = dashscope_rerank.postprocess_nodes(retrieve_chunk, query_str=prompt)

注：比较初步的检索策略，可根据实际情况进行调整

4. 图片链接处理

只保留最相关文本块中的图片链接

移除其他文本块的图片链接

使用 Markdown 语法在回答中显示图片

prompt_template = """请参考以下内容，仅使用第一个最相关文本块中的图片链接。如果在第一个文本块中看到"图片链接:"，将其转换为Markdown图片语法。请忽略其他文本块中的图片链接。"""

使用指南

4.1

上传数据

系统支持两种文件上传方式：临时上传：直接在 RAG 问答页面上传文件，临时使用

创建知识库：在"上传数据"页面中上传文件，并在"创建知识库"页面构建永久知识库

支持的文件类型

非结构化数据：PDF、DOCX、TXT

结构化数据：XLSX、CSV

4.2

创建知识库

进入"创建知识库"页面

选择已上传的类目或数据表

设置知识库名称

点击"确认创建知识库"

4.3

RAG 问答

flowchart TD    A[用户提问] --> B[获取知识库]    B --> C[检索相关文档]    C --> D[重排序文档]    D --> E[构建提示词]    E --> F[调用大语言模型]    F --> G[生成回答]    G --> H[显示回答及图片]

项目结构

main.py - FastAPI 应用入口和 Gradio 界面定义

chat.py - RAG 问答核心功能和大模型调用

upload_file.py - 文件上传和处理逻辑，包括 PDF 图片提取

create_kb.py - 知识库创建和管理

html_string.py - Web 界面 HTML 模板

File/ - 存放上传的文件

VectorStore/ - 存放向量数据库

static/images/ - 存放提取的图片

images/ - UI 头像图片

自定义与扩展

修改嵌入模型

可以使用本地嵌入模型替代云端 API。

在create_kb.py和chat.py中取消相关注释并安装额外依赖。

优化提示词模板

修改chat.py中的prompt_template变量以定制提示词模板。

添加新的文档类型支持

扩展upload_file.py中的处理逻辑以支持更多文件类型。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-27

AI 写代码总是翻车？Upstash 创始人怒推 Context7：给 LLM 喂上最新鲜的官方文档。

2025-04-26

葵花宝典之「知识库」调优秘籍！RAG优化指南！

2025-04-26

RagFlow文档解析过程分析

2025-04-26

深度学习！构建基于LangGraph的RAG多智能体研究工具。

2025-04-26

用RAG与Agent提升企业问答效率：我的AI实践之路

2025-04-26

理解 RAG 第一部分：为什么需要它

2025-04-26

理解 RAG 第三部分：融合检索与重新排序

2025-04-26

理解 RAG 第四部分：检索增强生成评估框架

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网最全国内Agent平台深度测评：扣子、Dify、FastGPT，谁是你的Agent开发首选？

2024-10-27

一文彻底搞懂大模型 - RAG（检索、增强、生成）

2024-09-04

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

2024-05-05

RAG框架，都在这了!

2024-06-20

RAG 高效应用指南：Embedding 模型的选择和微调

2024-06-13

深入解析 Graph RAG：提升语言模型问答能力的创新策略

2024-07-09

微软开源的GraphRAG解读

2024-07-09

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

2024-05-19

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

2024-07-07

大家都在问

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

HR AI小科普——什么是MCP？

2025-04-25

RAG应用必备！10种向量数据库全解析、Weaviate、Milvus、pgvector、Qdrant等热门工具谁更强？

2025-04-22

18种RAG技术大比拼：谁才是检索增强生成的最佳选择？

2025-04-22

大模型能像专业分析师一样提取用户需求吗？

2025-04-20

RAG vs. CAG vs. Fine-Tuning：如何为你的大语言模型选择最合适的“脑力升级”？

2025-04-19

什么是RAG与为什么要RAG？

2025-04-18

真实场景下落地RAG的十条建议及RAG中如何提升个性化？

2025-04-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB