我要投稿

8分钟打造一个DeepSeek生成测试用例系统知识库

发布日期：2025-04-06 05:12:14 浏览次数： 1648 作者：北极星学派 Polaris School

一、背景与系统定位

之前分享过两篇8分钟系列DeepSeek赋能软件测试的文章，吸引了很多志同道合的同学们的讨论，基于前面的文章，我们已构建了基础测试用例生成能力。今天主要聊一下知识库。

8分钟打造一个DeepSeek加持的测试用例工具
北极星学派，公众号：北极星学派 Polaris School8分钟打造一个DeepSeek加持的测试用例工具

8分钟打造一个DeepSeek API智能测试引擎：当咖啡还没凉，测试报告已出炉
北极星学派，公众号：北极星学派 Polaris School8分钟打造一个DeepSeek API智能测试引擎：当咖啡还没凉，测试报告已出炉

本系统在此基础上引入知识库增强生成（RAG）技术，通过融合领域文档与历史用例数据，使生成结果更贴合业务场景。

1.1 为什么需要知识库？

传统AI生成方案存在两大痛点：

领域知识缺失
大模型无法记忆企业私有文档（如需求规格书、接口文档）
历史经验浪费
过往测试用例未被有效复用

本系统通过轻量化RAG架构（无需向量数据库）实现：

PDF文档智能解析 ➡️ 构建领域知识库
历史用例语义检索 ➡️ 形成经验复用机制
动态增强生成提示词 ➡️ 提升用例专业度

先看视频Demo

上传文档到知识库
第一次生成没选择使用知识库增强->设计的测试用例和手机号登录毫无关系
第二次选择使用知识库增强->设计的测试用例知道用手机号进行注册系统，并知道更多其他细节

二、核心逻辑解析

2.1 系统架构全景

2.2 关键技术点说明

2.2.1 知识库构建模块

def process_pdf(uploaded_file):
    # PDF分页提取文本
    pdf_reader = PyPDF2.PdfReader(filepath)
    # 智能分段规则，略简单粗暴
    paragraphs = re.split(r'\n\s*\n', text)  
    # 结构化存储
    segments.append({
        'segment_id': f"{filename}_{page_num}_{i}",
        'document_name': uploaded_file.name,
        'page_num': page_num + 1,
        'content': paragraph
    })

创新点：

采用唯一段落ID
按自然段落分割，保留上下文语义
过滤无效短文本（<20字符）

2.2.2 增强检索引擎

def find_similar_cases(new_req, df, top_k=3):
    # TF-IDF向量化
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(...)
    # 余弦相似度计算
    similarity = cosine_similarity(tfidf_matrix[-1], tfidf_matrix[:-1])
    return top_indices

设计考量：

相比BM25算法更易实现
计算效率：O(n)复杂度，千级数据实时响应
结果可解释性强，适合调试

2.2.3 动态提示词工程

system_prompt = f"""参考知识：
文档《{item['document']}》第{item['page']}页：{item['content']}
历史用例{idx+1}: {case}
生成要求：
1. JSON数组格式...
"""

增强策略：

知识片段截断处理（单段≤512字符）
优先级排序：领域知识 > 历史用例
格式强约束（JSON Schema注入）

三、关键技术选型解析

3.1 什么是RAG？

检索增强生成（Retrieval-Augmented Generation）通过以下流程提升生成质量：

用户问题 → 知识检索 → 提示词增强 → 大模型生成 → 结果输出

与传统生成的区别：

知识实时性
无需重新训练模型
数据安全性
敏感信息不离域
结果可控性
通过检索结果引导生成方向

3.2 为什么不用向量数据库？

尽管向量数据库（如ChromaDB）在RAG中广泛应用，但本系统选择TF-IDF+CSV文件存储方案，原因包括：

维度	向量数据库方案	本系统方案
部署复杂度	需单独部署服务	零依赖，单文件运行
硬件要求	需要GPU加速	CPU即可运行
数据规模	适合百万级数据	千级文档最优
可维护性	需要专业DBA	直接修改CSV文件
学习成本	需掌握查询语法	开发者无需新知识

适合场景：

中小团队快速验证RAG价值
领域文档更新频率较低（周级）
测试数据规模<10万条

四、快速部署指南

4.1 环境准备

4.1.1 安装Python包

# 核心依赖
pip install streamlit pandas requests sklearn
# PDF处理
pip install PyPDF2 pdfminer.six
# JSON修复
pip install json_repair

4.1.2 获取API密钥

访问任何一个大模型提供商处注册账号，本文采用腾讯云
创建应用 → 获取sk-xxxx格式密钥

在代码中替换：

headers = {"Authorization": "Bearer sk-xxxx"}

4.2 系统启动

# 首次运行自动创建知识库目录
mkdir -p temp

# 启动Web服务
streamlit run testcase_generator.py

4.3 功能验证流程

上传领域文档：

进入"知识库管理"页
上传PDF格式需求文档/接口文档
查看处理后的知识段落
生成增强用例：

    需求示例：
    用户管理模块，包括用户注册和登陆等

勾选"使用知识库增强"
查看生成的边界值测试用例

结果导出：

pythonpd.DataFrame(new_cases).to_excel("output.xlsx")

直接复制JSON用例
通过Pandas导出Excel：

五、性能优化建议（有精力有能力的动手爱好者们可以继续优化）

5.1 知识库分级存储

# knowledge_segments.csv新增字段
knowledge_df['category'] = "需求文档"  # 需求文档|接口规范|测试报告
knowledge_df['importance'] = 5       # 1-5分级

检索时优先高等级知识片段

5.2 缓存机制

from functools import lru_cache

@lru_cache(maxsize=100)
def load_cases():
    # 缓存历史用例加载

5.3 异步处理

import asyncio

async def async_generate_cases():
    # 非阻塞生成

六、扩展方向

多模态支持：解析图片中的需求文档（OCR技术）
自动化评审：添加用例质量评分模型
CI/CD集成：与Jenkins/GitLab对接自动触发

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-12

还在靠 RAG 查文档？教你一招，AI 回答更靠谱！

2025-04-12

基于文本结构分块 - 文本分块（Text Splitting），RAG不可缺失的重要环节

2025-04-12

ReSearch 框架：让 AI 像人类一样边思考边搜索

2025-04-11

OlmOCR如何成为搭建RAG 知识库的"智能中枢"？

2025-04-10

RAG技术演进的四大核心命题

2025-04-10

另类RAG技术论文三篇分享、备忘

2025-04-10

旺精通~智能体检索增强生成(Agentic RAG)综述：背景、模型、框架、测试、展望

2025-04-10

RAG 的检索优化：MMR 平衡相关性与多样性

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网最全国内Agent平台深度测评：扣子、Dify、FastGPT，谁是你的Agent开发首选？

2024-10-27

一文彻底搞懂大模型 - RAG（检索、增强、生成）

2024-09-04

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

2024-05-05

RAG框架，都在这了!

2024-06-20

RAG 高效应用指南：Embedding 模型的选择和微调

2024-06-13

深入解析 Graph RAG：提升语言模型问答能力的创新策略

2024-07-09

微软开源的GraphRAG解读

2024-07-09

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

2024-05-19

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

2024-07-07

大家都在问

OlmOCR如何成为搭建RAG 知识库的"智能中枢"？

2025-04-11

构建Agentic RAG 系统的方法有哪些？

2025-04-09

【AI知识点】什么是Agentic RAG？

2025-04-07

从“人工智障”到“真智能”：AI智能体如何突破最后一道技术壁垒？

2025-04-05

有Embedding模型不够，还需要Rerank模型？

2025-04-04

RAG如何选择最佳分块大小？

2025-04-03

回答我！会不会搭建 DeepSeek 版个人知识库？

2025-04-02

DeepSeek+RAG可以继续做吗？

2025-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

8分钟打造一个DeepSeek生成测试用例系统知识库

一、背景与系统定位

1.1 为什么需要知识库？

二、核心逻辑解析

2.1 系统架构全景

2.2 关键技术点说明

2.2.2 增强检索引擎
`def find_similar_cases(new_req, df, top_k=3): # TF-IDF向量化 vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform(...) # 余弦相似度计算 similarity = cosine_similarity(tfidf_matrix[-1], tfidf_matrix[:-1]) return top_indices`

2.2.3 动态提示词工程
`system_prompt = f"""参考知识：文档《{item['document']}》第{item['page']}页：{item['content']} 历史用例{idx+1}: {case} 生成要求： 1. JSON数组格式... """`

三、关键技术选型解析

3.1 什么是RAG？

3.2 为什么不用向量数据库？

四、快速部署指南

4.1 环境准备

4.1.1 安装Python包
`# 核心依赖 pip install streamlit pandas requests sklearn # PDF处理 pip install PyPDF2 pdfminer.six # JSON修复 pip install json_repair`

4.1.2 获取API密钥

4.2 系统启动
`# 首次运行自动创建知识库目录 mkdir -p temp # 启动Web服务 streamlit run testcase_generator.py`

4.3 功能验证流程

五、性能优化建议（有精力有能力的动手爱好者们可以继续优化）

5.1 知识库分级存储
`# knowledge_segments.csv新增字段 knowledge_df['category'] = "需求文档" # 需求文档|接口规范|测试报告 knowledge_df['importance'] = 5 # 1-5分级`

5.2 缓存机制
`from functools import lru_cache @lru_cache(maxsize=100) def load_cases(): # 缓存历史用例加载`

5.3 异步处理
`import asyncio async def async_generate_cases(): # 非阻塞生成`

六、扩展方向

8分钟打造一个DeepSeek生成测试用例系统知识库

一、背景与系统定位

1.1 为什么需要知识库？

二、核心逻辑解析

2.1 系统架构全景

2.2 关键技术点说明

2.2.2 增强检索引擎def find_similar_cases(new_req, df, top_k=3): # TF-IDF向量化 vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform(...) # 余弦相似度计算 similarity = cosine_similarity(tfidf_matrix[-1], tfidf_matrix[:-1]) return top_indices

2.2.3 动态提示词工程system_prompt = f"""参考知识：文档《{item['document']}》第{item['page']}页：{item['content']}历史用例{idx+1}: {case}生成要求：1. JSON数组格式..."""

三、关键技术选型解析

3.1 什么是RAG？

3.2 为什么不用向量数据库？

四、快速部署指南

4.1 环境准备

4.1.1 安装Python包# 核心依赖pip install streamlit pandas requests sklearn# PDF处理pip install PyPDF2 pdfminer.six# JSON修复pip install json_repair

4.1.2 获取API密钥

4.2 系统启动# 首次运行自动创建知识库目录mkdir -p temp# 启动Web服务streamlit run testcase_generator.py

4.3 功能验证流程

五、性能优化建议（有精力有能力的动手爱好者们可以继续优化）

5.1 知识库分级存储# knowledge_segments.csv新增字段knowledge_df['category'] = "需求文档" # 需求文档|接口规范|测试报告knowledge_df['importance'] = 5 # 1-5分级

5.2 缓存机制from functools import lru_cache@lru_cache(maxsize=100)def load_cases(): # 缓存历史用例加载

5.3 异步处理import asyncioasync def async_generate_cases(): # 非阻塞生成

六、扩展方向

2.2.2 增强检索引擎
`def find_similar_cases(new_req, df, top_k=3): # TF-IDF向量化 vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform(...) # 余弦相似度计算 similarity = cosine_similarity(tfidf_matrix[-1], tfidf_matrix[:-1]) return top_indices`

2.2.3 动态提示词工程
`system_prompt = f"""参考知识：文档《{item['document']}》第{item['page']}页：{item['content']} 历史用例{idx+1}: {case} 生成要求： 1. JSON数组格式... """`

4.1.1 安装Python包
`# 核心依赖 pip install streamlit pandas requests sklearn # PDF处理 pip install PyPDF2 pdfminer.six # JSON修复 pip install json_repair`

4.2 系统启动
`# 首次运行自动创建知识库目录 mkdir -p temp # 启动Web服务 streamlit run testcase_generator.py`

5.1 知识库分级存储
`# knowledge_segments.csv新增字段 knowledge_df['category'] = "需求文档" # 需求文档|接口规范|测试报告 knowledge_df['importance'] = 5 # 1-5分级`

5.2 缓存机制
`from functools import lru_cache @lru_cache(maxsize=100) def load_cases(): # 缓存历史用例加载`

5.3 异步处理
`import asyncio async def async_generate_cases(): # 非阻塞生成`