微信扫码
添加专属顾问
我要投稿
探索AI优化知识库的高效路径,揭秘JSON格式的魅力所在。核心内容:1. JSON格式在知识库优化中的重要性2. JSON的简洁性和对AI友好的特性3. 适合转换为JSON格式的资料类型
字数 2934,阅读大约需 15 分钟
终于来了,大家久等了,我们继续聊知识库。
这是《知识库优化之路》系列的第二篇。
这个系列主要是面向普通小白用户,在资源条件、技术条件有限的情况下,如何仅仅从用户侧,做一些基本的知识库优化工作,希望能给大家带来一些帮助。
上一篇,我们已经介绍过,在使用CherryStudio知识库的过程中,为了让AI更好地理解知识库中的资料,可以使用工具把PDF文件转换为Markdown格式。
但是,并不是所有的资料都适合转成Markdown。有一些类型的资料,如果转换成JSON格式,效果会更好。
你可能没听说过它,但你的生活绝对离不开它。
JSON是一种轻量级的数据交换格式,它的应用非常广泛,在当今互联网或者其他涉及数据传输的地方,都必然会用到它。
当你通过网络查资料、看视频、购物、转账、聊天、看直播、发弹幕时,都有无数的信息以JSON的格式在网络上飞速传输。
不夸张地说,JSON是构成当代互联网的基石之一。
它到底是什么样子?我来举个例子说明一下。
假如你要记录一个人的信息,最简单的方式应该是这样的:
张三,男,汉族,32岁,70公斤,175厘米。
如果你想让这个信息更加的清晰易懂,你应该会这样写:
姓名:张三
性别:男
民族:汉族
年龄:32
体重:70公斤
身高:175厘米
恭喜你,你发明了JSON格式!
如果用JSON格式,上面的信息是这个样子的:
{
"姓名":"张三",
"性别":"男"
"民族":"汉族"
"年龄":32,
"体重":70,
"身高":175
}
这和你写的是不是基本一样?
JSON的核心,就是上面例子中的一一对应的“键值对”(前面是“键”,后边是“值”):“姓名”对应“张三”,“性别”对应“男”,“民族”对应“汉族”……
它就是通过这样简单的结构化表述,在记录信息的同时,也附带了信息的属性,让接收信息的人和机器都更容易理解。
因为它是一种独立于编程语言的数据格式,几乎所有编程语言都支持 JSON 的解析和生成。相比 XML 等其他数据格式,JSON 的语法更简洁,文件体积更小,传输效率更高。
对于AI和大模型来说,JSON也是它们的最爱,因为大模型擅长处理结构化数据。在大模型的训练过程中,有很多的资料,都是JSON的格式。
JSON格式能够清晰地表达数据之间的关系,方便大模型理解和利用,让它更好地学习和预测。JSON 格式的简洁性和广泛的语言支持,使得解析和生成 JSON 数据变得非常高效,降低了大模型的计算负担。
因此,在与大模型交互时,JSON 格式被广泛应用于数据交换、Prompt 工程和结果输出等方面。
通过上面的解读,你应该有个大概的判断,哪些资料更适合转成JSON格式。
譬如上一期提到的长文本的资料,就没有必要转。可能有些人已经发现,上次介绍的转Markdown工具MinerU,就可以直接把pdf转换成JSON格式。但是我仔细看过之后,发现效果并不好,所以并没有多提。
适合转换成JSON格式的资料大多具有明确固定的组成结构,大概包括但不限于以下这些:
这个问题有点复杂但也不难解决。
说它复杂,是因为上面提到了很多种的资料类型,再加上很多种的文件格式,考虑不同的使用场景,如果想找一个万能的工具,用户只需要把资料添加进去,它就能转换成完全符合要求的JSON文件,几乎不太可能。
说它不难解决,是因为我们有最强大的工具——AI。
既然没有通用的万能工具,那就可以让AI根据我们的需求,打造很多个专用的工具。
方法有两种:用AI生成一个网页版工具,或者生成Python代码来处理。
如何用AI生成网页版工具,我之前之前专门写过一篇教程:
教程:一个命令让DeepSeek变成超级神器,职场办公必备技能!
至于现在的问题,如何让AI结合自己的需求,生成一个网页版的工具,可以参考下面的提示词(以cvs文件为例):
根据用户创建本地知识库的需求,你需要帮用户生成一个网页版的工具,可以批量将用户提供的资料转成JSON格式,确保更适合嵌入模型的解析和理解。
具体功能要求:
1. 上传功能: 提供文件上传功能界面,支持批量上传文件。
2. 格式识别: 自动识别文件的格式,例如[cvs文件,以逗号分隔,第一行为标题行]。
3. 数据提取: 从文件中提取数据,并根据以下规则转换为 JSON 格式:
- 将每一行数据转换为一个 JSON 对象,使用标题行作为 JSON 对象的键。
- 数据清洗和转换规则,例如:将年龄转换为整数类型。
- 如果某个字段为空,则在 JSON 中设置为 null。
4. JSON 输出: 每个输入文件转换成一个JSON文件;显示生成后的文件别表;提供下载 JSON 文件的功能;支持单个下载和打包下载。
5. 用户界面:
简洁直观的用户界面。
提供上传进度显示。
提供错误提示信息。
允许用户预览转换后的 JSON 数据。
6. 技术要求:
生成单网页工具,可以使用 HTML, CSS, JavaScript,但只有一个文件html文件。
可以使用现成的库来处理文件解析和 JSON 转换 (例如 csv-parser, pdfminer, docx2txt)。
其他要求:
考虑处理大文件的性能优化。
请提供完整的 代码。
特别提醒:
我用上面的提示层生成的工具是这样的:
支持添加多个csv文件,转换之后支持直接预览查看,支持打包下载,基本上符合了提示词的要求。
用Python的整体思路,其实是和上面一样的,只不过实现方式不同而已。只需要把提示词稍加修改,就可以使用了。
相对来说,Python的门槛稍高一点,也需要本地先安装Python,嫌麻烦、不太懂的朋友不用尝试这种方式。
Python适合大批量、自动化的处理方式,当然前提是你已经通过反复测试,确认AI生成的工具能够生成符合你要求的JSON文件。
以我自己的实际使用案例来说,我之前收集了有2000多个中国古代的笑话,原本是存在一个数据库文件里。
最开始建知识库的时候,我是用Python把它们到处成一个txt文件,格式是这样的:
在知识库里搜索,发现搜出来的片段,会把完整的故事从中间截断。
当我把输入资料换成JSON格式以后,再看搜索结果,你会发现每一个片段都是一个完整的故事,也就是一个完整的JSON对象。
里面除了故事本身,其他相关的数据也都在一起。
当AI拿到这样的数据片段,它不但知道故事的内容,还知道故事的出处、作者、译文、编号等等。
想象一下,如果你的知识库里,都是这样完整的数据片段,那么对于AI来说,生成内容的质量一定会有所提升。
这就是JSON格式的好处所在。
当然了,想把各种不同类型、不同格式资料转换成JSON,也不是很容易的事,但是这种效果提升是值得去尝试的。
如果你在这个过程中遇到问题,欢迎在本文下方留言反馈,探讨交流。
今天给大家介绍了提升知识库效果的另一种技巧:把资料转换成JSON格式。
这一步在操作难度上,是高于Markdown转换的,但是它所带来的效果提升,也是很明显的。希望大家能都摸索尝试。
最重要的是,如果有问题,多问AI。只要你给AI 提供的信息足够多,AI大多数情况下,都是可以帮你解决的。
这期内容就到这里,接下来,我们还会从其他方面,继续优化本地知识库的使用体验。
如果你想继续关注这个话题,或者想了解其他关于AI的基础知识、应用技巧、工具教程,可以关注本账号“AI的回响”,我们一起学习交流!
两个好消息:
1. 微信公众号现在已支持在正文中直接评论,如果你在阅读过程中针对哪句话有疑问或者想法,都可以长按选中后选择“写评论”,直接表达出来。
2. 微信官方利用AI能力为微公众号提供了智能回复功能,AI在学习过本公众号的所有内容后,会根据历史发表内容给你提供智能回复,感兴趣的朋友大家可以试试。
<完>
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-20
Manus 是大模型 AI Agent + MCP, 那什么是模型上下文协议 (MCP)?
2025-03-20
MCP:颠覆AI交互的新革命,你真的懂了吗?MCP从零到一实战指南!
2025-03-20
看完2025黄仁勋GTC演讲,分享四个值得关注的要点
2025-03-20
AI 智能化的选择:API Agents 和 GUI Agents 的碰撞与融合
2025-03-20
🧠 解码大语言模型的记忆力:上下文长度的前世今生
2025-03-20
你管这破玩意叫 MCP?
2025-03-20
Cherry Studio 新版上线 MCP 功能,解锁 AI 交互新体验
2025-03-20
PLZ,别再误解大模型联网搜索了
2024-08-13
2024-06-13
2024-09-23
2024-08-21
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-20
2025-03-20
2025-03-19
2025-03-19
2025-03-18
2025-03-18
2025-03-18
2025-03-18