支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


知识库优化之路(二):喂给AI最喜欢的数据格式JSON

发布日期:2025-03-20 04:52:11 浏览次数: 1523 来源:AI的回响
推荐语

探索AI优化知识库的高效路径,揭秘JSON格式的魅力所在。

核心内容:
1. JSON格式在知识库优化中的重要性
2. JSON的简洁性和对AI友好的特性
3. 适合转换为JSON格式的资料类型

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家



【原创版权,获取转载授权请加V:flatverse】

 

字数 2934,阅读大约需 15 分钟

知识库优化之路(二)

终于来了,大家久等了,我们继续聊知识库。

这是《知识库优化之路》系列的第二篇。

这个系列主要是面向普通小白用户,在资源条件、技术条件有限的情况下,如何仅仅从用户侧,做一些基本的知识库优化工作,希望能给大家带来一些帮助。

上一篇,我们已经介绍过,在使用CherryStudio知识库的过程中,为了让AI更好地理解知识库中的资料,可以使用工具把PDF文件转换为Markdown格式。

知识库优化之路(一):把PDF文件转成Markdown格式

但是,并不是所有的资料都适合转成Markdown。有一些类型的资料,如果转换成JSON格式,效果会更好。

什么是JSON?

你可能没听说过它,但你的生活绝对离不开它。

JSON是一种轻量级的数据交换格式,它的应用非常广泛,在当今互联网或者其他涉及数据传输的地方,都必然会用到它。

当你通过网络查资料、看视频、购物、转账、聊天、看直播、发弹幕时,都有无数的信息以JSON的格式在网络上飞速传输。

不夸张地说,JSON是构成当代互联网的基石之一。

它到底是什么样子?我来举个例子说明一下。

假如你要记录一个人的信息,最简单的方式应该是这样的:

张三,男,汉族,32岁,70公斤,175厘米。

如果你想让这个信息更加的清晰易懂,你应该会这样写:

姓名:张三
性别:男
民族:汉族
年龄:32
体重:70公斤
身高:175厘米

恭喜你,你发明了JSON格式!

如果用JSON格式,上面的信息是这个样子的:

{
    "姓名":"张三",
    "性别":"男"
    "民族":"汉族"
    "年龄":32,
    "体重":70,
    "身高":175
}

这和你写的是不是基本一样?

为什么AI更喜欢JSON?

JSON的核心,就是上面例子中的一一对应的“键值对”(前面是“键”,后边是“值”):“姓名”对应“张三”,“性别”对应“男”,“民族”对应“汉族”……

它就是通过这样简单的结构化表述,在记录信息的同时,也附带了信息的属性,让接收信息的人和机器都更容易理解。

因为它是一种独立于编程语言的数据格式,几乎所有编程语言都支持 JSON 的解析和生成。相比 XML 等其他数据格式,JSON 的语法更简洁,文件体积更小,传输效率更高。

对于AI和大模型来说,JSON也是它们的最爱,因为大模型擅长处理结构化数据。在大模型的训练过程中,有很多的资料,都是JSON的格式。

JSON格式能够清晰地表达数据之间的关系,方便大模型理解和利用,让它更好地学习和预测。JSON 格式的简洁性和广泛的语言支持,使得解析和生成 JSON 数据变得非常高效,降低了大模型的计算负担。

因此,在与大模型交互时,JSON 格式被广泛应用于数据交换、Prompt 工程和结果输出等方面。

哪些资料适合转成JSON?

通过上面的解读,你应该有个大概的判断,哪些资料更适合转成JSON格式。

譬如上一期提到的长文本的资料,就没有必要转。可能有些人已经发现,上次介绍的转Markdown工具MinerU,就可以直接把pdf转换成JSON格式。但是我仔细看过之后,发现效果并不好,所以并没有多提。

适合转换成JSON格式的资料大多具有明确固定的组成结构,大概包括但不限于以下这些:

  1. 1. 试卷题目:这是很多人都有的需求。可以把题目首先拆分出来,然后每一道题转换为一个JSON对象,把问题、答案、题目类型、相关知识点、解题思路等都保存在一起。
  2. 2. 客服问答:这一世很经典的一类使用场景,整体结构和上面的其实有点像,可以直接参考。
  3. 3. 产品目录: 电商网站或者企业的产品目录通常包含各种结构化的信息,例如产品名称、描述、价格、规格等。可以将这些信息转换为 JSON 格式,以便嵌入模型能够理解产品的特征和属性。
  4. 4. 法律文档: 某些法律文档,比如合同、条款,如果其关键信息能够被结构化提取(例如当事人、标的、生效日期等),则可以转换为JSON。
  5. 5. 电子病历: 病人的电子病历通常包含各种结构化的信息,例如诊断、处方、检查结果等。可以将这些信息转换为 JSON 格式,以便嵌入模型能够理解病人的病史和病情。
  6. 6. 数据库导出数据: 从关系型数据库导出的数据,通常具有清晰的表结构和字段定义。可以将每一行数据转换为一个 JSON 对象,每个字段对应一个键值对。
  7. 7. API 返回的数据: 大部分 API 都以 JSON 格式返回数据。这些数据通常已经具有良好的结构化,可以直接作为嵌入模型的输入。
  8. 8. 可以举一反三,与上面列举的这些类型相似的资料,都可以转换成JSON格式。

如何转换成JSON格式?

这个问题有点复杂但也不难解决。

说它复杂,是因为上面提到了很多种的资料类型,再加上很多种的文件格式,考虑不同的使用场景,如果想找一个万能的工具,用户只需要把资料添加进去,它就能转换成完全符合要求的JSON文件,几乎不太可能。

说它不难解决,是因为我们有最强大的工具——AI

既然没有通用的万能工具,那就可以让AI根据我们的需求,打造很多个专用的工具。

方法有两种:用AI生成一个网页版工具,或者生成Python代码来处理。

1 让AI生成网页版转JSON工具

如何用AI生成网页版工具,我之前之前专门写过一篇教程:

教程:一个命令让DeepSeek变成超级神器,职场办公必备技能!

至于现在的问题,如何让AI结合自己的需求,生成一个网页版的工具,可以参考下面的提示词(以cvs文件为例):

根据用户创建本地知识库的需求,你需要帮用户生成一个网页版的工具,可以批量将用户提供的资料转成JSON格式,确保更适合嵌入模型的解析和理解。

具体功能要求:
1.  上传功能: 提供文件上传功能界面,支持批量上传文件。
2.  格式识别: 自动识别文件的格式,例如[cvs文件,以逗号分隔,第一行为标题行]。
3.  数据提取:  从文件中提取数据,并根据以下规则转换为 JSON 格式:
       - 将每一行数据转换为一个 JSON 对象,使用标题行作为 JSON 对象的键。
       - 数据清洗和转换规则,例如:将年龄转换为整数类型。
       - 如果某个字段为空,则在 JSON 中设置为 null。
4.  JSON 输出:  每个输入文件转换成一个JSON文件;显示生成后的文件别表;提供下载 JSON 文件的功能;支持单个下载和打包下载。
5.  用户界面:
       简洁直观的用户界面。
       提供上传进度显示。
       提供错误提示信息。
       允许用户预览转换后的 JSON 数据。
6.  技术要求:
       生成单网页工具,可以使用 HTML, CSS, JavaScript,但只有一个文件html文件。
       可以使用现成的库来处理文件解析和 JSON 转换 (例如 csv-parser, pdfminer, docx2txt)。

其他要求:
   考虑处理大文件的性能优化。
   请提供完整的 代码。

特别提醒

  1. 1. 请一定不要直接使用上面的提示词,仅提供思路和方法参考。
  2. 2. 每一份资料的内容格式都可能不一样,需要你针对不同类型的资料,调整提示词,才能生成更有针对性的工具
  3. 3. 如果你不太确定提示词应该怎么写,可以把需求说清楚,让AI生成提示词。
  4. 4. 使用AI生成的工具转换成的JSON文件,可以用记事本打开查看内容,有什么问题告诉AI,让它继续优化工具。

我用上面的提示层生成的工具是这样的:

支持添加多个csv文件,转换之后支持直接预览查看,支持打包下载,基本上符合了提示词的要求。

2 用AI生成Python代码转JSON

用Python的整体思路,其实是和上面一样的,只不过实现方式不同而已。只需要把提示词稍加修改,就可以使用了。

相对来说,Python的门槛稍高一点,也需要本地先安装Python,嫌麻烦、不太懂的朋友不用尝试这种方式。

Python适合大批量、自动化的处理方式,当然前提是你已经通过反复测试,确认AI生成的工具能够生成符合你要求的JSON文件。

转化效果如何

以我自己的实际使用案例来说,我之前收集了有2000多个中国古代的笑话,原本是存在一个数据库文件里。

最开始建知识库的时候,我是用Python把它们到处成一个txt文件,格式是这样的:

在知识库里搜索,发现搜出来的片段,会把完整的故事从中间截断。

当我把输入资料换成JSON格式以后,再看搜索结果,你会发现每一个片段都是一个完整的故事,也就是一个完整的JSON对象。

里面除了故事本身,其他相关的数据也都在一起。

当AI拿到这样的数据片段,它不但知道故事的内容,还知道故事的出处、作者、译文、编号等等。

想象一下,如果你的知识库里,都是这样完整的数据片段,那么对于AI来说,生成内容的质量一定会有所提升。

这就是JSON格式的好处所在

当然了,想把各种不同类型、不同格式资料转换成JSON,也不是很容易的事,但是这种效果提升是值得去尝试的

如果你在这个过程中遇到问题,欢迎在本文下方留言反馈,探讨交流。

总结

今天给大家介绍了提升知识库效果的另一种技巧:把资料转换成JSON格式。

这一步在操作难度上,是高于Markdown转换的,但是它所带来的效果提升,也是很明显的。希望大家能都摸索尝试。

最重要的是,如果有问题,多问AI。只要你给AI 提供的信息足够多,AI大多数情况下,都是可以帮你解决的。

这期内容就到这里,接下来,我们还会从其他方面,继续优化本地知识库的使用体验。

如果你想继续关注这个话题,或者想了解其他关于AI的基础知识、应用技巧、工具教程,可以关注本账号“AI的回响”,我们一起学习交流!


两个好消息:

1. 微信公众号现在已支持在正文中直接评论,如果你在阅读过程中针对哪句话有疑问或者想法,都可以长按选中后选择“写评论”,直接表达出来

2. 微信官方利用AI能力为微公众号提供了智能回复功能,AI在学习过本公众号的所有内容后,会根据历史发表内容给你提供智能回复,感兴趣的朋友大家可以试试。

<完>



我听到了「AI」的回响
我看到了「人工智能」的激荡
这是星辰大海的船票
亦是新大陆的曙光
与万千同行者共赴
关注一下 我们即刻启航


 


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询