AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


让GPT帮你读文档:一种简单的实现方法
发布日期:2024-09-03 05:30:48 浏览次数: 1765 来源:歪思大数据


GPT-4阅读文档的原理与人类阅读类似。想象一下,当您拿到一份数十页的PDF文件时,您会先关注哪些部分?摘要、总结以及目录结构。接着,您会在心里提出若干问题(大约3-5个),并带着这些问题继续阅读。
为了借助GPT-4实现高效阅读,并尝试突破单次 token 数量限制,我们需要使用官方提供的 embedding 工具箱。简单来说,embedding 的原理就是将一段文本压缩成一组向量数据,就像是将文章片段存储到大脑中。
因此,我们的程序分为以下几个步骤:
第一步:清洗并切片PDF文档
  1. 对PDF文档进行清洗,去除重复的页眉、页脚以及目录中的过长连字符,以尽量减少API调用次数(毕竟每次调用都需要花费)。
  2. 将文档按段落切片,对于过长的段落则拆分成两部分。
  3. 将所有切片输入API生成embedding,并将其存储到 parquet 文件格式中,便于后续复用。
第二步:生成概述和提出问题
  1. 读取文档前10页(不超过4096个token)的数据量,提交给GPT-4以生成概述。
  2. 让GPT-4根据概述提出五个相关问题。至此,阅读文档和提出问题的第一步已完成。
第三步:回答问题
以“问题一”为例,我们需要执行以下操作:
  1. 将“问题一”输入API生成embedding-1。
  2. 将embedding-1与之前生成的embedding集合进行一一比对,计算余弦相似度。
  3. 对数据进行排序,筛选出Top N条相似的embedding。
  4. 将第3步筛选出的embedding原文提交给GPT-4,让其生成一段通顺的回答。
  5. 输出第3步Top N的embedding原文,以便了解答案来源。
重复以上过程四次,即可让GPT-4回答五个问题。将所有内容整合到一个Markdown文件中保存即可。
第四步:提供额外的问题支持
有时,我们对GPT-4提出的问题可能并不满意,因此需要继续向文档提问。在这里,我们使用Python的input函数在命令行中执行上述提问流程。当我们提出所有想要问的问题后,这些后续问题的回答将整合到另一个Markdown文件中,并保存在与PDF文件同一路径下。
通过以上步骤,我们可以利用GPT-4更高效地阅读文档,并对文档内容进行深入理解。这种方法既节省了时间,又提高了工作效率,使得我们能够更轻松地处理大量文档资料。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询