微信扫码
与创始人交个朋友
我要投稿
论文题目:《A Method for Parsing and Vectorization of Semi-structured Data used in Retrieval Augmented Generation》
论文链接:https://arxiv.org/abs/2405.03989
代码: https://github.com/linancn/TianGong-AI-Unstructure/tree/main
这篇论文提出了一种新方法,用于解析和向量化半结构化数据,以增强大型语言模型(LLMs)中的检索增强生成(RAG)功能。但是读下来感觉并不是很“新”,基本是常见文本解析的流程,不过通过论文效果图看起来不同文件解析效果还可以,并且公开了源码,大家可以借鉴下。
这篇论文通过以下步骤解决提高大型语言模型(LLMs)在特定领域性能的问题:
.docx
格式。.docx
格式因其标准化、高质量的文本、易于编辑、广泛的兼容性和丰富的元数据内容而被选为处理和提取结构化数据的首选格式。.docx
文件分割为多个元素,包括标题、文本、图像、表格、页眉和页脚。然后,通过特定的数据清洗过程,进一步筛选和整理这些元素,以提高模型效率。chunk_by_title
函数,将文档系统地分割成不同的子部分,将标题作为章节标记,同时保留文档的详细结构。论文
电子书
图片
表格
html
对每个文件格式写了不同的处理方式,可以借鉴下,但不是想象中的完全自动化或者智能化
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19