微信扫码
与创始人交个朋友
我要投稿
—1—
RAG 的关键技术
索引表格方法概括:
图像表格索引:专对图片格式表格。
文本/JSON 表格索引:针对纯文本和 JSON 结构表格。
LaTeX 表格索引:专门处理 LaTeX 格式。
表格摘要索引:利用 LLM 或多模态模型生成表摘要。
结构化层级索引:按内容从小到大或依文档摘要,涵盖表格各部分(比如:行)至整体(图像、文本、LaTeX 表)。
—2—
现有开源解决方案
—3—
建议的解决方案
表格解析采用 Nougat,据称其表格检测优于 unstructured,擅长提取标题,便于标题与表格关联。
文档索引策略:小块含表格摘要,大块含 LaTeX 表格及标题,应用 Multi-Vector Retriever 存储方法。
表格内容汇总:表格及标题送入 LLM 生成摘要。
Nougat 源于 Donut,无需 OCR,整体架构请参考 Nougat 相关资料。
Nougat 解析公式表格的能力令人印象深刻,也能对表格标题进行关联(解析出来的表格式 LaTeX 格式),比如下面这个例子:
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-09
经济学人:OpenAI不会一直是微软囚禁的鸟
2024-11-08
AI 2.0时代,谁是未来的“掘金者”和“卖铲人”?
2024-11-08
水利大模型的建设思路、构建框架与应用场景初探
2024-11-08
陈曦:招商银行“低代码+大模型”创新实践
2024-11-08
大模型的科普及信创领域研发和场景应用
2024-11-08
威海:创新大模型应用 智“绘”政府数字化转型新模式
2024-11-08
百度智能云千帆 AppBuilder 大模型应用开发解读
2024-11-07
零一万物以“Infra+模型+应用”三体布局 ToB:以数字人、AI Infra 解决方案智赋企业数智化增长|FM 01.AI
2024-05-28
2024-04-26
2024-04-11
2024-08-21
2024-07-09
2024-07-18
2024-10-25
2024-08-13
2024-06-17
2024-07-01