我要投稿

大模型读取文档后“胡诌”？试试TextIn Tools！

发布日期：2024-06-15 10:04:42 浏览次数： 3064 作者：合研社

今年的5月14日，OpenAI推出GPT-4o，到5月下旬，国内大模型开打价格战，各大厂商的主力模型降价90%以上，大量C端应用全面免费开放。

大模型问答产品不再是高端科技玩家的专属了。随着使用门槛逐渐降低，我们这些不会写专业Prompt、非科技领域的用户也可以用相当口语化的方式让大模型替代人力，完成一部分工作。

不过，当使用者越来越多，大家在网上分享的“不满意案例”也五花八门起来。在社交媒体平台上，我们经常可以看见对大模型“不够准确”、“回答不智能”、甚至“胡说八道”的抱怨。

以金融领域从业者为例，有用户朋友告诉我们，他经常使用大模型做企业年报阅读、总结、信息提取的工作。在总结概括方面，大模型可算是不错的“智能助手”，但当他的要求具体到精准的信息提取，就时常会碰到幻觉问题。大模型无法在文件中定位提取正确内容，凭空编造了信息，或者通过网络检索而不是根据所给文档来回答提问。

大模型开始“胡诌”，使用者痛苦翻倍——想象一下，当你在赶工一篇分析报告，本想指望AI帮忙提效，结果反而在给AI纠错，根本分不清谁在给谁打工。

我们猜测，这种情况的出现有多种可能性：首先，部分年报文件长达数百页，输入和输出所需要的上下文长度很有可能超出了大模型的token限制，于是出现了定位不准的编造式生成；其次，年报中通常含有大量图表，如果图表以图片格式呈现在PDF文件中，大模型可能无法正确解析，从而失去了关键数据信息。

以上图为例，图中表格即是以图片格式嵌入文件。

当大模型遇到更“非专业”的场景，例如有手写改动痕迹的出入库单、打印或扫描不太清晰的医疗检验报告，往往会表现得不尽如人意。

无线表格识别不佳、数据提取错误、信息再整合失败，都是阻碍我们使用大模型“减负”的障碍。

好不容易拍照扫描上传一堆文件，得到的结果却错误百出。难怪经常看到吐槽：教大模型工作比自己手动做完还耗时呢！

那么，有哪些方法可以提升C端日常的大模型使用效果吗？

大模型不行？我们不会用？

是大模型不行，还是用户不会用？这两个问题的答案显然都不是肯定的。

首先，大模型的训练和优化需要庞大的算力与数据支撑，在过去的两年中，大模型正以惊人的速度成长，我们并不怀疑它将改变现有的工作方式，而任何一种新技术、新工具进入社会，都必然有其碰撞磨合的时期。

其次，大模型相关产品要走进工作、生活的各个领域，显然不能要求所有人都具备详尽的技术知识储备，例如掌握提示词、提示工程（Prompt Engineering）的工作逻辑，才能和AI有效沟通。

技术的开发更新是为了使更多人获益，而不是制造知识壁垒。

对我们来说，越接近人际交流模式，大模型越好用。

在上述使用案例中，针对当前的大模型问答产品使用情况，有几种方法有利于提升使用效果：第一，缩减输入给大模型的上下文长度，人工进行第一轮信息初筛；第二，用更有效的Prompt和大模型沟通——然而，两者都要求使用者付出更高的人力成本，或等待大模型相关产品的优化迭代，这些并不是我们所期待的解法。

尽管如此，面对大模型文件识别困难、信息提取失败的问题，我们却可以从另一个角度，找到方便、快捷的解决方案。

目前，大模型大多支持多模态交互，但当用户上传非电子文档或包含复杂版面结构的文件时，回答效果却不算太好。主要问题在于，文件解析过程中，复杂结构解析错误或丢失，影响了回答结果的生成。例如，无线表格一旦识别解析出错，行列等对应信息混乱，其中包含的精确数据就失去其含义，变成对后续理解生成无用的数据了。

对大模型来说，包含结构信息的Markdown、JSON等格式是较好的文件输入方式，尤其Markdown通常与大模型训练时的文件格式一致，对它来说明确易读、“亲切友好”。

因此，解析高效、准确度高、兼容性好、支持多种格式的文件解析“外挂”工具是C端使用大模型的优秀助手。

推荐一款方便易用、大模型友好的解析工具——TextIn文档解析。它支持将任意格式的文件（图片、PDF、Doc/Docx、网页等）解析为Markdown或JSON格式，速度最快可达1.5s内解析100页长文档，在移动端操作也不必上传一个或多个长文档后抱着手机等待。同时，TextIn文档解析有着优质的解析准确度，能够处理复杂表格、扫描文件，让我们不必再用手机拍摄的弯曲、暗色文件照片和大模型较劲。

让我们来看看它的实际应用。

02 解析工具有效吗？