微信扫码
与创始人交个朋友
我要投稿
引言
信息抽取概述
信息抽取(IE)旨在从未结构化或半结构化的文本中识别和提取特定类型的信息。信息抽取的主要任务包括:
1. 命名实体识别(NER) : 识别文本中的命名实体,如人名、地点、组织、时间等。
2. 关系抽取(RE):识别文本中实体之间的关系,如“A是B的父亲”。
3. 事件抽取(EE):识别文本中的事件及其与实体的关联。
案例-用飞书多维表格-捷径字段快速批量提取实体
上面任务中,提示词采用具体任务+one-shot(参考示例),当然,当我们需要大量的数据进行批量解析时,可以如何处理呢?当然我们可以通过在提示词中全部把任务提交给大模型,比如智谱最大输入限制目前能到2万,一些大批量任务也是可行的。但本次我们提供一种新的解决方法,利用飞书的多维表格。
飞书多维表格中,有字段捷径,如上图中的,解析结果-V1字段,采用内置的信息提取字段捷径即可批量进行信息提取了。
当然,以上两个任务中,可能存在的问题有,比如提取的要素不准确,任务1中,同样是抗渗等级,第一次解析成耐久性等级,第二次解析成抗渗等级。商品混凝土,要求解析成供应方式:预拌。可能不满足实际业务要求。任务2中,解析的属性与属性值可能跟实际业务不符。这种情况应该如何改进呢?我们来看任务3。
本案例,用提取普通混凝土这一类材料,提取的属性有品类、强度等级、抗渗等级、外加剂类型、是否泵送五个。
以下调整后的提示词:
##提取信息 |
实际输出结果:选取100条数据进行验证,对输出的100条结果进行判定后,准确率100%。
当然,实际的应用案例还有很多,比如以下
在医疗领域,信息抽取技术可以用于从临床文档中提取病人的重要信息,以便医生作出更准确的诊断。
在金融领域,通过抽取新闻或社交媒体中的关键信息,机器可以更准确地预测股票价格的走势。
在法律领域,信息抽取可以帮助律师从大量文档中找出关键证据,从而更有效地构建或驳斥案件。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-04
2024-09-26
2024-10-30
2024-12-25
2024-10-30
2024-09-03
2024-09-06
2024-08-18
2024-11-23
2024-09-02