我要投稿

【TKGQA】关于时间知识图谱问答的一篇综述

发布日期：2024-07-08 08:57:50 浏览次数： 2553 作者：大模型自然语言处理

前言

时间知识图谱问答（TKGQA）是KBQA中一个关注时间问题的重要子任务。时间问题包含时间约束、需要时间标记的答案，反映了现实世界事件的动态和演变性质。

通常表示为 G = (E, R, T, F)，其中 E、R、T 和 F 分别代表实体（entities）、关系（relations）、时间戳（timestamps）和事实（facts）。
一个时态事实 f ∈ F 由一个或多个实体、关系和相关的时间戳组成。
时态事实可以以多种形式表示，包括复合值类型（Compound Value Types，简称 CVTs）、三元组、n-元组、五元组和四元组。

时间知识图谱问答（TKGQA）任务：
给定时态知识图谱 G 和自然语言中的时态问题 q，TKGQA 任务的目标是使用 G 中的一组实体{ e | e ∈ E }或时间戳 {τ | τ ∈ T}来回答 q。

作者们根据问题内容、答案类型和复杂性三个维度对时态问题进行了分类：

时态粒度（Temporal Granularity）：问题可以根据其时态表达式的粒度进行分类，常见的粒度包括“年”、“月”、“日”，其中“年”是最常见的。
时态表达式（Temporal Expression）：
问题可以基于其时态表达式的性质被分类为显式的或隐式的。显式的时态表达式可以在不需要额外上下文的情况下标准化（例如，“2023年9月”可以标准化为2023-09）。而隐式的时态表达式，如事件名称或具有时态范围的短语（例如，“2024年巴黎奥运会”），需要上下文信息才能被标准化为特定的时间间隔。
时态约束（Temporal Constraints）：
时态约束的类型反映了时态表达式之间的时态关系。作者简化了 Allen 的内部代数用于时态推理，将其归纳为六种关系类型：Before/After（之前/之后）、Equal（相等）、Overlap（重叠）、During/Include（期间/包含）、Start/End（开始/结束）、Ordinal（序数）。
时态约束组合（Temporal Constraints Composition）：
当一个问题中存在多个时态约束时，就会发生时态约束的组合。例如，“谁是2005年第一个要求与多哥会面的？”这个问题结合了 Equal 类型的约束“在2005年”和 Ordinal 类型的约束“第一个”，答案必须同时满足这两个约束。

答案类型（Answer Type）：
时态问题可能需要的答案类型可以是实体的集合或时间戳的集合，时间戳的粒度会根据具体问题而变化。答案类型由问题词引导，例如“谁”用于实体，“哪一年”用于时间戳。
复杂性（Complexity）：
KBQA 任务中定义复杂问题为需要从多个事实中检索答案的问题。受这些工作启发，作者也根据复杂性对时态问题进行了分类，将时态问题分为简单和复杂两类。

简单问题（Simple questions）：简单问题依赖于单一事实进行解答。例如，“2012年德国使用的货币是什么？”只需要检索一个事实 <德国, 货币, 欧元, 2012>。
复杂问题（Complex questions）：复杂问题需要整合多个事实。例如，“奥巴马之前的美国总统是谁？”首先根据事实 <奥巴马, 美国总统, 2009, 2017> 建立时间约束“2009年之前”，然后系统识别出立即之前的个人，通过事实 <乔治·W·布什, 美国总统, 2001, 2009> 确认为乔治·W·布什，这种多步骤推理过程展示了这类问题的复杂性。

通常有四个步骤：

问题理解（Question Understanding）：将自然语言问题转换为编码表示，以便于后续解析。例如，使用抽象意义表示（AMR）来捕捉时态词汇和隐式的时态约束。
逻辑解析（Logical Parsing）：将编码的问题转换为未实例化的逻辑形式。这可能涉及到使用预定义的规则或模板来解析问题。
TKG 定位（TKG Grounding）：通过TKG中的元素（实体、关系、时间戳）来定位未绑定的逻辑形式中的元素。
查询执行（Query Execution）：执行定位后的逻辑形式，以从TKG中检索最终答案。一些方法在这一阶段进行时态推理。