论文主题内容介绍

研究背景

文本到表(Text-to-table)作为自然文本和结构化存储、统计分析、检索和推荐等信息系统之间的桥梁受到了广泛关注。现有的研究已经经历了从传统的自下而上的IE(信息提取)到自上而下的基于LLM的RAG(检索增强生成)问答的范式转变。此外,这些方法主要采用端到端模型或使用多级流水线基于静态表结构提取文本内容。然而,它们忽略了处理精确的内部文档证据提取和动态信息,如多个实体和事件,这些信息无法在静态表头格式中定义,但在自然文本中非常常见。

解决方案

为了解决这个问题,我们提出了一个名为TST的两阶段动态内容提取代理框架(Text-Schema-Table)。

  • 类型识别器:通过遍历领域知识图谱Schema来并结合规则和术语集方法提取上下文证据。
  • 计数器:基于召回的证据,统计每个动态对象的总实例。
  • 提取器:基于召回的证据和动态实例序数,提取多实例对象中的具体信息。
Fig 1. TST框架.

通过与不同数据集的现有方法进行广泛比较,我们的提取框架展现出了最先进的(SOTA)性能。

蒋沛文个人介绍

本科毕业学校:浙江大学

研究方向:大模型应用算法