论文主题内容介绍

研究背景

从非结构化或半结构化文本中提取结构化信息对自然语言处理具有重要意义,因为它意味着通过基于规则、统计或深度学习的方法提取有价值的信息来压缩文本并服务下游应用。然而,文本到表格任务的重要性和难度被低估了。目前使用的数据集通常结构简单、虚构,而不是来自现实世界的需求。相比之下,表格数据是定量统计分析的重要基础,在各个领域都具有巨大的价值,包括商业智能、自然科学和社会科学。

现有数据集统计V-Shape和L-Shape特性
CPL数据集概览

我们在本文中分析了以往数据集的局限性,并重新定义了文本到表格的任务,在此基础上,我们提出了一个新的数据集,称为CPL(中国民间借贷),来自一个现实世界的法律学术项目。我们进一步提出了TKGT,这是一种两阶段的领域感知pipline:

  1. 首先使用混合信息提取(mixed IE)方法从原始文本中半自动生成领域知识图(KG)类;
  2. 在KG类的指导下,采用混合检索增强生成(Hybird RAG)方法将其转换为下游需求的表。
TKGT两阶段Pipeline框架

实验结果表明,TKGT在传统数据集如Rotowire和我们提出的CPL上都达到了SOTA表现。

蒋沛文个人介绍

  • 本科毕业学校:浙江大学
  • 研究方向:大模型推理系统和应用算法