信息提取(IE)旨在从非结构化文本中提取结构化信息。关系抽取作为IE的一个子领域,目的是识别出实体(S和O)之间特定的关系(P)。现有的基于神经学习的方法在精确度上表现良好,但存在召回率(即识别出所有相关实体的能力)有限的问题。此外,这些方法大多只能处理单个段落,而无法从长篇文本中提取信息。因此,提出了从长文本(如整本书或多个网页)中提取与特定主题相关的长对象列表的问题。
通过在新构建的数据集上进行实验,该数据集包含10本书籍和8种关系类型
L3X方法在召回率和R@P指标上显著优于仅使用LLM生成的方法。L3X方法能够有效地从长文本中提取长对象列表,并且通过不同的提示、段落排名和批处理技术,可以进一步提高性能。
RecallThemAll:Retrieval-AugmentedLanguageModelsforLongObjectListExtractionfromLongDocumentshttps://arxiv.org/pdf/2405.02732
推荐阅读
•对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
•2024:ToB、Agent、多模态
•TA们的RAG真正投产了吗?(上)
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
| 欢迎光临 链载Ai (https://www.lianzai.com/) | Powered by Discuz! X3.5 |